Page 329 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 329

đáng tin cậy. Nhằm giải quyết tình trạng khan hiếm dữ liệu và không đủ đa
          dạng dữ liệu trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên,
          người ta thường áp dụng kỹ thuật tăng cường dữ liệu. Đây là kỹ thuật làm mở
          rộng kích thước của tập dữ liệu huấn luyện bằng cách tạo ra các phiên bản
          khác nhau của bộ dữ liệu ban đầu.
               ❖  Tăng cường dữ liệu đối với dữ liệu hình ảnh

               Trong thị giác máy tính, việc tích lũy đủ dữ liệu là điều cần thiết nhằm
          đạt được hiệu suất tối ưu, các phương pháp thường dùng là lật hình ảnh theo
          chiều ngang, cắt ngẫu nhiên và thay đổi màu sắc, ví dụ như trong nghiên cứu
          của Sharif Razavian et al. (2014). Hay Krizhevsky et al. (2012) thì sử dụng
          một kỹ thuật tăng cường màu PCA – làm thay đổi cường độ của các kênh
          RGB trong các hình ảnh huấn luyện.

               Theo Chlap et al. (2021), tăng cường dữ liệu được xem là một phương
          pháp phổ biến để tăng kích thước của tập dữ liệu huấn luyện khi làm việc với
          hình ảnh y tế. Trong thị giác máy tính, một loạt dữ liệu được đưa vào mạng
          nơ-ron, nó sẽ được chuyển đổi ngẫu nhiên (tăng cường) thông qua trình tạo
          dữ liệu (data generators).
               Đối với dữ liệu dạng hình ảnh, người ta thường áp dụng các phương
          pháp như:

               •  Các phép biến đổi hình học (geometry based) như lật, cắt, xoay hoặc
                  dịch ảnh ngẫu nhiên (Hussain et al., 2017).

               •  Chuyển đổi không gian màu (color space): thay đổi các kênh màu
                  RGB, tăng hoặc giảm bất kỳ màu nào, tăng độ sắc nét, tăng tính
                  tương phản,… (Galdran et al., 2017).

               •  Thêm nhiễu (noise/occlusion): thêm nhiễu cho ảnh như nhiễu ngẫu
                  nhiên, nhiễu có mẫu, nhiễu do nén ảnh,… (Hussain et al., 2017).

               •  Xóa ngẫu nhiên (random crop): xóa ngẫy nhiên một phần hình ảnh
                  ban đầu mà vẫn giữ lại thành phần chính của bức ảnh (Takahashi et
                  al., 2020).
               •  Biến đổi thời tiết (weather): thêm tác dụng của thời tiết như mưa,
                  tuyết, sương mờ,… (Tumas et al., 2021)

               Hussain et al. (2017) nghiên cứu các chiến lược khác nhau để phân loại
          hình ảnh nhị phân của hình ảnh chụp X-quang tuyến vú khối lượng và không



                                                                                315
   324   325   326   327   328   329   330   331   332   333   334