Page 330 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 330

khối lượng (mass and non-mass mammogram images), sử dụng các phép tăng
          cường dữ liệu trên hình ảnh và huấn luyện 8 mạng VGG-16 trên tám bộ dữ
          liệu tăng cường. Các phép tăng cường được sử dụng là lật, nhiễu Gaussian,
          chia tỷ lệ, quay,…
               Galdran et al. (2017) sử dụng các kỹ thuật tính toán không đổi màu để
          xây dựng kỹ thuật tăng cường dữ liệu cho hình ảnh soi da thu được từ các
          thiết bị hình ảnh khác nhau. Các tác giả áp dụng kỹ thuật cố định màu để
          chuẩn hóa màu cho toàn bộ tập ảnh huấn luyện trong khi vẫn giữ lại mức độ
          chiếu sáng ước tính.

               Mikołajczyk  and  Grochowski  (2018) đã so  sánh và phân tích nhiều
          phương pháp tăng cường dữ liệu trong nhiệm vụ phân loại hình ảnh như xoay,
          cắt,  thu  phóng,… và trình bày phương pháp tăng cường dữ  liệu dựa trên
          chuyển kiểu hình ảnh. Phương pháp này cho phép tạo ra các hình ảnh mới có
          chất lượng cảm quan cao kết hợp giữa nội dung của hình ảnh ban đầu với sự
          xuất hiện của một hình ảnh khác.

               Takahashi et al. (2020) đề xuất kỹ thuật tăng cường dữ liệu mới gọi là
          cắt  và  vá  hình  ảnh  ngẫu  nhiên  (random  image  cropping  and  patching  -
          RICAP), kỹ thuật này cắt ngẫu nhiên bốn hình ảnh và vá chúng lại với nhau
          để tạo ra một hình ảnh huấn luyện mới.

               ❖  Tăng cường dữ liệu đối với dữ liệu văn bản

               Khác với thị giác máy tính, tăng cường dữ liệu trong Xử lý ngôn ngữ tự
          nhiên (natural language processing - NLP) cần được thực hiện cẩn thận do
          cấu trúc ngữ pháp của văn bản, tập dữ liệu được tăng cường sẽ được tạo trước
          và sau đó mới thực hiện quá trình huấn luyện.

               Đối với tác vụ NLP, các phương pháp tăng cường dữ liệu thường thuộc
          hai loại là:

               •  Tăng  cường  không  gian  đặc  trưng  (feature  space  augmentation  -
                  FSA): các kỹ thuật này chủ yếu tập trung vào việc tăng không gian
                  biểu diễn liên tục ngay bên trong mô hình.
               •  Tăng cường văn bản (text augmentation - TA): xử lý các biến rời rạc
                  như văn bản thô hay văn bản có chú thích.

               Một số nghiên cứu liên quan đến FSA là Guo et al. (2019) và Guo (2020)
          đề xuất tạo mẫu tổng hợp trong không gian đặc trưng thông qua nội suy tuyến
          tính và phi tuyến tính các mẫu huấn luyện ban đầu. Gần đây, Guo et al. (2020)


          316
   325   326   327   328   329   330   331   332   333   334   335