Page 330 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 330
khối lượng (mass and non-mass mammogram images), sử dụng các phép tăng
cường dữ liệu trên hình ảnh và huấn luyện 8 mạng VGG-16 trên tám bộ dữ
liệu tăng cường. Các phép tăng cường được sử dụng là lật, nhiễu Gaussian,
chia tỷ lệ, quay,…
Galdran et al. (2017) sử dụng các kỹ thuật tính toán không đổi màu để
xây dựng kỹ thuật tăng cường dữ liệu cho hình ảnh soi da thu được từ các
thiết bị hình ảnh khác nhau. Các tác giả áp dụng kỹ thuật cố định màu để
chuẩn hóa màu cho toàn bộ tập ảnh huấn luyện trong khi vẫn giữ lại mức độ
chiếu sáng ước tính.
Mikołajczyk and Grochowski (2018) đã so sánh và phân tích nhiều
phương pháp tăng cường dữ liệu trong nhiệm vụ phân loại hình ảnh như xoay,
cắt, thu phóng,… và trình bày phương pháp tăng cường dữ liệu dựa trên
chuyển kiểu hình ảnh. Phương pháp này cho phép tạo ra các hình ảnh mới có
chất lượng cảm quan cao kết hợp giữa nội dung của hình ảnh ban đầu với sự
xuất hiện của một hình ảnh khác.
Takahashi et al. (2020) đề xuất kỹ thuật tăng cường dữ liệu mới gọi là
cắt và vá hình ảnh ngẫu nhiên (random image cropping and patching -
RICAP), kỹ thuật này cắt ngẫu nhiên bốn hình ảnh và vá chúng lại với nhau
để tạo ra một hình ảnh huấn luyện mới.
❖ Tăng cường dữ liệu đối với dữ liệu văn bản
Khác với thị giác máy tính, tăng cường dữ liệu trong Xử lý ngôn ngữ tự
nhiên (natural language processing - NLP) cần được thực hiện cẩn thận do
cấu trúc ngữ pháp của văn bản, tập dữ liệu được tăng cường sẽ được tạo trước
và sau đó mới thực hiện quá trình huấn luyện.
Đối với tác vụ NLP, các phương pháp tăng cường dữ liệu thường thuộc
hai loại là:
• Tăng cường không gian đặc trưng (feature space augmentation -
FSA): các kỹ thuật này chủ yếu tập trung vào việc tăng không gian
biểu diễn liên tục ngay bên trong mô hình.
• Tăng cường văn bản (text augmentation - TA): xử lý các biến rời rạc
như văn bản thô hay văn bản có chú thích.
Một số nghiên cứu liên quan đến FSA là Guo et al. (2019) và Guo (2020)
đề xuất tạo mẫu tổng hợp trong không gian đặc trưng thông qua nội suy tuyến
tính và phi tuyến tính các mẫu huấn luyện ban đầu. Gần đây, Guo et al. (2020)
316