Page 331 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 331

đã đề xuất một kỹ thuật tương tự kết hợp các chuỗi đầu vào và đầu ra, đồng
          thời cho thấy những cải tiến đối với một số tác vụ theo trình tự như dịch máy
          giữa các cặp ngôn ngữ có tài nguyên cao (high-resource language).

               Một số nghiên cứu liên quan đến TA: các phương pháp có thể bảo toàn
          nhãn như trong nghiên cứu của Vickrey and Koller (2018) giới thiệu các quy
          tắc đơn giản hóa câu do chuyên gia thiết kế để tăng cường tập dữ liệu với các
          câu đơn giản hóa và thể hiện những cải tiến về ghi nhãn vai trò ngữ nghĩa
          tiếng Anh, hay Şahin and Steedman (2018) đề xuất một cách tiếp cận tự động
          để tạo ra các câu đơn giản và sắp xếp lại bằng cách sử dụng cây phụ thuộc.
          Fadaee et al. (2017) thực hiện thay đổi từ vựng thay vì tái cấu trúc cú pháp
          câu, Gulordava et al. (2018) tạo ra các câu tổng hợp bằng cách thay thế mã
          thông báo được chọn ngẫu nhiên bằng cú pháp tương đương. Hay những từ
          thường xuyên hơn được thay thế bằng các từ hiếm để tạo ra liên kết nhãn từ
          vựng mạnh mẽ hơn như đề xuất của Fadaee et al. (2017).

               16.2.3  Các nhóm thuật toán máy học cổ điển
               ❖  Random forest (RF)

               Random forest là một thuật toán học có giám sát, có thể được dùng
          trong cả nhiệm vụ hồi quy và phân lớp. Thuật toán này được tạo thành từ một
          tập hợp cây quyết định và mỗi cây trong quần thể bao gồm mẫu dữ liệu được
          lấy (ngẫu nhiên) từ tập huấn luyện bằng kỹ thuật bootstrapping (hay còn gọi
          là random sampling with replacement). Sau đó kết quả dự đoán được tổng
          hợp từ các cây quyết định, có thể thông qua phiếu bầu đa số (cho bài toán
          phân loại) hoặc lấy trung bình (cho bài toán hồi quy).

               Các tham số quan trọng của thuật toán này là: số lượng cây quyết định,
          số lượng đối tượng được lấy mẫu, độ sâu tối đa của cây quyết định, kích thước
          nút,... Nó cũng có một số ưu điểm và nhược điểm:

               Ưu điểm:

               •  Có thể áp dụng cho cả bài toán phân loại và hồi quy.

               •  Tốn ít thời gian đào tạo hơn so với các thuật toán khác.
               •  Dự đoán đầu ra với độ chính xác cao, đặc biệt là nó vẫn hiệu quả với
                  các tập dữ liệu lớn với kích thước cao.

               •  Có thể duy trì độ chính xác ngay cả khi thiếu lượng lớn dữ liệu.

               •  Nó nâng cao độ chính xác của mô hình và ngăn chặn vấn đề trang bị
                  quá mức.


                                                                                317
   326   327   328   329   330   331   332   333   334   335   336