Page 332 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 332

Nhược điểm: dù có thể sử dụng cho cả bài toán hồi quy và phân loại,
          nhưng nó không phù hợp cho nhiệm vụ hồi quy.

               Các Ứng dụng của random forest trên các dữ liệu y tế
               Kaur et al. (2019) đã sử dụng các kỹ thuật học máy khác nhau, trong đó
          có Rừng ngẫu nhiên và xem xét bộ dữ liệu công khai về chăm sóc sức khỏe
          được lưu trữ trên đám mây để xây dựng một hệ thống cho phép theo dõi sức
          khỏe từ xa theo thời gian thực. Hệ thống sẽ được phép đưa ra các đề xuất dựa
          trên dữ liệu lịch sử và thực nghiệm nằm trên đám mây. Các tác giả đã thực
          nghiệm và đánh giá các hệ thống dự đoán bệnh dựa trên một số thuộc tính
          đầu vào liên quan đến từng căn bệnh cụ thể, các bệnh được xem xét gồm:
          bệnh tim, ung thư vú, tiểu đường, tuyến giáp, da liễu, rối loạn gan và dữ liệu
          phẫu thuật. Các thuật toán được dùng trong thử nghiệm là K láng giềng (K-
          Nearest Neighbors [K-NN]), Máy học Véc-tơ hỗ trợ (support vector machine
          - SVM), Cây quyết  định (descision tree), Rừng ngẫu nhiên  và  multilayer
          perceptron (MLP). Đối tượng hướng đến là các bệnh nhân bao gồm từ những
          người được trang bị tất cả các cảm biến dễ dàng có sẵn và giá cả phải chăng
          tại nhà của họ cho đến những người ở những địa điểm xa hoặc ở xa nơi cung
          cấp dịch vụ y tế. Dữ liệu về các bệnh được thu thập tại UCI Machine Learning
          Repository (Bache & Lichman, 2013) mỗi tập dữ liệu của mỗi bệnh được chia
          theo tỷ lệ 80:20. Kết quả thực nghiệm cho thấy trung bình Random Forest có
          độ hiệu quả tốt nhất trong việc chẩn đoán ở hầu hết các bệnh được xem xét
          và độ chính xác có thể còn tăng lên nếu tăng độ lớn của bộ dữ liệu trong khi
          huấn luyện hệ thống đề xuất trên các máy khác nhau.

               Rừng ngẫu nhiên cũng được sử dụng trong các mô hình dự đoán từ các
          bộ dữ liệu không cân bằng, như trong nghiên cứu của García et al. (2016) để
          dự đoán khả năng lây nhiễm của các bệnh nhiễm trùng trong môi trường bệnh
          viện. Hay dự đoán rủi ro bệnh tật trong nghiên cứu Khalilia et al. (2011) các
          tác giả đã sử dụng dữ liệu mẫu nội trú quốc gia (national inpatient sample)
          được cung cấp công khai thông qua Dự án sử dụng và chi phí chăm sóc sức
          khỏe (healthcare cost and utilization project) để đào tạo các bộ phân loại rừng
          ngẫu nhiên để dự đoán bệnh. Bộ dữ liệu này bị mất cân bằng lớp cao nên các
          tác giả đã khắc phục vấn đề bằng cách sử dụng phương pháp học tập tổng hợp
          dựa trên việc lấy mẫu phụ ngẫu nhiên lặp đi lặp lại. Kỹ thuật này chia dữ liệu
          huấn luyện thành nhiều mẫu phụ, đồng thời đảm bảo rằng mỗi mẫu phụ được
          cân bằng hoàn toàn. Khi so sánh hiệu suất của Rừng ngẫu nhiên so với SVM,
          đóng bao và tăng cường, thì Rừng ngẫu nhiên vượt trội hơn nhiều với AUC



          318
   327   328   329   330   331   332   333   334   335   336   337