Page 332 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 332
Nhược điểm: dù có thể sử dụng cho cả bài toán hồi quy và phân loại,
nhưng nó không phù hợp cho nhiệm vụ hồi quy.
Các Ứng dụng của random forest trên các dữ liệu y tế
Kaur et al. (2019) đã sử dụng các kỹ thuật học máy khác nhau, trong đó
có Rừng ngẫu nhiên và xem xét bộ dữ liệu công khai về chăm sóc sức khỏe
được lưu trữ trên đám mây để xây dựng một hệ thống cho phép theo dõi sức
khỏe từ xa theo thời gian thực. Hệ thống sẽ được phép đưa ra các đề xuất dựa
trên dữ liệu lịch sử và thực nghiệm nằm trên đám mây. Các tác giả đã thực
nghiệm và đánh giá các hệ thống dự đoán bệnh dựa trên một số thuộc tính
đầu vào liên quan đến từng căn bệnh cụ thể, các bệnh được xem xét gồm:
bệnh tim, ung thư vú, tiểu đường, tuyến giáp, da liễu, rối loạn gan và dữ liệu
phẫu thuật. Các thuật toán được dùng trong thử nghiệm là K láng giềng (K-
Nearest Neighbors [K-NN]), Máy học Véc-tơ hỗ trợ (support vector machine
- SVM), Cây quyết định (descision tree), Rừng ngẫu nhiên và multilayer
perceptron (MLP). Đối tượng hướng đến là các bệnh nhân bao gồm từ những
người được trang bị tất cả các cảm biến dễ dàng có sẵn và giá cả phải chăng
tại nhà của họ cho đến những người ở những địa điểm xa hoặc ở xa nơi cung
cấp dịch vụ y tế. Dữ liệu về các bệnh được thu thập tại UCI Machine Learning
Repository (Bache & Lichman, 2013) mỗi tập dữ liệu của mỗi bệnh được chia
theo tỷ lệ 80:20. Kết quả thực nghiệm cho thấy trung bình Random Forest có
độ hiệu quả tốt nhất trong việc chẩn đoán ở hầu hết các bệnh được xem xét
và độ chính xác có thể còn tăng lên nếu tăng độ lớn của bộ dữ liệu trong khi
huấn luyện hệ thống đề xuất trên các máy khác nhau.
Rừng ngẫu nhiên cũng được sử dụng trong các mô hình dự đoán từ các
bộ dữ liệu không cân bằng, như trong nghiên cứu của García et al. (2016) để
dự đoán khả năng lây nhiễm của các bệnh nhiễm trùng trong môi trường bệnh
viện. Hay dự đoán rủi ro bệnh tật trong nghiên cứu Khalilia et al. (2011) các
tác giả đã sử dụng dữ liệu mẫu nội trú quốc gia (national inpatient sample)
được cung cấp công khai thông qua Dự án sử dụng và chi phí chăm sóc sức
khỏe (healthcare cost and utilization project) để đào tạo các bộ phân loại rừng
ngẫu nhiên để dự đoán bệnh. Bộ dữ liệu này bị mất cân bằng lớp cao nên các
tác giả đã khắc phục vấn đề bằng cách sử dụng phương pháp học tập tổng hợp
dựa trên việc lấy mẫu phụ ngẫu nhiên lặp đi lặp lại. Kỹ thuật này chia dữ liệu
huấn luyện thành nhiều mẫu phụ, đồng thời đảm bảo rằng mỗi mẫu phụ được
cân bằng hoàn toàn. Khi so sánh hiệu suất của Rừng ngẫu nhiên so với SVM,
đóng bao và tăng cường, thì Rừng ngẫu nhiên vượt trội hơn nhiều với AUC
318