Page 334 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 334
Naraei et al. (2016) cho rằng hàng ngày có một khối lượng dữ liệu được
ngành chăm sóc sức khỏe tạo ra, các dữ liệu này sẽ rất có ích nếu như được
phân tích và tìm ra các mẫu ẩn có thể sử dụng để đưa ra các quyết định y tế.
Các tác giả tiến hành thực nghiệm, so sánh hiệu quả phân loại 5 mức độ
nghiêm trọng của bệnh nhân mắc bệnh tim giữa việc dùng mạng nơ-ron đa
lớp (multilayer perceptron) và SVM trên bộ dữ liệu bệnh tim, tập dữ liệu gồm
303 bệnh nhân, thu từ cơ sở dữ liệu bệnh tim trực tuyến của một phòng khám.
Các thuộc tính đa phần ở dạng phân loại. Các giá trị ngoại lệ và cực trị được
loại khỏi tập dữ liệu bằng bộ lọc không giám sát có tên là “inter quartile range”
để phát hiện các ngoại lệ, là thước đo độ phân tán và độ biến thiên thống kê.
Các giá trị bị thiếu được tìm và thay thế bằng bộ lọc “replace missing values”
từ công cụ có tên là Weka. Sau khi đã làm sạch dữ liệu, các tác giả tiến hành
trích xuất đặc trưng để lọc đi các tính năng không quan trọng ra khỏi tập dữ
liệu , việc này giúp giảm thời gian tính toán và nâng cao độ chính xác của bộ
phân loại. Thực nghiệm cho thấy SVM không có kernel hoạt động như một
mạng nơ-ron đơn lẻ nhưng với hàm chi phí khác nhau. Tuy nhiên, nó đạt được
kết quả nổi bật hơn khi thêm hàm hạt nhân (kernel function), đặc biệt là hàm
hạt nhân RBF (radial basis function) Gaussian. Kết quả cho thấy SVM có độ
chính xác cao hơn so với mạng nơ-ron được xem xét, kết quả này có thể so
sánh với các nghiên cứu khác sử dụng mạng nơ-ron, cây quyết định và Naïve
Nayes trên cùng một tập dữ liệu và lần lượt đạt được 100%, 99.62% và
90.74% bằng cách thêm hai thuộc tính nữa vào tập dữ liệu (Dangare & Apte,
2012), số thuộc tính được xem xét ở nghiên cứu này là 8. Panicker (2020) đã
tiến hành một cuộc khảo sát sâu rộng về các thuật toán học máy khác nhau để
dự đoán/ phân loại bệnh tim mạch. Các tác giả đã trình bày những hiểu biết
sâu sắc về các định dạng khác nhau như âm thanh của tim, hồ sơ sức khỏe
điện tử, tín hiệu sinh lý, hình ảnh CT để phát hiện thành công bệnh tim. Sau
khi đánh giá, các tác giả cho rằng SVM được sử dụng rất phổ biến, theo sau
đó là mạng nơ-ron và các kỹ thuật tổng hợp. Độ chính xác đạt hơn 95% khi
sử dụng kỹ thuật tổng hợp, theo sau là SVM và mạng nơ-ron tích chập
(convolutional neural networks - CNN).
16.2.4 Các nhóm thuật toán học sâu
Học sâu (deep learning) bao gồm nhiều lớp phân cấp để xử lý thông tin
theo cách phi tuyến tính, trong đó cấp thấp hơn giúp xác định khái niệm ở cấp
cao hơn. Học sâu là một nhánh của học máy (machine learning), trong kiến
trúc của nó dùng nhiều lớp xử lý thông tin phi tuyến tính để trích xuất và
320