Page 333 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 333
(diện tích dưới đường cong - area under the curve) trung bình là 88,79% khi
dự đoán nguy cơ mắc 8 bệnh mãn tính.
❖ Support vector machine (SVM)
Giống như RF, SVM cũng là một thuật toán học có giám sát, được dùng
cho cả nhiệm vụ phân loại và đệ quy, nhưng thường dùng cho phân loại hơn.
Ưu điểm của nó là hoạt động tốt đối với mẫu có kích thước dữ liệu lớn và
thường mang lại kết quả vượt trội hơn các thuật toán học có giám sát khác
(như Naïve Bayes, linear classification).
Ưu điểm của SVM:
• Thuật toán hoạt động hiệu quả với không gian cao chiều (high
dimensional spaces).
• Tiêu tốn ít bộ nhớ vì chỉ sử dụng các điểm trong tập hỗ trợ để dự báo
trong hàm quyết định.
• Có thể tạo ra nhiều hàm quyết định từ những hàm kernel khác nhau
(như linear, RBF, sigmoid,…). Khi sử dụng đúng, kernel có thể giúp
cải thiện đáng kể hiệu suất của mô hình.
Nhược điểm:
• Trong trường hợp số lượng thuộc tính của tập dữ liệu lớn hơn rất
nhiều so với số lượng dữ liệu, SVM cho kết quả không được khả
quan.
• Chưa thể hiện được rõ tính xác suất: Việc phân lớp của SVM chỉ là
việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu
phẳng SVM nên chưa giải thích được xác suất xuất hiện của một
thành viên trong một nhóm là như thế nào.
Ứng dụng SVM trong các hệ thống y tế
Bệnh tim mạch là mối quan tâm lớn của xã hội vì nó là một trong những
nguyên nhân chính gây tử vong trên toàn cầu. Sự phát triển của công nghệ,
đặc biệt là học máy và công nghệ thiết bị đeo điện tử đã cung cấp cho những
giải pháp phát hiện sớm và chính xác các bất thường ở cơ thể. Nhờ các hệ
thống dự đoán có hiệu quả cao nên các triệu chứng bệnh, đặc biệt là bệnh tim
được theo dõi, phát hiện sớm giúp giảm thời gian, chi phí cho chăm sóc y tế
và gia tăng khả năng điều trị khỏi bệnh.
319