Page 401 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 401
a) b)
Hình 19.10. Thời gian đào tạo và độ chính xác của các mô hình phát hiện:
a) Thời gian đào tạo, (b) Độ chính xác
19.4.1.2 Cây quyết định cho phân loại cao huyết áp
Đào tạo mô hình: Việc phân loại bệnh cao huyết áp dựa trên Bảng
19.1. Việc gán nhãn bằng cách so sánh huyết áp tâm thu và tâm trương của
bệnh nhân để đưa ra phân loại được thực hiện như sau.
• Nhãn 0: Tâm thu < 120 và tâm trương < 80
• Nhãn 1: Tâm thu >= 120 và tâm trương >= 80
• Nhãn 2: Tâm thu >= 140 và tâm trương >= 90
• Nhãn 3: Tâm thu >= 160 và tâm trương >= 100
Việc phân loại bệnh được tiến hành sau khi phát hiện bệnh; do đó,
nhãn 0 là không quan trọng. Cây quyết định cho việc phân loại bệnh được
xây dựng trên cùng một tập dữ liệu với tỷ lệ 70/30 cho tập đào tạo/kiểm thử
trên ba kịch bản với 3 độ sâu cây khác nhau.
Kết quả: Tương tự như phát hiện cao huyết áp, mô hình phân loại
bệnh cao huyết áp được xây dựng bằng cây quyết định ở các độ sâu khác
nhau. Khi độ sâu cây là 4, việc đào tạo sẽ dừng lại. Một ví dụ về cây quyết
định phân loại tăng huyết áp với độ sâu cây là 4 được hiển thị trong Hình
19.11. Các mô hình phân loại được đào tạo trên cụm Spark. Thời gian đào
tạo được trình bày trong Hình 19.12a. Các mô hình phân loại được đánh giá
dựa trên precision, recall, và F1 được trình bày trong Hình 19.12b. Độ chính
xác đạt được là trên 92% trên cả ba mô hình.
387