Page 399 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 399
Hình 19.8. Tính năng quan trọng trong việc chẩn đoán cao huyết áp
Đào tạo mô hình: Cây quyết định được xây dựng với tỷ lệ 70/30 cho
hai giai đoạn đào tạo và thử nghiệm. Tập dữ liệu đào tạo dùng trong việc
xây dựng cây quyết định phân và sau đó tập dữ liệu kiểm thử được dùng để
đánh giá hiệu suất của mô hình cây đã xây dựng. Ngoài ra, dựa trên mô hình
được đào tạo, hàm featureImportances hỗ trợ bởi thư viện PySpark giúp
chúng ta chọn các tham số có ảnh hưởng quan trọng đến việc chẩn đoán
bệnh trong tập dữ liệu. Tầm quan trọng của một tham số được tính theo chỉ
số Gini. Giá trị càng cao thì tham số càng quan trọng. Chúng ta có thể dựa
vào kết quả này để loại bỏ những trường dữ liệu không quan trọng nhằm
giảm thời gian đào tạo cũng như tăng độ chính xác của mô hình. Các kết quả
thu được từ featureImportances được hiển thị trong Hình 19.8. Hai trường
dữ liệu không quan trọng bị loại bỏ là chu vi vòng đầu và chu vi ngực và
mô hình được đào tạo lại với tập dữ liệu bao gồm 11 trường dữ liệu. Các mô
hình cây quyết định được đào tạo khác nhau bằng cách thay đổi độ sâu của
cây cũng như thực hiện giai đoạn đào tạo trong môi trường phân tán với ba
kịch bản được đề xuất.
Kết quả đào tạo: Các cây quyết định với độ sâu khác nhau sẽ có
những quy luật cho kết quả dự đoán khác nhau. Cây có độ sâu n sẽ kế thừa
các nhánh bên trong từ cây có độ sâu n - 1 và có thêm điều kiện để đưa ra
dự đoán. Một ví dụ minh họa cây quyết định có độ sâu 4 được hiển thị trong
Hình 19.9.
385