Page 399 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 399

Hình 19.8. Tính năng quan trọng trong việc chẩn đoán cao huyết áp
               Đào tạo mô hình: Cây quyết định được xây dựng với tỷ lệ 70/30 cho
          hai giai đoạn đào tạo và thử nghiệm. Tập dữ liệu đào tạo dùng trong việc
          xây dựng cây quyết định phân và sau đó tập dữ liệu kiểm thử được dùng để
          đánh giá hiệu suất của mô hình cây đã xây dựng. Ngoài ra, dựa trên mô hình
          được  đào  tạo,  hàm  featureImportances  hỗ  trợ  bởi  thư  viện  PySpark  giúp
          chúng ta chọn các tham số có ảnh hưởng quan trọng đến việc chẩn đoán
          bệnh trong tập dữ liệu. Tầm quan trọng của một tham số được tính theo chỉ
          số Gini. Giá trị càng cao thì tham số càng quan trọng. Chúng ta có thể dựa
          vào kết quả này để loại bỏ những trường dữ liệu không quan trọng nhằm
          giảm thời gian đào tạo cũng như tăng độ chính xác của mô hình. Các kết quả
          thu được từ featureImportances được hiển thị trong Hình 19.8. Hai trường
          dữ liệu không quan trọng bị loại bỏ là chu vi vòng đầu và chu vi ngực và
          mô hình được đào tạo lại với tập dữ liệu bao gồm 11 trường dữ liệu. Các mô
          hình cây quyết định được đào tạo khác nhau bằng cách thay đổi độ sâu của
          cây cũng như thực hiện giai đoạn đào tạo trong môi trường phân tán với ba
          kịch bản được đề xuất.
               Kết  quả  đào  tạo:  Các  cây  quyết  định  với  độ  sâu  khác  nhau  sẽ  có
          những quy luật cho kết quả dự đoán khác nhau. Cây có độ sâu n sẽ kế thừa
          các nhánh bên trong từ cây có độ sâu n - 1 và có thêm điều kiện để đưa ra
          dự đoán. Một ví dụ minh họa cây quyết định có độ sâu 4 được hiển thị trong
          Hình 19.9.




                                                                                385
   394   395   396   397   398   399   400   401   402   403   404