Page 401 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 401

a)                                  b)
              Hình 19.10. Thời gian đào tạo và độ chính xác của các mô hình phát hiện:
                             a) Thời gian đào tạo, (b) Độ chính xác

               19.4.1.2  Cây quyết định cho phân loại cao huyết áp
               Đào tạo mô hình: Việc phân loại bệnh cao huyết áp dựa trên Bảng
          19.1. Việc gán nhãn bằng cách so sánh huyết áp tâm thu và tâm trương của
          bệnh nhân để đưa ra phân loại được thực hiện như sau.

               • Nhãn 0: Tâm thu < 120 và tâm trương < 80

               • Nhãn 1: Tâm thu >= 120 và tâm trương >= 80
               • Nhãn 2: Tâm thu >= 140 và tâm trương >= 90

               • Nhãn 3: Tâm thu >= 160 và tâm trương >= 100

               Việc phân loại bệnh được tiến hành sau khi phát hiện bệnh; do đó,
          nhãn 0 là không quan trọng. Cây quyết định cho việc phân loại bệnh được
          xây dựng trên cùng một tập dữ liệu với tỷ lệ 70/30 cho tập đào tạo/kiểm thử
          trên ba kịch bản với 3 độ sâu cây khác nhau.
               Kết  quả:  Tương  tự  như  phát  hiện  cao  huyết  áp,  mô  hình  phân  loại
          bệnh cao huyết áp được xây dựng bằng cây quyết định ở các độ sâu khác
          nhau. Khi độ sâu cây là 4, việc đào tạo sẽ dừng lại. Một ví dụ về cây quyết
          định phân loại tăng huyết áp với độ sâu cây là 4 được hiển thị trong Hình
          19.11. Các mô hình phân loại được đào tạo trên cụm Spark. Thời gian đào
          tạo được trình bày trong Hình 19.12a. Các mô hình phân loại được đánh giá
          dựa trên precision, recall, và F1 được trình bày trong Hình 19.12b. Độ chính
          xác đạt được là trên 92% trên cả ba mô hình.







                                                                                387
   396   397   398   399   400   401   402   403   404   405   406