Page 334 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 334

Naraei et al. (2016) cho rằng hàng ngày có một khối lượng dữ liệu được
          ngành chăm sóc sức khỏe tạo ra, các dữ liệu này sẽ rất có ích nếu như được
          phân tích và tìm ra các mẫu ẩn có thể sử dụng để đưa ra các quyết định y tế.
          Các tác giả tiến hành thực nghiệm, so sánh hiệu quả phân loại 5 mức độ
          nghiêm trọng của bệnh nhân mắc bệnh tim giữa việc dùng mạng nơ-ron đa
          lớp (multilayer perceptron) và SVM trên bộ dữ liệu bệnh tim, tập dữ liệu gồm
          303 bệnh nhân, thu từ cơ sở dữ liệu bệnh tim trực tuyến của một phòng khám.
          Các thuộc tính đa phần ở dạng phân loại. Các giá trị ngoại lệ và cực trị được
          loại khỏi tập dữ liệu bằng bộ lọc không giám sát có tên là “inter quartile range”
          để phát hiện các ngoại lệ, là thước đo độ phân tán và độ biến thiên thống kê.
          Các giá trị bị thiếu được tìm và thay thế bằng bộ lọc “replace missing values”
          từ công cụ có tên là Weka. Sau khi đã làm sạch dữ liệu, các tác giả tiến hành
          trích xuất đặc trưng để lọc đi các tính năng không quan trọng ra khỏi tập dữ
          liệu , việc này giúp giảm thời gian tính toán và nâng cao độ chính xác của bộ
          phân loại. Thực nghiệm cho thấy SVM không có kernel hoạt động như một
          mạng nơ-ron đơn lẻ nhưng với hàm chi phí khác nhau. Tuy nhiên, nó đạt được
          kết quả nổi bật hơn khi thêm hàm hạt nhân (kernel function), đặc biệt là hàm
          hạt nhân RBF (radial basis function) Gaussian. Kết quả cho thấy SVM có độ
          chính xác cao hơn so với mạng nơ-ron được xem xét, kết quả này có thể so
          sánh với các nghiên cứu khác sử dụng mạng nơ-ron, cây quyết định và Naïve
          Nayes  trên  cùng  một  tập  dữ  liệu  và  lần  lượt  đạt  được  100%,  99.62%  và
          90.74% bằng cách thêm hai thuộc tính nữa vào tập dữ liệu (Dangare & Apte,
          2012), số thuộc tính được xem xét ở nghiên cứu này là 8. Panicker (2020) đã
          tiến hành một cuộc khảo sát sâu rộng về các thuật toán học máy khác nhau để
          dự đoán/ phân loại bệnh tim mạch. Các tác giả đã trình bày những hiểu biết
          sâu sắc về các định dạng khác nhau như âm thanh của tim, hồ sơ sức khỏe
          điện tử, tín hiệu sinh lý, hình ảnh CT để phát hiện thành công bệnh tim. Sau
          khi đánh giá, các tác giả cho rằng SVM được sử dụng rất phổ biến, theo sau
          đó là mạng nơ-ron và các kỹ thuật tổng hợp. Độ chính xác đạt hơn 95% khi
          sử  dụng  kỹ  thuật  tổng  hợp,  theo  sau  là  SVM  và  mạng  nơ-ron  tích  chập
          (convolutional neural networks - CNN).

               16.2.4  Các nhóm thuật toán học sâu

               Học sâu (deep learning) bao gồm nhiều lớp phân cấp để xử lý thông tin
          theo cách phi tuyến tính, trong đó cấp thấp hơn giúp xác định khái niệm ở cấp
          cao hơn. Học sâu là một nhánh của học máy (machine learning), trong kiến
          trúc của nó dùng nhiều lớp xử lý thông tin phi tuyến tính để trích xuất và




          320
   329   330   331   332   333   334   335   336   337   338   339