Page 395 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 395

dung theo ngữ nghĩa, đồng thời tạo  ra  và duy trì  cơ  sở  tri  thức  (HBase).
          Spark Streaming liên quan đến việc ánh xạ dữ liệu đầu vào liên tục từ Kafka
          theo thời gian thực. Mỗi sự kiện đều được gửi dưới dạng tin nhắn từ Kafka
          tới Spark Streaming.
               Dữ  liệu  được  thu  thập  từ  bệnh  viện  bao  gồm  nhiều  bảng  và  nhiều
          trường dữ liệu. Tùy thuộc vào mục tiêu của hệ thống hỗ trợ chẩn đoán y tế,
          cần trích xuất loại dữ liệu phù hợp. Các bộ dữ liệu lịch sử được thu thập từ
          các bệnh viện sẽ được sử dụng cho quá trình tạo ra tri thức. Dữ liệu này là xác
          thực và kết quả chẩn đoán được các bác sĩ đưa ra với độ tin cậy chuyên môn
          cao giúp quá trình dán nhãn xây dựng mô hình tri thức được hiệu quả hơn.

               19.3.3  Tầng tri thức
               Các  thuật  toán  học  máy  có  thể  sử  dụng  trong môi  trường  phân  tán
          Spark để xây dựng các mô hình tạo ra tri thức với hai giai đoạn: giai đoạn
          đào tạo (training) và giai đoạn thử nghiệm (testing). Spark MLib là thành
          phần cốt lõi để thực thi dịch vụ máy học cho phép thử nghiệm và xây dựng
          các mô hình nhanh chóng. Các mô hình hỗ trợ các quyết định chẩn đoán y
          khoa sẽ được đưa ra dựa trên độ chính xác. Ở tầng này cần thực hiện tiền xử
          lý dữ liệu, tức là chọn lọc những thông tin cần thiết để xây dựng hệ thống hỗ
          trợ chẩn đoán. Các kết quả chẩn đoán do bác sĩ đưa ra trước đây sẽ được sử
          dụng cho mục đích gán nhãn. Sau khi tiền xử lý dữ liệu, 70% ngẫu nhiên
          của tập dữ liệu sẽ được sử dụng cho giai đoạn đào tạo và 30% còn lại cho
          giai đoạn thử nghiệm.

               Thuật toán học máy được sử dụng trong tầng tri thức là cây quyết định
          và mạng học sâu. Cây quyết định đã đạt được thành công trong nhiều lĩnh
          vực như nhận dạng giọng nói, viễn thám và chẩn đoán y khoa. Lý do chọn
          cây quyết định ở tầng tri thức là vì hồ sơ bệnh nhân cao huyết áp ở dạng văn
          bản. Cây quyết định sử dụng dữ liệu đầu vào để tìm hiểu và tạo ra tri thức
          theo các quy tắc tương tự như cách con người suy nghĩ. Nó chia nhỏ quy
          trình ra quyết định phức tạp thành các quy tắc đơn giản, dễ hiểu và phù hợp
          để sử dụng cho các tập dữ liệu có thuộc tính và loại dữ liệu đa dạng. Kỹ
          thuật học sâu đã được áp dụng thành công trong nhiều lĩnh vực, đặc biệt là
          trong phân tích hình ảnh y khoa. Mạng học sâu với Faster R-CNN Inception
          ResNet v2 được sử dụng trong tầng tri thức để chẩn đoán bệnh xuất huyết
          não. Mạng học sâu với Faster R-CNN ResNet-101 được sử dụng trong tầng
          tri thức để chẩn đoán tổn thương gan.




                                                                                381
   390   391   392   393   394   395   396   397   398   399   400