Page 395 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 395
dung theo ngữ nghĩa, đồng thời tạo ra và duy trì cơ sở tri thức (HBase).
Spark Streaming liên quan đến việc ánh xạ dữ liệu đầu vào liên tục từ Kafka
theo thời gian thực. Mỗi sự kiện đều được gửi dưới dạng tin nhắn từ Kafka
tới Spark Streaming.
Dữ liệu được thu thập từ bệnh viện bao gồm nhiều bảng và nhiều
trường dữ liệu. Tùy thuộc vào mục tiêu của hệ thống hỗ trợ chẩn đoán y tế,
cần trích xuất loại dữ liệu phù hợp. Các bộ dữ liệu lịch sử được thu thập từ
các bệnh viện sẽ được sử dụng cho quá trình tạo ra tri thức. Dữ liệu này là xác
thực và kết quả chẩn đoán được các bác sĩ đưa ra với độ tin cậy chuyên môn
cao giúp quá trình dán nhãn xây dựng mô hình tri thức được hiệu quả hơn.
19.3.3 Tầng tri thức
Các thuật toán học máy có thể sử dụng trong môi trường phân tán
Spark để xây dựng các mô hình tạo ra tri thức với hai giai đoạn: giai đoạn
đào tạo (training) và giai đoạn thử nghiệm (testing). Spark MLib là thành
phần cốt lõi để thực thi dịch vụ máy học cho phép thử nghiệm và xây dựng
các mô hình nhanh chóng. Các mô hình hỗ trợ các quyết định chẩn đoán y
khoa sẽ được đưa ra dựa trên độ chính xác. Ở tầng này cần thực hiện tiền xử
lý dữ liệu, tức là chọn lọc những thông tin cần thiết để xây dựng hệ thống hỗ
trợ chẩn đoán. Các kết quả chẩn đoán do bác sĩ đưa ra trước đây sẽ được sử
dụng cho mục đích gán nhãn. Sau khi tiền xử lý dữ liệu, 70% ngẫu nhiên
của tập dữ liệu sẽ được sử dụng cho giai đoạn đào tạo và 30% còn lại cho
giai đoạn thử nghiệm.
Thuật toán học máy được sử dụng trong tầng tri thức là cây quyết định
và mạng học sâu. Cây quyết định đã đạt được thành công trong nhiều lĩnh
vực như nhận dạng giọng nói, viễn thám và chẩn đoán y khoa. Lý do chọn
cây quyết định ở tầng tri thức là vì hồ sơ bệnh nhân cao huyết áp ở dạng văn
bản. Cây quyết định sử dụng dữ liệu đầu vào để tìm hiểu và tạo ra tri thức
theo các quy tắc tương tự như cách con người suy nghĩ. Nó chia nhỏ quy
trình ra quyết định phức tạp thành các quy tắc đơn giản, dễ hiểu và phù hợp
để sử dụng cho các tập dữ liệu có thuộc tính và loại dữ liệu đa dạng. Kỹ
thuật học sâu đã được áp dụng thành công trong nhiều lĩnh vực, đặc biệt là
trong phân tích hình ảnh y khoa. Mạng học sâu với Faster R-CNN Inception
ResNet v2 được sử dụng trong tầng tri thức để chẩn đoán bệnh xuất huyết
não. Mạng học sâu với Faster R-CNN ResNet-101 được sử dụng trong tầng
tri thức để chẩn đoán tổn thương gan.
381