Page 394 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 394
gồm bốn tầng: tầng dữ liệu, tầng thông tin, tầng tri thức và tầng ứng dụng
(Hình 19.6). Hệ thống quản lý tri thức này đảm bảo cả 4 giai đoạn của quá
trình phát triển tri thức, bao gồm dữ liệu, thông tin, tri thức và hiểu biết,
tương ứng với 4 hoạt động chính là nắm bắt, tổ chức, chuyển giao và ứng
dụng. Đề xuất này giải quyết hai thách thức lớn: quản lý tri thức và tổ chức
tri thức từ các nguồn dữ liệu khác nhau.
Hệ thống xử lý hai loại dữ liệu: dữ liệu hàng loạt (batch data - hồ sơ
bệnh nhân được thu thập trong một khoảng thời gian dài) và dữ liệu thời
gian thực (real-time data - được thu thập từ các thiết bị theo dõi). Dữ liệu
hàng loạt được tải vào hồ chứa dữ liệu (HDFS) và dữ liệu thời gian thực
được đưa vào hệ thống xử lý bằng Kafka và Spark Streaming. Với lượng dữ
liệu y tế lớn, hệ thống sẽ lọc ra những thông tin hữu ích cho việc chẩn đoán,
phân loại bệnh, tiền xử lý và lưu trữ thông tin vào HBase. Thông tin sẽ được
sử dụng để chuyển đổi thành tri thức nhằm tạo ra các mô hình học máy. Tri
thức mới được tạo ra và cung cấp cho người dùng thông qua các truy vấn từ
trang web hoặc thiết bị theo dõi sức khoẻ.
19.3.1 Tầng dữ liệu
Có hai nguồn dữ liệu được sử dụng trong hệ thống là dữ liệu lịch sử
được thu thập từ bệnh viện và dữ liệu thời gian thực được thu thập từ bệnh
nhân thông qua các thiết bị theo dõi sức khỏe. Dữ liệu lịch sử được tải vào
hệ thống tập tin phân tán Hadoop (HDFS). Hệ thống tập tin phân tán này
được thiết kế để lưu trữ các tập dữ liệu rất lớn và truyền các tập dữ liệu đó ở
băng thông cao tới các ứng dụng của người dùng. Dữ liệu thời gian thực
được đưa vào hệ thống bằng Apache Kafka. Kafka được dử dụng để nhập
dữ liệu sự kiện theo thời gian thực và truyền dữ liệu đó tới Spark Streaming.
Dữ liệu có thể ở dạng văn bản hoặc hình ảnh, đặc biệt là hình ảnh CT/MRI
thường được sử dụng trong chẩn đoán y khoa. Những dữ liệu thô này được
thu thập và lưu trữ ở tầng dữ liệu.
19.3.2 Tầng thông tin
Dữ liệu sẽ được sắp xếp, tổ chức và lọc lại để chuyển thành thông tin
có tổ chức và có thể truy xuất được. Thông tin sau đó sẽ được lưu trữ dưới
dạng bộ dữ liệu (datasets) trên hệ thống tập tin phân tán HBase để phục vụ
xử lý song song phân tán trong môi trường dữ liệu lớn. Apache HBase là cơ
sở dữ liệu phân tán phi quan hệ (NoSQL) được xây dựng phía trên HDFS.
Apache Spark được dùng trong việc xử lý dữ liệu lịch sử và dữ liệu theo
thời gian thực. Spark Core xử lý dữ liệu hàng loạt từ HDFS để sắp xếp nội
380