Page 394 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 394

gồm bốn tầng: tầng dữ liệu, tầng thông tin, tầng tri thức và tầng ứng dụng
          (Hình 19.6). Hệ thống quản lý tri thức này đảm bảo cả 4 giai đoạn của quá
          trình phát triển tri thức, bao gồm dữ liệu, thông tin, tri thức và hiểu biết,
          tương ứng với 4 hoạt động chính là nắm bắt, tổ chức, chuyển giao và ứng
          dụng. Đề xuất này giải quyết hai thách thức lớn: quản lý tri thức và tổ chức
          tri thức từ các nguồn dữ liệu khác nhau.

               Hệ thống xử lý hai loại dữ liệu: dữ liệu hàng loạt (batch data - hồ sơ
          bệnh nhân được thu thập trong một khoảng thời gian dài) và dữ liệu thời
          gian thực (real-time data - được thu thập từ các thiết bị theo dõi). Dữ liệu
          hàng loạt được tải vào hồ chứa dữ liệu (HDFS) và dữ liệu thời gian thực
          được đưa vào hệ thống xử lý bằng Kafka và Spark Streaming. Với lượng dữ
          liệu y tế lớn, hệ thống sẽ lọc ra những thông tin hữu ích cho việc chẩn đoán,
          phân loại bệnh, tiền xử lý và lưu trữ thông tin vào HBase. Thông tin sẽ được
          sử dụng để chuyển đổi thành tri thức nhằm tạo ra các mô hình học máy. Tri
          thức mới được tạo ra và cung cấp cho người dùng thông qua các truy vấn từ
          trang web hoặc thiết bị theo dõi sức khoẻ.

               19.3.1  Tầng dữ liệu

               Có hai nguồn dữ liệu được sử dụng trong hệ thống là dữ liệu lịch sử
          được thu thập từ bệnh viện và dữ liệu thời gian thực được thu thập từ bệnh
          nhân thông qua các thiết bị theo dõi sức khỏe. Dữ liệu lịch sử được tải vào
          hệ thống tập tin phân tán Hadoop (HDFS). Hệ thống tập tin phân tán này
          được thiết kế để lưu trữ các tập dữ liệu rất lớn và truyền các tập dữ liệu đó ở
          băng thông cao tới các ứng dụng của người dùng. Dữ liệu thời gian thực
          được đưa vào hệ thống bằng Apache Kafka. Kafka được dử dụng để nhập
          dữ liệu sự kiện theo thời gian thực và truyền dữ liệu đó tới Spark Streaming.
          Dữ liệu có thể ở dạng văn bản hoặc hình ảnh, đặc biệt là hình ảnh CT/MRI
          thường được sử dụng trong chẩn đoán y khoa. Những dữ liệu thô này được
          thu thập và lưu trữ ở tầng dữ liệu.

               19.3.2  Tầng thông tin

               Dữ liệu sẽ được sắp xếp, tổ chức và lọc lại để chuyển thành thông tin
          có tổ chức và có thể truy xuất được. Thông tin sau đó sẽ được lưu trữ dưới
          dạng bộ dữ liệu (datasets) trên hệ thống tập tin phân tán HBase để phục vụ
          xử lý song song phân tán trong môi trường dữ liệu lớn. Apache HBase là cơ
          sở dữ liệu phân tán phi quan hệ (NoSQL) được xây dựng phía trên HDFS.
          Apache Spark được dùng trong việc xử lý dữ liệu lịch sử và dữ liệu theo
          thời gian thực. Spark Core xử lý dữ liệu hàng loạt từ HDFS để sắp xếp nội


          380
   389   390   391   392   393   394   395   396   397   398   399