Page 389 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 389
Mô hình (model) là mối quan hệ giữa các thành phần tri thức và đối
tượng tri thức. Đối tượng tri thức được coi là tập hợp những thành phần tri
thức. Các thành phần tri thức có thể được phân loại thành kết cấu
(structure), sự chuyển tiếp (transition) và sự gắn kết (coherence) của tri
thức (Le Dinh et al., 2014). Kết cấu của tri thức được thể hiện bằng thành
phần know-what, là thông tin có thể trả lời các câu hỏi đơn giản liên quan
đến một hiện tượng như cái gì, ai, khi nào và ở đâu. Sự chuyển tiếp tri thức
được thể hiện bằng thành phần know-how, là những tri thức phù hợp về
quá trình của hiện tượng. Sự mạch lạc của tri thức được thể hiện bằng thành
phần know-why, cung cấp sự hiểu biết về các nguyên tắc của hiện tượng.
19.2.2 Apache Spark và Apache Kafka
Apache Spark là một khuôn khổ tính toán nguồn mở, được phát triển
tại Đại học California Berkeley vào năm 2009 (Chambers & Zaharia, 2018).
Apache Spark bao gồm 5 thành phần chính: Spark Core, Spark Streaming,
Spark SQL, MLlib và GraphX (Singh, 2019). Spark Core là thành phần
chính, là công cụ thực thi chung cơ bản để xây dựng các chức năng khác
trên đó. Spark Core hỗ trợ nhiều giao diện lập trình ứng dụng với các ngôn
ngữ như Java, Scala và Python.
Tốc độ xử lý của Spark đạt được nhờ khả năng tính toán trong bộ nhớ
và tính toán song song phân tán trên một cụm máy tính. Khi có một tác vụ,
Spark cho phép chia tác vụ này thành các phần nhỏ dễ quản lý hơn. Sau đó,
Spark sẽ chạy các tác vụ nhỏ này trong bộ nhớ trên các cụm gồm nhiều nút
tính toán khác nhau. Spark bao gồm một nút chính (master node) và nhiều
nút thợ (worker node). Spark Driver sẽ liên hệ với nút chính để điều phối các
nút thợ, nơi có những bộ phận thực thi để thực thi các tác vụ (Hình 19.3).
Hình 19.3. Triển khai tính toán trong Spark
Spark cho phép xử lý dữ liệu theo thời gian thực, thực hiện xử lý
ngay trên dữ liệu nhận được với Spark Streaming. Spark Streaming dễ dàng
375