Page 298 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 298
Hình 14.13. Quy trình biểu diễn văn bản
Tách từ là công đoạn phân tách nội dung văn bản thành tập hợp các từ
có nghĩa. Đặc điểm tiếng Việt là ngôn ngữ không biến hình và theo từ điển
tiếng Việt (Vietlex), số lượng từ là khoảng hơn 40.000, trong đó: 15.69% là
từ đơn; 70.72% từ ghép có 2 âm tiết; 13.59% từ ghép ≥ 3 âm tiết và 1.04% từ
ghép ≥ 4 âm tiết. Với đặc điểm này, khoảng trắng không còn là dấu hiệu nhận
biết từ trong tiếng Việt như các ngôn ngữ khác (Anh, Pháp,…) mà cần một
giải pháp tách từ phù hợp. Hiện nay, công cụ VnCoreNLP (Vu et al., 2018)
được xem là công cụ tách từ có độ chính xác cao nhất. Hình 14.14 minh họa
kết quả tách từ văn bản tiếng Việt với công cụ VnCoreNLP.
Hình 14.14. Tách từ tiếng Viết với công cụ VnCoreNLP
Tạo lập tập chỉ mục nghịch đảo là bước xây dựng chỉ mục nghịch đảo
cho tập tài liệu nguồn cần chỉ mục. Chỉ mục nghịch đảo (inverted index)
(Manning et al., 2008) là cấu trúc lưu trữ hiệu quả nhất cho tập tài liệu nguồn
trong ngữ cảnh của bài toán tìm kiếm thông tin. Chỉ mục nghịch đảo bao gồm
hai thành phần: 1- Từ điển các từ chỉ mục (dictionary), chứa các từ chỉ mục
riêng biệt xuất hiện trong tập tài liệu; 2- Danh sách số hiệu các tài liệu có chứa
từ chỉ mục tương ứng (postings).
Hình 14.15. Cấu trúc chỉ mục nghịch đảo
284