Page 298 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 298

Hình 14.13. Quy trình biểu diễn văn bản

               Tách từ là công đoạn phân tách nội dung văn bản thành tập hợp các từ
          có nghĩa. Đặc điểm tiếng Việt là ngôn ngữ không biến hình và theo từ điển
          tiếng Việt (Vietlex), số lượng từ là khoảng hơn 40.000, trong đó: 15.69% là
          từ đơn; 70.72% từ ghép có 2 âm tiết; 13.59% từ ghép ≥ 3 âm tiết và 1.04% từ
          ghép ≥ 4 âm tiết. Với đặc điểm này, khoảng trắng không còn là dấu hiệu nhận
          biết từ trong tiếng Việt như các ngôn ngữ khác (Anh, Pháp,…) mà cần một
          giải pháp tách từ phù hợp. Hiện nay, công cụ VnCoreNLP (Vu et al., 2018)
          được xem là công cụ tách từ có độ chính xác cao nhất. Hình 14.14 minh họa
          kết quả tách từ văn bản tiếng Việt với công cụ VnCoreNLP.




                     Hình 14.14. Tách từ tiếng Viết với công cụ VnCoreNLP

               Tạo lập tập chỉ mục nghịch đảo là bước xây dựng chỉ mục nghịch đảo
          cho tập tài liệu nguồn cần chỉ mục. Chỉ mục nghịch đảo (inverted index)
          (Manning et al., 2008) là cấu trúc lưu trữ hiệu quả nhất cho tập tài liệu nguồn
          trong ngữ cảnh của bài toán tìm kiếm thông tin. Chỉ mục nghịch đảo bao gồm
          hai thành phần: 1- Từ điển các từ chỉ mục (dictionary), chứa các từ chỉ mục
          riêng biệt xuất hiện trong tập tài liệu; 2- Danh sách số hiệu các tài liệu có chứa
          từ chỉ mục tương ứng (postings).















                           Hình 14.15. Cấu trúc chỉ mục nghịch đảo






          284
   293   294   295   296   297   298   299   300   301   302   303