Page 299 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 299
14.3.2.2 Tính điểm xếp hạng
Vì mô hình túi từ chỉ biểu diễn sự xuất hiện của từ trong các văn bản
mà không thể hiện được mức độ quan trọng (sự đóng góp về mặt ý nghĩa của
từ đến nội dung của văn bản) của từ, vì thế trong các hệ thống tìm kiếm thông
tin, thay vì chỉ biểu diễn sự xuất hiện, các hệ thống còn thực hiện đánh trọng
số cho các từ. Cách thức đánh trọng số tốt nhất cho bài toán tìm kiếm thông
tin là dựa trên trọng số TF – IDF (Manning et al., 2008). TFij (term frequency)
là tần suất xuất hiện của từ i trong một tài liệu j; IDFi (inverse document
frequency) là nghịch đảo tần suất tài liệu của từ i. Khi này, trọng số wij được
tính theo công thức: = ∗ ( ).
Khi nhu cầu thông tin của người dùng được biểu diễn dưới dạng tập các
từ khóa, thì nhu cầu này cũng có vai trò như là tài liệu, trong ngữ cảnh tìm
kiếm thông tin nhu cầu này được gọi là truy vấn, khi đó việc tìm kiếm tài liệu
(văn bản) phù hợp với nhu cầu thông tin của người dùng là tìm vec-tơ biểu
diễn tài liệu giống nhất với vec-tơ biểu diễn cho truy vấn. Có thể thấy, độ đo
cô-sin (cosine) là độ đo phù hợp nhất để xác định sự giống (khác) giữa hai
vec-tơ. Cô-sin của 2 vec-tơ q (biểu diễn cho truy vấn) và d (biểu diễn cho tài
⃗
=1
⃗
liệu) được tính như sau: ( , ) = ⃗⃗• ⃗ = ⃗⃗ • ⃗ = ∑ | | . Và
| ⃗⃗|| ⃗ | | ⃗⃗| | ⃗ | | | 2 | | 2
√∑ √∑
=1 =1
tất nhiên để giới hạn số lượng phép tính cần tính toán thì chỉ có các tài liệu có
chứa ít nhất một từ khóa trong truy vấn được xét tới. Giải thuật tính điểm xếp
hạng và trả về danh sách các tài liệu phù hợp được thể hiện ở Hình 14.16.
Hình 14.16. Thuật toán tìm tài liệu phù hợp với tìm kiếm của người dùng
285