Page 299 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 299

14.3.2.2  Tính điểm xếp hạng

               Vì mô hình túi từ chỉ biểu diễn sự xuất hiện của từ trong các văn bản
          mà không thể hiện được mức độ quan trọng (sự đóng góp về mặt ý nghĩa của
          từ đến nội dung của văn bản) của từ, vì thế trong các hệ thống tìm kiếm thông
          tin, thay vì chỉ biểu diễn sự xuất hiện, các hệ thống còn thực hiện đánh trọng
          số cho các từ. Cách thức đánh trọng số tốt nhất cho bài toán tìm kiếm thông
          tin là dựa trên trọng số TF – IDF (Manning et al., 2008). TFij (term frequency)
          là tần suất xuất hiện của từ i trong một tài liệu j; IDFi (inverse document
          frequency) là nghịch đảo tần suất tài liệu của từ i. Khi này, trọng số wij được
                                                 
          tính theo công thức:    =      ∗        (  ).
                                   
                                          
                                                      
               Khi nhu cầu thông tin của người dùng được biểu diễn dưới dạng tập các
          từ khóa, thì nhu cầu này cũng có vai trò như là tài liệu, trong ngữ cảnh tìm
          kiếm thông tin nhu cầu này được gọi là truy vấn, khi đó việc tìm kiếm tài liệu
          (văn bản) phù hợp với nhu cầu thông tin của người dùng là tìm vec-tơ biểu
          diễn tài liệu giống nhất với vec-tơ biểu diễn cho truy vấn. Có thể thấy, độ đo
          cô-sin (cosine) là độ đo phù hợp nhất để xác định sự giống (khác) giữa hai
          vec-tơ. Cô-sin của 2 vec-tơ q (biểu diễn cho truy vấn) và d (biểu diễn cho tài

                                          ⃗
                                                                       =1
                                        ⃗
          liệu) được tính như sau:       (   ,   ) =     ⃗⃗•   ⃗  =     ⃗⃗  •     ⃗  =  ∑ |  |               .  Và
                                               |   ⃗⃗||   ⃗ |  |   ⃗⃗|  |   ⃗ |  |  |  2  |  |  2
                                                                √∑       √∑    
                                                                     =1        =1    
          tất nhiên để giới hạn số lượng phép tính cần tính toán thì chỉ có các tài liệu có
          chứa ít nhất một từ khóa trong truy vấn được xét tới. Giải thuật tính điểm xếp
          hạng và trả về danh sách các tài liệu phù hợp được thể hiện ở Hình 14.16.


















              Hình 14.16. Thuật toán tìm tài liệu phù hợp với tìm kiếm của người dùng






                                                                                285
   294   295   296   297   298   299   300   301   302   303   304