Page 297 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 297

Hình 14.12. Nhận dạng ký tự theo tiếp cận sequence modelling

               Hiện  nay  khá  nhiều  thư  viện  lập  trình  (application  programming
          interface - API) hỗ trợ nhận dạng ký tự quang học được cung cấp dưới hình
          thức nguồn mở giúp cho quá trình phát triển một mô-đun nhận dạng ký tự trở
          nên đơn giản hơn bao giờ hết, nổi bật trong số đó là thư viện Tesseract OCR
          (Smith, 2007). Tesseract OCR được xuất bản dưới giấy phép Apache, phiên
          bản 2.0 và được phát triển dựa trên sự tài trợ của Google từ năm 2006. Hiện
          nay phiên bản Tesseract 4 đã được cung cấp tại địa chỉ https://github.com/
          tesseract-ocr/tesseract. VietOCR là một thư viện nhận dạng ký tự quang học
          được phát triển dựa trên lõi Tesseract OCR với những cải tiến tập trung vào
          cải thiện độ chính xác cho nhận dạng chuỗi ký tự tiếng Việt. Phiên bản mới
          nhất của VietOCR có thể tải về tại địa chỉ https://vietocr.sourceforge.net/.
               14.3.2  Tìm kiếm theo nội dung

               14.3.2.1  Biểu diễn văn bản

               Để văn bản có thể được tìm kiếm theo nội dung (tìm kiếm chính xác
          hoặc gần đúng với tập các từ khóa) thì nội dung của văn bản phải được biểu
          diễn trong không gian các từ chỉ mục (indexing terms). Mô hình đơn giản
          được sử dụng để biểu diễn cho nội dung của văn bản là mô hình túi từ (Bag
          of Words - BoW) (Manning et al., 2008) trong đó văn bản được xem như là
          một tập hợp các từ mà không quan tâm đến thứ tự (vị trí) xuất hiện của các từ
          trong văn bản. Với mô hình này, một văn bản sẽ được xem như là một vec-
          tơ, vì vậy khi biểu diễn văn bản cho bài toán tìm kiếm thông tin, mô hình
          được sử dụng là mô hình không gian vec-tơ (vector space model). Các bước
          biểu diễn văn bản tiếng Việt với mô hình không gian vec-tơ được thể hiện chi
          tiết trong Hình 14.13. Trong đó, hai công việc quan trọng trong quy trình này
          là: tách từ và tạo lập chỉ mục nghịch đảo.






                                                                                283
   292   293   294   295   296   297   298   299   300   301   302