Page 297 - Công nghệ kỹ thuật và công nghệ thông tin trong tiến trình công nghiệp hóa - hiện đại hóa Đồng bằng sông Cửu Long
P. 297
Hình 14.12. Nhận dạng ký tự theo tiếp cận sequence modelling
Hiện nay khá nhiều thư viện lập trình (application programming
interface - API) hỗ trợ nhận dạng ký tự quang học được cung cấp dưới hình
thức nguồn mở giúp cho quá trình phát triển một mô-đun nhận dạng ký tự trở
nên đơn giản hơn bao giờ hết, nổi bật trong số đó là thư viện Tesseract OCR
(Smith, 2007). Tesseract OCR được xuất bản dưới giấy phép Apache, phiên
bản 2.0 và được phát triển dựa trên sự tài trợ của Google từ năm 2006. Hiện
nay phiên bản Tesseract 4 đã được cung cấp tại địa chỉ https://github.com/
tesseract-ocr/tesseract. VietOCR là một thư viện nhận dạng ký tự quang học
được phát triển dựa trên lõi Tesseract OCR với những cải tiến tập trung vào
cải thiện độ chính xác cho nhận dạng chuỗi ký tự tiếng Việt. Phiên bản mới
nhất của VietOCR có thể tải về tại địa chỉ https://vietocr.sourceforge.net/.
14.3.2 Tìm kiếm theo nội dung
14.3.2.1 Biểu diễn văn bản
Để văn bản có thể được tìm kiếm theo nội dung (tìm kiếm chính xác
hoặc gần đúng với tập các từ khóa) thì nội dung của văn bản phải được biểu
diễn trong không gian các từ chỉ mục (indexing terms). Mô hình đơn giản
được sử dụng để biểu diễn cho nội dung của văn bản là mô hình túi từ (Bag
of Words - BoW) (Manning et al., 2008) trong đó văn bản được xem như là
một tập hợp các từ mà không quan tâm đến thứ tự (vị trí) xuất hiện của các từ
trong văn bản. Với mô hình này, một văn bản sẽ được xem như là một vec-
tơ, vì vậy khi biểu diễn văn bản cho bài toán tìm kiếm thông tin, mô hình
được sử dụng là mô hình không gian vec-tơ (vector space model). Các bước
biểu diễn văn bản tiếng Việt với mô hình không gian vec-tơ được thể hiện chi
tiết trong Hình 14.13. Trong đó, hai công việc quan trọng trong quy trình này
là: tách từ và tạo lập chỉ mục nghịch đảo.
283