Page 292 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 292
văn bản scan đó thuộc loại văn bản nào). Chuyên viên văn thư sẽ
duyệt lại các thông tin này và chỉnh sửa (nếu cần). Cách thức này sẽ
tiết kiệm rất nhiều thời gian cho chuyên viên văn thư, đặc biệt là khi
thực hiện số hóa lượng lớn văn bản giấy đã được ban hành trước đây.
- Với kỹ thuật tương tự, nội dung của văn bản scan cũng được hệ
thống rút trích tự động. Trích yếu của văn bản cùng nội dung văn
bản sẽ được thiết lập chỉ mục và lưu trữ vào tập chỉ mục của hệ
thống, là nguồn dữ liệu cho chức năng tìm kiếm văn bản hành chính
theo nội dung.
- Để tìm kiếm văn bản theo nội dung, người dùng nhập yêu cầu tìm
kiếm dạng truy vấn (tập các từ khóa), hệ thống sẽ thực hiện tạo lập
vec-tơ chỉ mục cho truy vấn, truy vấn tập chỉ mục cho văn bản của
hệ thống, tính điểm xếp hạng cho các văn bản và trả về cho người
dùng văn bản có nội dung phù hợp nhất với nhu cầu tìm kiếm của
người dùng.
14.3 THIẾT KẾ GIẢI PHÁP
14.3.1 Trích nội dung văn bản tự động
Số hóa văn bản giấy có thể hiểu đơn giản là ứng dụng các kỹ thuật của
lĩnh vực khoa học máy tính để sinh bản sao (hiểu và khai thác được bởi các
hệ thống máy tính) và lưu lại nội dung của bản sao trên các hệ thống quản lý
đặc thù. Có nhiều cách tiếp cận khác nhau để có thể thực hiện số hóa văn bản
giấy từ thủ công đến tự động, trong đó tiếp cận mang lại hiệu quả nhất hiện
nay là dựa trên kỹ thuật nhận dạng ký tự quang học (optical character
recognition - OCR). Quy trình số hóa một văn bản giấy sử dụng kỹ thuật OCR
được thể hiện ở Hình 14.5.
HTTT chuyên
Văn bản giấy Máy scan OCR ngành
giấy
Hình 14.5. Quy trình số hóa tài liệu văn bản giấy
Để có thể trích xuất nội dung văn bản một cách chính xác và có thể sử
dụng được về sau trong trường hợp văn bản gồm nhiều thuộc tính (văn bản
hành chính, hóa đơn, toa thuốc,…), tại giai đoạn OCR, mẫu của văn bản cần
278