Page 292 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 292

văn bản scan đó thuộc loại văn bản nào). Chuyên viên văn thư sẽ
                  duyệt lại các thông tin này và chỉnh sửa (nếu cần). Cách thức này sẽ
                  tiết kiệm rất nhiều thời gian cho chuyên viên văn thư, đặc biệt là khi
                  thực hiện số hóa lượng lớn văn bản giấy đã được ban hành trước đây.
               -  Với kỹ thuật tương tự, nội dung của văn bản scan cũng được hệ
                  thống rút trích tự động. Trích yếu của văn bản cùng nội dung văn
                  bản sẽ được thiết lập chỉ mục và lưu trữ vào tập chỉ mục của hệ
                  thống, là nguồn dữ liệu cho chức năng tìm kiếm văn bản hành chính
                  theo nội dung.

               -  Để tìm kiếm văn bản theo nội dung, người dùng nhập yêu cầu tìm
                  kiếm dạng truy vấn (tập các từ khóa), hệ thống sẽ thực hiện tạo lập
                  vec-tơ chỉ mục cho truy vấn, truy vấn tập chỉ mục cho văn bản của
                  hệ thống, tính điểm xếp hạng cho các văn bản và trả về cho người
                  dùng văn bản có nội dung phù hợp nhất với nhu cầu tìm kiếm của
                  người dùng.

               14.3  THIẾT KẾ GIẢI PHÁP

               14.3.1  Trích nội dung văn bản tự động
               Số hóa văn bản giấy có thể hiểu đơn giản là ứng dụng các kỹ thuật của
          lĩnh vực khoa học máy tính để sinh bản sao (hiểu và khai thác được bởi các
          hệ thống máy tính) và lưu lại nội dung của bản sao trên các hệ thống quản lý
          đặc thù. Có nhiều cách tiếp cận khác nhau để có thể thực hiện số hóa văn bản
          giấy từ thủ công đến tự động, trong đó tiếp cận mang lại hiệu quả nhất hiện
          nay  là  dựa  trên  kỹ  thuật  nhận  dạng  ký  tự  quang  học  (optical  character
          recognition - OCR). Quy trình số hóa một văn bản giấy sử dụng kỹ thuật OCR
          được thể hiện ở Hình 14.5.






                                                                        HTTT chuyên
           Văn bản giấy         Máy scan               OCR                 ngành
              giấy
                         Hình 14.5. Quy trình số hóa tài liệu văn bản giấy
               Để có thể trích xuất nội dung văn bản một cách chính xác và có thể sử
          dụng được về sau trong trường hợp văn bản gồm nhiều thuộc tính (văn bản
          hành chính, hóa đơn, toa thuốc,…), tại giai đoạn OCR, mẫu của văn bản cần



          278
   287   288   289   290   291   292   293   294   295   296   297