Page 293 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 293

được xác định một cách chính xác. Mục tiêu của giai đoạn nhận dạng mẫu
          văn bản là xác định vị trí các trường thông tin thuộc tính của văn bản, giá trị
          của các trường thông tin này để có thể cập nhật một cách tự động lên hệ thống
          quản lý văn bản. Kết quả của giai đoạn này được minh họa ở Hình 14.6.







































                         Hình 14.6. Ví dụ kết quả nhận dạng mẫu văn bản

               Khi mẫu văn bản đã được xác định, kỹ thuật OCR sẽ được áp dụng để
          trích xuất thông tin thuộc tính của văn bản, giai đoạn này được biết đến với
          tên gọi “Trích xuất thông tin chính của văn bản – Key information extraction”.
          Hình 14.7 minh họa kết quả của giai đoạn này.















                                                                                279
   288   289   290   291   292   293   294   295   296   297   298