Page 293 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 293
được xác định một cách chính xác. Mục tiêu của giai đoạn nhận dạng mẫu
văn bản là xác định vị trí các trường thông tin thuộc tính của văn bản, giá trị
của các trường thông tin này để có thể cập nhật một cách tự động lên hệ thống
quản lý văn bản. Kết quả của giai đoạn này được minh họa ở Hình 14.6.
Hình 14.6. Ví dụ kết quả nhận dạng mẫu văn bản
Khi mẫu văn bản đã được xác định, kỹ thuật OCR sẽ được áp dụng để
trích xuất thông tin thuộc tính của văn bản, giai đoạn này được biết đến với
tên gọi “Trích xuất thông tin chính của văn bản – Key information extraction”.
Hình 14.7 minh họa kết quả của giai đoạn này.
279