Page 294 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 294
Hình 14.7. Trích xuất tự động thông tin thuộc tính của văn bản
Tuy nhiên, do chất lượng văn bản scan có thể có nhiễu, văn bản hành
chính giấy bên cạnh ký tự chữ in còn có ký tự chữ viết tay vì thế có thể dẫn
đến thông tin bị nhận dạng sai. Kỹ thuật sửa lỗi chính tả sẽ được áp dụng để
khắc phục hạn chế này. Nội dung tiếp theo nhằm trình bày các kỹ thuật chính
ứng dụng trong ngữ cảnh số hóa văn bản hành chính giấy: OCR trích xuất tự
động dữ liệu thuộc tính của văn bản.
14.3.1.1 Trích xuất tự động dữ liệu thuộc tính của văn bản
Nhận dạng tự động mẫu văn bản là bước đầu giúp cho hệ thống xác
định một cách chuẩn xác các vùng thông tin trên văn bản scan và từ đó có thể
trích xuất chính xác thông tin thuộc tính của văn bản. Các văn bản mà một cơ
quan ban ngành có thể tiếp nhận thuộc một trong hai loại: 1- văn bản hành
chính (được quy định theo Nghị định 30/2020/NĐ-CP); 2- văn bản khác.
Đối với văn bản hành chính, Nghị định 30/2020/NĐ-CP quy định rất
chi tiết về cách thức soạn thảo và định dạng của văn bản. Hình 14.8 mô tả vị
trí trình bày các thành phần thể thức văn bản trên một trang giấy khổ A4.
Với văn bản khác, mẫu văn bản có thể được nhận biết theo 2 cách tiếp
cận: 1- phát hiện đối tượng (plain object detection); 2- phân đoạn ảnh (image
segmentation).
280