Page 294 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 294

Hình 14.7. Trích xuất tự động thông tin thuộc tính của văn bản

               Tuy nhiên, do chất lượng văn bản scan có thể có nhiễu, văn bản hành
          chính giấy bên cạnh ký tự chữ in còn có ký tự chữ viết tay vì thế có thể dẫn
          đến thông tin bị nhận dạng sai. Kỹ thuật sửa lỗi chính tả sẽ được áp dụng để
          khắc phục hạn chế này. Nội dung tiếp theo nhằm trình bày các kỹ thuật chính
          ứng dụng trong ngữ cảnh số hóa văn bản hành chính giấy: OCR trích xuất tự

          động dữ liệu thuộc tính của văn bản.
               14.3.1.1  Trích xuất tự động dữ liệu thuộc tính của văn bản
               Nhận dạng tự động mẫu văn bản là bước đầu giúp cho hệ thống xác
          định một cách chuẩn xác các vùng thông tin trên văn bản scan và từ đó có thể
          trích xuất chính xác thông tin thuộc tính của văn bản. Các văn bản mà một cơ
          quan ban ngành có thể tiếp nhận thuộc một trong hai loại: 1- văn bản hành
          chính (được quy định theo Nghị định 30/2020/NĐ-CP); 2- văn bản khác.

               Đối với văn bản hành chính, Nghị định 30/2020/NĐ-CP quy định rất
          chi tiết về cách thức soạn thảo và định dạng của văn bản. Hình 14.8 mô tả vị
          trí trình bày các thành phần thể thức văn bản trên một trang giấy khổ A4.

               Với văn bản khác, mẫu văn bản có thể được nhận biết theo 2 cách tiếp
          cận: 1- phát hiện đối tượng (plain object detection); 2- phân đoạn ảnh (image
          segmentation).




          280
   289   290   291   292   293   294   295   296   297   298   299