Mã tài liệu: 231339
Số trang: 109
Định dạng: doc
Dung lượng file: 2,627 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Phân tích bố cục văn bản là một bước rất quan trọng trong hệ thống OCR. Do nhiều yếu tố như kích cỡ chữ, kiểu chữ, khoảng cách giữa các dòng và bố cục của một số văn bản khá phức tạp, cùng với sự xuất hiện của nhiễu và dấu (đặc biệt trong các văn bản tiếng Việt), đã ảnh hưởng rất lớn đến kết quả của quá trình phân tích và nhận dạng.
Quá trình nhận dạng ảnh văn bản bao gồm nhiều bước: xám hóa ảnh đầu vào, nhị phân ảnh, chỉnh nghiêng văn bản, tách khối, tách dòng, tách từ, tách ký tự và cuối cùng là nhận dạng văn bản. Trong nội dung của đề tài này, chúng tôi sẽ trình bày quá trình nhị phân ảnh, xác định góc nghiêng, tách khối văn bản cho các ảnh công văn tiếng Việt, sau đó tiến hành tách dòng, tách từ, tách ký tự rồi nhận dạng, hơn thế nữa chúng tôi còn xây dựng Ground truth để đánh giá độ chính xác của thuật toán tách khối, và đồng thời chúng tôi cũng xây dựng cách kết xuất ra kết quả dưới dạng file XML và file MS Wor
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 1
👁 Lượt xem: 598
⬇ Lượt tải: 17
📎 Số trang: 99
👁 Lượt xem: 637
⬇ Lượt tải: 17
📎 Số trang: 103
👁 Lượt xem: 403
⬇ Lượt tải: 17
📎 Số trang: 121
👁 Lượt xem: 509
⬇ Lượt tải: 16
📎 Số trang: 4
👁 Lượt xem: 615
⬇ Lượt tải: 17
📎 Số trang: 40
👁 Lượt xem: 542
⬇ Lượt tải: 16
📎 Số trang: 91
👁 Lượt xem: 743
⬇ Lượt tải: 17
📎 Số trang: 91
👁 Lượt xem: 405
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 615
⬇ Lượt tải: 17
📎 Số trang: 23
👁 Lượt xem: 637
⬇ Lượt tải: 16
📎 Số trang: 116
👁 Lượt xem: 602
⬇ Lượt tải: 17
📎 Số trang: 53
👁 Lượt xem: 767
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 109
👁 Lượt xem: 566
⬇ Lượt tải: 16