Mã tài liệu: 643483
Số trang: 109
Định dạng: doc
Dung lượng file: 2,646 Kb
Chuyên mục: Công nghệ phần mềm
Phân tích bố cục văn bản là một bước rất quan trọng trong hệ thống OCR. Do nhiều yếu tố như kích cỡ chữ, kiểu chữ, khoảng cách giữa các dòng và bố cục của một số văn bản khá phức tạp, cùng với sự xuất hiện của nhiễu và dấu (đặc biệt trong các văn bản tiếng Việt),… đã ảnh hưởng rất lớn đến kết quả của quá trình phân tích và nhận dạng. Quá trình nhận dạng ảnh văn bản bao gồm nhiều bước: xám hóa ảnh đầu vào, nhị phân ảnh, chỉnh nghiêng văn bản, tách khối, tách dòng, tách từ, tách ký tự và cuối cùng là nhận dạng văn bản. Trong nội dung của đề tài này, chúng tôi sẽ trình bày quá trình nhị phân ảnh, xác định góc nghiêng, tách khối văn bản cho các ảnh công văn tiếng Việt, sau đó tiến hành tách dòng, tách từ, tách ký tự rồi nhận dạng, hơn thế nữa chúng tôi còn xây dựng Ground truth để đánh giá độ chính xác của thuật toán tách khối, và đồng thời chúng tôi cũng xây dựng cách kết xuất ra kết quả dưới dạng file XML và file MS Word. Đối với giai đoạn nhị phân, chúng tôi áp dụng phương pháp Otsu. Đối với giai đoạn xác định góc nghiêng của văn bản, chúng tôi đề xuất một phương pháp mới dựa trên các phép biến đổi Morphology để xác định góc nghiêng văn bản rồi áp dụng phép quay theo block để chỉnh nghiêng cho văn bản đầu vào. Tiếp đó, quá trình tách khối văn bản được thực hiện dựa trên việc phân tích các projection profile theo chiều dọc và chiều ngang. Từ những kết quả thu được sau quá trình tách khối, chúng tôi tiến hành tách dòng bằng cách tô lem những dòng văn bản, sau đó chiếu phổ ngang để tìm ra những đường cắt hợp lý, phân biệt các dòng trong cùng một khối. Trong bước xác định các từ trong mỗi dòng, chúng tôi đề nghị phương pháp mới mà nó dựa vào phương pháp của Otsu để tìm ra ngưỡng phù hợp dùng trong việc tách các từ trên cùng một dòng, và tạo cơ sở cho tách ký tự. Trong giai đoạn tách ký tự, chúng tôi xem như một ký tự sẽ bao gồm cả dấu đi kèm với nó, chúng bước này chúng tôi sẽ xử lý vấn đề tách những ký tự dính với nhau thành những ký tự riêng biệt dựa vào lược đồ hình chiếu theo trục x, sau đó xác định những vị trí nào có mật độ pixel thấp để tiến hành tách kýtự. Sau khi văn bản đã được tách ký tự, chúng tôi xây dựng một mạng Neural nhân tạo hoạt động theo cơ chế back-propagation để tiến hành nhận dạng văn bản. Việc kết xuất kết quả của quá trình phân tích, xây dựng bố cục văn bản và nhận dạng có thể được tiến hành theo hai cách, hoặc kết xuất ra file XML hoặc kết xuất ra file MS Word. Trong lĩnh vực nhận dạng và xử lý ảnh việc kết xuất kết quả ra file XML là một chuẩn được công nhận hiện nay. Tuy nhiên, trong đề tài này, chúng tôi cũng cho phép kết xuất kết quả nhận dạng thành file MS Word, giúp người sử dụng có thể thao tác dễ dàng hơn trong việc chỉnh sửa cũng như tìm kiếm về mặt nội dung. Trong nội dung đề tài này, chúng tôi cũng đã tiến hành xây dựng thuật toán đánh giá độ chính xác của thuật toán tách khối. Khi thực hiện đề tài này, chúng tôi đã tiến hành kiểm nghiệm phương pháp chỉnh nghiêng trên cơ sở dữ liệu gồm 1080 ảnh bao gồm 900 ảnh thuộc ngữ hệ Latin và 180 ảnh thuộc các ngôn ngữ khác như Trung Quốc, Thái, Ả rập, … và trên cơ sở dữ liệu ảnh UW English I, một cơ sở dữ liệu chuẩn, với độ chính xác là 99% đối với 900 ảnh văn bản Latin, 96.67% đối với cơ sở dữ liệu gồm 1080 ảnh và 96.63% đối với cơ sở dữ liệu UW English I. Đối với thuật toán tách khối văn bản, chúng tôi đã tiến hành xây dựng ground truth và kiểm nghiệm phương pháp tách khối trên cơ sở dữ liệu gồm 100 ảnh thu được từ các công văn gửi đến (đi) của Khoa Công nghệ Thông tin, Đại học Nông Lâm Tp.HCM, và đạt được độ chính xác là 90,54%, hiệu suất tìm được khối đúng là 84, 20%. Đối với việc tách dòng, tách từ cũng như tách ký tự và nhận dạng, chúng tôi chưa thể tiến hành kiểm nghiệm và đưa ra các kết quả thực nghiệm. Nhưng kết quả của các quá trình này là khá tốt, nó có thể đáp ứng được nhu cầu của quá trình xây dựng bố cục văn bản và nhận dạng trong toàn bộ đề tài.
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 71
👁 Lượt xem: 1300
⬇ Lượt tải: 16
📎 Số trang: 103
👁 Lượt xem: 581
⬇ Lượt tải: 16
📎 Số trang: 80
👁 Lượt xem: 515
⬇ Lượt tải: 17
📎 Số trang: 21
👁 Lượt xem: 626
⬇ Lượt tải: 17
📎 Số trang: 124
👁 Lượt xem: 864
⬇ Lượt tải: 21
📎 Số trang: 95
👁 Lượt xem: 476
⬇ Lượt tải: 16
📎 Số trang: 63
👁 Lượt xem: 635
⬇ Lượt tải: 16
📎 Số trang: 59
👁 Lượt xem: 478
⬇ Lượt tải: 17
📎 Số trang: 149
👁 Lượt xem: 768
⬇ Lượt tải: 18
Những tài liệu bạn đã xem
📎 Số trang: 109
👁 Lượt xem: 229
⬇ Lượt tải: 9