Tìm tài liệu

Tim hieu phuong phap phan tich bang ben trong tai lieu anh

Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

Upload bởi: ebluechip

Mã tài liệu: 298526

Số trang: 74

Định dạng: pdf

Dung lượng file: 1,109 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

MỤC LỤC

Trang phụ bìa

Lời cảm ơn

MỤC LỤC ----i

THUẬT NGỮ TIẾNG ANH:--iii DANH MUC CAC HINH VE -iv CHƯƠNG I: MỞ ĐẦU ----1

1.1. Cơ sở nghiên cứu và mục đích của luận văn ---3

1.2. Tổ chức của luận văn: -4

CHƯƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH ----5

2.1. Tài liệu ảnh ----5

2.2. Hệ phân tích trang tài liệu 5

2.3. Thu thập dữ liệu ảnh --6

2.4. Tiền xử lý điểm ảnh----9

2.4.1. Xử lý nhị phân ---10

2.4.2. Giảm nhiễu---11

2.4.3. Phân đoạn ảnh ----12

2.4.4. Làm mảnh và xác định vùng -12

2.4.5. Mã hóa CC và véctơ hóa -13

2.5. Phân tich đăc trưng cua tai liêu anh --15

2.6. Phân tich đôi tương văn ban trong tai liêu ----15

2.6.1. Xác định góc nghiêng của văn bản ----16

2.6.2. Phân tich bô cuc cua trang ta i liêu anh 18

2.7. Nhận dạng ký tự quang học (OCR) ----19

2.7.1. Thuât toan OCR ---20

2.7.1.1. Trích chọn đặc trưng ----20

2.7.1.2. Phân loại----21

2.7.2. Nhận dạng ký tự dựa trên ngữ cảnh21

2.8. Phân tích các đối tượng ảnh trong tài liệu 22

CHƯƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH ---24

3.1. Tông quan vê phân tach văn ban – ảnh ---24

3.2. Những đặc trưng chung của một tệp tài liệu ảnh -27

3.3. Thuật toán phân tách văn bản - ảnh---30

3.3.1. Xoá bỏ các đối tượng tuyến tính ---31

3.3.2. Phân tích các thành phần liên thông của nét bút 32

3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản --34

3.3.4. Thực hiện các phép toán hình thái -35

3.3.5. Phân tích các thành phần liên thông mới ---35

3.3.6. Biểu diễn cấu trúc thông tin của các chuỗi văn bản -36

CHƯƠNG IV: PHƯƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG

TRANG TAI LIÊU ANH39

4.1. Giới thiệu---39

4.2. Thuật toán phân đoạn khởi tạo 41

4.2.1. Trường hợp thuật toán nhận dạng sai cột ---42

4.2.2. Cải tiến các bước của thuật toán phân đoạn khởi tạo T - Recs++ 44

4.2.3. Những ưu điểm của thuật toán 46

4.2.4. Những mặt hạn chế của thuật toán khởi tạo 47

4.3. Các bước xử lý khối sau khi phân đoạn48

4.3.1. Trộn các khối phân đoạn sai ---48

4.3.2. Phân tách các cột bị trộn vào một khối -49

4.3.3. Nhóm các từ bị phân tách ------52

4.4. Phân tích khối --53

4.5. Xác định cấu trúc các cột, hàng 54

CHƯƠNG 5 CHƯƠNG TRINH THƯ NGHIỆM VA MINH HOA THUÂT TOÁN T-RECS++ ----56

5.1. Mô tả chương trình 56

5.2. Môt sô kêt qua -58

KÊT LUÂN VA ĐÊ XUÂT ---61

CHƯƠNG 1: MỞ ĐẦU

Nhận dạng và xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Ở Việt Nam Nhận dạng và xử lý ảnh là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh. Sự ra đời của nó đã tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ…

Cùng với sự phát triên đo co nhưng nhu câu thưc tê đăt ra thách thức các nhà khoa học máy tính càng nhiều . Nhưng công viêc , nhưng bai toan đươc xư ly theo lôi cô truyên không theo kip tôc đô phat triên cua công nghê ngày nay . Một trong nhưng bai toan đo chinh la các tài liệu đươc lưu trư trên các chất liệu cổ truyền như giây, gô, vải vơi khôi lương không lô , chưa đưng rât nhiêu tri thưc cua nhân loai nhưng lai không co đô bên vinh cưu , khó xử lý và lưu trữ . Môt bai toan khac la ngay nay công viêc văn phong liên quan

nhiêu đên cac tai liêu không đơn thuân la tai liêu chư ma tai liêu co nhiêu

thành phần như bảng biểu , ảnh. Tât ca cac tai liêu đo nêu tiêp tuc lưu trư theo phương phap cô truyên thi rât phưc tap va kho xư ly . Vây lam thê nao đê chuyên đôi nhưng kho tang tri thưc trên vao may tinh đê lưu trư , xư ly dê dàng, thuân tiên va nhanh gon . Môt linh vưc của khoa học nhâ n dang la Phân tích tài liệu ảnh đã ra đơi nhăm biêu diên thông tin trong cac tai liêu anh dươi dạng có cấu trúc .

Hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tự động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng những cấu trúc mà có thể truy xuất, thay đổi được bằng máy tính. Quy trình xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh.

Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một bản vẽ kỹ thuật, .v.v.. Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các hình vẽ, các bức ảnh, .v.v.. Bên cạnh việc chuyển toàn bộ nội dung của tài liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài liệu. Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúc và nội dung của nó. Tài liệu được chuyển sang phải có khả năng thay đổi, soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc của nó thay vì phải truy cập dưới dạng những mẫu ảnh. Có một số lượng lớ n ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như: dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, ...v.v.

Mục đích của luận văn là nghiên cưu ky thuât nhân dang bang va trich chọn ra đối tượng của tài liệu ảnh. Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cưu chinh .

Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không xem xét đến bất cứ một loại đường phân cách nào để xác định cấu trúc bảng. Thay vào đó phương pháp sẽ tập trung vào việc nhận biết các từ trong cùng một khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vào trong cùng một khối). Phương pháp sẽ không đi tìm những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo phương pháp tiếp cận bottom - up.

1.1. Cơ sở nghiên cứu và mục đích của luận văn

Ảnh là một đối tượng khá phức tạp về đường nét, dung lượng điểm ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu. Trong nhiều khâu phân tích ảnh ngoài việc đơn giản hoá các phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận và xử ảnh theo cách của con người. Trong các bước xử lý đó nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ của con người. Những hệ thống nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thành một tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại. Do đó việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ra những cấu trúc đi kèm với từng nội dung đó.

Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng có trong trang tài liệu ảnh, bao gồm việc nhận dạng các cột, các dòng và các ô có chứa dữ liệu trong bảng. Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đối tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh …v.v.

Mặc dù đã có nhiều kỹ thuật trong hệ thống nhận dạng cấu trúc. Tuy nhiên những nghiên cứu trên những vấn đề đó vẫn còn tiếp tục phát triển bởi vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công bố trước đây vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng. Luận văn này trình bày kỹ thuật nhận dạng cấu trúc bảng bên trong tài liệu ảnh T-Recs và đề xuất một số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn thiện hiện hơn phương pháp phân tích bảng.

1.2. Tổ chức của luận văn

Luận văn được trình bày thành 5 chương và 1 phụ lục.

Chương 1 Trình bày tóm tắt cơ sở nghiên cứu và mục đích cũng nhưcách tổ chức của luận văn.

Chương 2 Tông quan vê hê phân tich tai liêu anh va cac thanh phân chính trong hê phân tich tai liêu anh : Lây dư liêu , xư ly anh , trích chọn đặc trưng, nhân dang đôi tương anh va nhân dang văn ban .

Chương 3 trình bày bài toán phân tách văn bản và ảnh một cách riêng rẽ. Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ được trình bày dựa vào việc phân tích các thành phần liên thông (CCs).

Chương 4 trình bày phương pháp phân tích bảng ( T-Recs) dựa trên những hình chữ nhật bao quanh một từ và đầu ra là cấu trúc logic của khối văn bản, cụ thể với những bảng nhận dạng được sẽ là cấu trúc các cột và các ô của bảng dữ liệu. Phân tích những mặt hạn chế của thuật toán - trường hợp nhận dạng chưa chính xác các cột dữ liệu trong bảng luận văn đưa ra thuật toán khắc phục những mặt hạn chế đó.

Chương 5 Chương trình thử nghiệm và minh họa phân tích bảng trong trang tài liệu ảnh.

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
  • Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Tìm hiểu phương pháp phân đoạn ảnh màu

Upload: hironado

📎 Số trang: 65
👁 Lượt xem: 694
Lượt tải: 16

Tìm hiểu một số phương pháp dò tìm phát hiện ...

Upload: chilaydulieuthoi

📎 Số trang: 27
👁 Lượt xem: 566
Lượt tải: 16

Tìm hiểu một số phương pháp dò tìm phát hiện ...

Upload: frozens111

📎 Số trang: 27
👁 Lượt xem: 498
Lượt tải: 16

Tìm hiểu một số phương pháp dò tìm phát hiện ...

Upload: toipv

📎 Số trang: 26
👁 Lượt xem: 404
Lượt tải: 16

Tìm hiểu phương pháp sinh ảnh Fractal bằng ...

Upload: ttiep39

📎 Số trang: 97
👁 Lượt xem: 655
Lượt tải: 16

Tìm hiểu phương pháp bpr bending potential ...

Upload: let_it_be1981

📎 Số trang: 51
👁 Lượt xem: 459
Lượt tải: 16

Luận văn Xây dựng ứng dụng phân tích chữ ...

Upload: recyclebin692000

📎 Số trang: 79
👁 Lượt xem: 552
Lượt tải: 16

Tìm hiểu phương pháp cực tiểu năng lượng dựa ...

Upload: vtamin9

📎 Số trang: 58
👁 Lượt xem: 324
Lượt tải: 16

Tìm hiểu các phương pháp trích chọn đặc ...

Upload: hienlongly11

📎 Số trang: 39
👁 Lượt xem: 495
Lượt tải: 16

Tìm hiểu và cài đặt một số công cụ tấn công ...

Upload: tuyennm

📎
👁 Lượt xem: 548
Lượt tải: 19

Xử lý ảnh bằng phương pháp Morphology

Upload: songtoet

📎 Số trang: 44
👁 Lượt xem: 1128
Lượt tải: 18

Tìm hiểu về vấn đề phân tán dữ liệu trong ...

Upload: hungnmaca

📎 Số trang: 44
👁 Lượt xem: 429
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Tìm hiểu phương pháp phân tích bằng bên ...

Upload: ebluechip

📎 Số trang: 74
👁 Lượt xem: 445
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh MỤC LỤC Trang phụ bìa Lời cảm ơn MỤC LỤC ----i THUẬT NGỮ TIẾNG ANH:--iii DANH MUC CAC HINH VE -iv CHƯƠNG I: MỞ ĐẦU ----1 1.1. Cơ sở nghiên cứu và mục đích của luận văn ---3 1.2. Tổ chức của luận văn: -4 CHƯƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU pdf Đăng bởi
5 stars - 298526 reviews
Thông tin tài liệu 74 trang Đăng bởi: ebluechip - 31/05/2024 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 31/05/2024 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh