Tìm tài liệu

Tom tat da van ban dua vao trich xuat cau

Tóm tắt đa văn bản dựa vào trích xuất câu

Upload bởi: huynhthanhtuan

Mã tài liệu: 260103

Số trang: 65

Định dạng: pdf

Dung lượng file: 882 Kb

Chuyên mục: Tổng hợp

Info

Mục lục

Lời cảm ơn i

Lời cam đoan ii

Mục lục iii

Danh sách hình vẽ . vi

Danh sách bảng . vii

Danh sách bảng . vii

Bảng từ viết tắt viii

Bảng từ viết tắt viii

Mở đầu . 1

Chương 1. Khái quát bài toán tóm tắt văn bản 4

1.1. Bài toán tóm tắt văn bản tự động 4

1.2. Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt . 4

1.3. Tóm tắt đơn văn bản . 7

1.4. Tóm tắt đa văn bản . 9

1.5. Tóm tắt chương một . 9

Chương 2. Tóm tắt đa văn bản dựa vào trích xuất câu . 10

2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản . 10

2.2. Các thách thức của quá trình tóm tắt đa văn bản 11

Trùng lặp đại từ và đồng tham chiếu . 11

Nhập nhằng mặt thời gian 12

Sự chồng chéo nội dung giữa các tài liệu 12

Tỷ lệ nén . 14

2.3. Đánh giá kết quả tóm tắt . 15

Phương pháp ROUGE 16

2.4. Tóm tắt đa văn bản dựa vào trích xuất câu . 16

2.4.1. Loại bỏ chồng chéo và sắp xếp các văn bản theo độ quan trọng 16

2.4.2. Phương pháp sắp xếp câu 17

Nhận xét . 18

2.5. Tóm tắt chương hai . 18

iv

Chương 3. Độ tương đồng câu và các phương pháp tăng cường tính ngữ nghĩa cho

độ tương đồng câu . 19

3.1. Độ tương đồng 19

3.2. Độ tương đồng câu 19

3.3. Các phương pháp tính độ tương đồng câu 20

3.3.1. Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine . 20

3.3.2. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn . 21

Mô hình độ tương đồng câu sử dụng chủ đề ẩn . 22

Suy luận chủ đề và tính độ tương đồng các câu . 23

3.3.3. Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24

Giới thiệu mạng ngữ nghĩa Wikipedia . 24

Kiến trúc Wikipedia . 24

Độ tương đồng giữa các khái niệm trong mạng ngữ nghĩa Wikipedia 25

Độ tương đồng câu dựa vào mạng ngữ nghĩa Wikipedia 28

3.4. Tóm tắt chương ba 28

Chương 4. Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu và áp

dụng vào mô hình tóm tắt đa văn tiếng Việt . 29

4.1. Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 29

4.1.1. Đồ thị thực thể và mô hình xây dựng đồ thị quan hệ thực thể 29

4.1.2. Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể . 32

Sự tương quan giữa đồ thị quan hệ thực thể và mạng ngữ nghĩa Wordnet,

Wikipedia . 32

Độ tương đồng ngữ nghĩa dựa vào đồ thị quan hệ thực thể . 33

Nhận xét: 34

4.2. Độ tương đồng ngữ nghĩa câu tiếng Việt . 34

4.3. Mô hình tóm tắt đa văn bản tiếng Việt . 35

4.4. Mô hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản . 38

4.5. Tóm tắt chương bốn 39

Chương 5. Thực nghiệm và đánh giá 40

5.1. Môi trường thực nghiệm . 40

5.2. Quá trình thực nghiệm 41

5.2.1. Thực nghiệm phân tích chủ đề ẩn . 41

5.2.2. Thực nghiệm xây dựng đồ thị quan hệ thực thể . 42

v

5.2.3. Thực nghiệm đánh giá các độ đo tương đồng . 43

5.2.4. Thực nghiệm đánh giá độ chính xác của mô hình tóm tắt đa văn bản 45

5.2.5. Thực nghiệm đánh giá độ chính xác của mô hình hỏi đáp . 46

Kết luận 49

Các công trình khoa học và sản phẩm đã công bố 50

Tài liệu tham khảo .

Mở đầu

Sự phát triển nhanh chóng của mạng Internet cùng với những bước tiến mạnh mẽ

của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn.

Thông tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng thông tin văn bản

khổng lồ trong đó đó đã và đang mang lại lợi ích không nhỏ cho con người, tuy nhiên,

nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin. Giải pháp

cho vấn đề này là tóm tắt văn bản tự động. Tóm tắt văn bản tự động được xác định là

một bài toán thuộc lĩnh vực khái phá dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ

giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả

đánh chỉ mục cho máy tìm kiếm.

Từ nhu cầu thực tế như thế, bài toán tóm tắt văn bản tự động nhận được sự quan

tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn

trên thế giới. Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều trong các hội

nghị nổi tiếng như : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007 bên cạnh đó

cũng là sự phát triển của các hệ thống tóm tắt văn bản như : MEAD, LexRank,

Microsoft Word (Chức năng AutoSummarize)

Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần

đây đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quả tóm tắt cho một tập

văn bản liên quan với nhau về mặt nội dung hay còn gọi là tóm tắt đa văn bản.

Bài toán tóm tắt đa văn bản được xác định là một bài toán có độ phức tạp cao.

Đa số mọi người nghĩ rằng, tóm tắt đa văn bản chỉ là việc áp dụng tóm tắt đơn văn bản

cho một văn bản được ghép từ các văn bản trong một tập văn bản cho trước. Tuy nhiên

điều đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đề tóm tắt đa văn là

do dữ liệu đầu vào có thể có sự nhập nhằng ngữ nghĩa giữa nội dung của văn bản này

với văn bản khác trong cùng tập văn bản hay trình tự thời gian được trình bày trong

1 Document Understanding Conference. http://duc.nist.gov

2 Text Analysis Conference. http://www.nist.gov/tac

3 Association for Computational Linguistics. http://aclweb.org

2

mỗi một văn bản là khác nhau, vì vậy để đưa ra một kết quả tóm tắt tốt sẽ vô cùng khó

khăn .

Rất nhiều ứng dụng cần đến quá trình tóm tắt đa văn bản như: hệ thống hỏi đáp

tự động (Q&A System), tóm tắt các báo cáo liên quan đến một sự kiện, tóm tắt các

cụm dữ liệu được trả về từ quá trình phân cụm trên máy tìm kiếm Hướng nghiên

cứu ứng dụng bài toán tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động

đang là hướng nghiên cứu chính của cộng đồng nghiên cứu tóm tắt văn bản nhưng

năm gần đây. Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt

đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) đối

với kho dữ liệu tri thức để đưa ra một văn bản tóm tắt trả lời cho câu hỏi của người sử

dụng đạt được nhiều kết quả khả quan cũng như thể hiện đây là một hướng tiếp cận

đúng đắn trong việc xây dựng các mô hình hỏi đáp tự động [Ba07,YYL07].

Với việc lựa chọn đề tài “Tóm tắt đa văn bản dựa vào trích xuất câu”, chúng

tôi tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp

tóm tắt đa văn bản phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương

pháp này vào việc xây dựng một mô hình hệ thống hỏi đáp tiếng Việt.

Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 5 chương như

sau:

ã Chương 1: Khái quát bài toán tóm tắt giới thiệu khái quát bài toán tóm tắt

văn bản tự động nói chung và bài toán tóm tắt đa văn bản nói riêng, trình bày

một số khái niệm và cách phân loại đối với bài toán tóm tắt.

ã Chương 2: Tóm tắt đa văn bản dựa vào trích xuất câu giới thiệu chi tiết về

hướng tiếp cận, thách thức và các vấn đề trong giải quyết bài toán tóm tắt đa

văn bản dựa vào trích xuất câu.

ã Chương 3: Độ tương đồng câu và các phương pháp tăng cường tính ngữ

nghĩa cho độ tương đồng câu trình bày các nghiên cứu về các phương pháp

tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào quá trình trích xuất câu

quan trọng của văn bản.

3

ã Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng

câu và áp dụng vào mô hình tóm tắt đa văn tiếng Việt phân tích, đề xuất một

phương pháp tích hợp các thuật toán để giải quyết bài toán tóm tắt đa văn bản

tiếng Việt và trình bày việc áp dụng phương pháp được đề xuất để xây dựng mô

hình hệ thống hỏi đáp tiếng Việt đơn giản.

ã Chương 5: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm của luận

văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu
  • Tóm tắt đa văn bản dựa vào trích xuất câu

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Độ tương đồng ngữ nghĩa giữa hai câu và ứng ...

Upload: honghanh27905

📎 Số trang: 53
👁 Lượt xem: 458
Lượt tải: 16

Các phương án giải quyết bài toán tóm tắt ...

Upload: qtrung1979

📎 Số trang: 91
👁 Lượt xem: 357
Lượt tải: 16

Tóm tắt bản cáo bạch C ty CP Xây dựng công ...

Upload: bui_ngoc_giang

📎 Số trang: 18
👁 Lượt xem: 378
Lượt tải: 16

Tóm tắt bản cáo bạch Công ty cô phâ n Xây ...

Upload: tuanmonhs8

📎 Số trang: 18
👁 Lượt xem: 417
Lượt tải: 16

Xây dựng ứng dụng tóm lược tự động văn bản ...

Upload: phamcongbinh2002

📎 Số trang: 94
👁 Lượt xem: 358
Lượt tải: 17

Nhận dạng người dựa vào thông tin khuôn mặt ...

Upload: hari_anh

📎 Số trang: 180
👁 Lượt xem: 497
Lượt tải: 19

Chiến lược tăng trưởng dựa vào xuất khẩu của ...

Upload: tutan84

📎 Số trang: 45
👁 Lượt xem: 325
Lượt tải: 16

Xây dựng chương trình bảo tồn đa dạng sinh ...

Upload: namqt

📎 Số trang: 1
👁 Lượt xem: 574
Lượt tải: 16

Hỗ trợ chẩn đoán tự động tổn thương xuất ...

Upload: linhdatuan

📎 Số trang: 84
👁 Lượt xem: 366
Lượt tải: 16

Một số giải pháp nhằm đẩy mạnh quá trình ...

Upload: tuancaoba

📎 Số trang: 70
👁 Lượt xem: 305
Lượt tải: 16

Tìm kiếm ảnh dựa vào nội dung

Upload: svkt3389

📎 Số trang: 89
👁 Lượt xem: 416
Lượt tải: 17

Phát triển nông nghiệp và chính sách đất đai ...

Upload: quangchinh4983

📎 Số trang: 37
👁 Lượt xem: 376
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Tóm tắt đa văn bản dựa vào trích xuất câu

Upload: huynhthanhtuan

📎 Số trang: 65
👁 Lượt xem: 557
Lượt tải: 16

CHUYÊN MỤC

Tổng hợp
Tóm tắt đa văn bản dựa vào trích xuất câu Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh sách hình vẽ . vi Danh sách bảng . vii Danh sách bảng . vii Bảng từ viết tắt viii Bảng từ viết tắt viii Mở đầu . 1 Chương 1. Khái quát bài toán tóm tắt văn bản 4 1.1. Bài toán tóm tắt văn bản tự pdf Đăng bởi
5 stars - 260103 reviews
Thông tin tài liệu 65 trang Đăng bởi: huynhthanhtuan - 16/02/2024 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 16/02/2024 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Tóm tắt đa văn bản dựa vào trích xuất câu