Tìm tài liệu

Xay dung muc luc cho van ban

Xây dựng mục lục cho văn bản

Upload bởi: anmian

Mã tài liệu: 260110

Số trang: 47

Định dạng: pdf

Dung lượng file: 850 Kb

Chuyên mục: Tổng hợp

Info

MỤC LỤC

LỜI CẢM ƠN . i

LỜI CAM ĐOAN . ii

MỤC LỤC . .iii

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT . v

DANH MỤC CÁC BẢNG . vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . .vii

MỞ ĐẦU . .1

Chương 1. GIỚI THIỆU BÀI TOÁN . .3

1.1. Bài toán tóm tắt văn bản . 3

1.2. Bài toán xây dựng mục lục cho văn bản . .5

1.3. Phương hướng giải quyết bài toán . .5

1.4. Các công trình liên quan . .6

Chương 2. PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ . 8

2.1. Phân đoạn văn bản . 8

2.2. Các phương pháp phân đoạn văn bản . 9

2.2.1. Sử dụng mối liên kết từ vựng . 9

2.2.2. Sử dụng mô hình nhát cắt cực tiểu . .13

2.3. Sinh tiêu đề cho văn bản . 17

2.4. Các phương pháp sinh tiêu đề cho văn bản . .18

2.4.1. Phương pháp trích chọn cụm từ . 18

2.4.2. Phương pháp hai pha . .19

2.5. Tóm tắt chương hai . .20

Chương 3. XÂY DỰNG MỤC LỤC CHO VĂN BẢN . 21

3.1. Mô hình tích hợp thuật toán . .21

3.2. Đảm bảo tính hợp lí của mục lục . .22

3.3. Các phương pháp đánh giá . 23

3.3.1. Đánh giá thuật toán phân đoạn . .23

Độ đo Pk . .24

Độ đo WindowDiff . .26

3.3.2. Đánh giá thuật toán sinh tiêu đề . 26

3.4. Tóm tắt chương ba . 27

iv

Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ . .28

4.1. Môi trường thử nghiệm . .28

4.2. Dữ liệu thử nghiệm . 29

4.3. Quá trình thử nghiệm . .32

4.4. Kết quả thử nghiệm . .32

4.4.1. Kết quả phân đoạn văn bản . .32

4.4.2. Kết quả sinh tiêu đề . .33

4.5. Đánh giá thử nghiệm . 34

4.5. Phương hướng cải tiến . 35

4.6. Tóm tắt chương bốn . .35

KẾT LUẬN . .37

TÀI LIỆU THAM KHẢO . 38

MỞ ĐẦU

Trong vài thập kỉ qua, lượng thông tin được số hoá ngày càng nhiều. Ban

đầu là các thư viện với các cuốn sách được lưu trữ số hoá, tiếp đến là các nội

dung thông tin được đưa lên Internet dưới nhiều hình thức khác nhau. Hơn thế

nữa, với sự ra đời của World Wide Web thì thông tin đã thực sự bùng nổ, con

người ngày càng muốn có nhiều thông tin hơn và muốn tìm cách để có thể nắm

bắt được thông tin nhanh, chính xác và cô đọng.

Rất nhiều bài toán trong xử lí ngôn ngữ tự nhiên đã được đặt ra và giải

quyết nhằm giúp máy tính có thể hiểu được phần nào các văn bản số hoá rồi từ

đó trình bày lại theo một hình thức nào đó để giúp con người tìm kiếm và thu

thập thông tin nhanh hơn. Các bài toán có thể kể đến như: thu nhận thông tin,

phân cụm văn bản, phân lớp văn bản, rút trích thông tin, hệ thống hỏi đáp, tóm

tắt văn bản, Những bài toán này đã phần nào được giải quyết và đã thể hiện

phần nào ý nghĩa đối với người sử dụng. Ví dụ như các hệ thống máy tìm kiếm

Yahoo!, Google, đã có thể giúp người dùng thu thập thông tin theo truy vấn,

trả lại trang thông tin và tóm tắt nội dung của trang thông tin để giúp con người

có thể nhanh chóng tìm ra được thông tin mình cần.

Bài toán tóm tắt văn bản ra đời với vai trò giúp người truy cập thông tin

có thể dễ dàng nắm bắt được những nội dung chính của văn bản ở một dạng cô

đọng hơn. Một ví dụ điển hình là tủ chứa các thẻ trình bày tóm tắt thông tin về

cuốn sách ở các thư viện, nó giúp người đọc có thể tìm kiếm nhanh tới cuốn

sách mình cần. Hay trong thời đại thông tin được số hoá hiện nay, ở đầu mỗi bài

báo hay một bài trình bày hoặc một bài viết dài về một vấn đề nào đó, người ta

thường đưa thêm vào một đoạn tóm tắt ngắn của toàn bộ nội dung. Tuy nhiên,

không phải lúc nào thông tin tóm tắt đó cũng có sẵn, một phần vì các tóm tắt đó

được thực hiện theo phương pháp thủ công và đôi khi không phải do chính tác

giả viết ra. Từ đó đặt ra vấn đề là làm sao để có thể tự động hoá quá trình tóm tắt

văn bản dựa trên nội dung sẵn có.

Trên thế giới đã có rất nhiều công trình nghiên cứu về vấn đề này và cũng

nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích một đoạn

văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từ có ý nghĩa; rồi

từ tóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản; Tuy nhiên

hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn

như tin tức, bài hướng dẫn, bài trình bày, và không có tính chất định vị thông

tin. Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách, thì có rất ít

2

các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt

trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của

bài toán này là bản thân mục lục của một tài liệu dài không những chứa một

lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông

tin bên trong văn bản. Ngoài ra các tiêu đề nằm ở mục lục còn manh tính súc

tích cao.

Với thực tế như đã trình bày ở trên, luận văn tiến hành nghiên cứu và đề

xuất phương pháp xây dựng mục lục cho văn bản thông qua đề tài “Xây dựng

mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề

xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung

bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của

đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân

đoạn văn bản và bài toán sinh tiêu đề cho văn bản. Luận văn cũng tiến hành thử

nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn

ngữ học để đánh giá về tính chính xác của kết quả đạt được. Các kết quả bước

đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả

năng phát triển tiếp thành một bài toán tổng thể cỡ lớn hơn.

Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:

- Chương 1 “Giới thiệu bài toán” tóm tắt một số bài toán trong lĩnh vực

tóm tắt văn bản, phát biểu bài toán xây dựng mục cho văn bản, đồng

thời phần tích các công trình có liên quan và đưa ra phương hướng giải

quyết.

- Chương 2 “Các phương pháp giải quyết bài toán” trình bày các

phương pháp dùng trong quá trình xây dựng mục lục, phân tích điểm

mạnh và yếu của mỗi phương pháp.

- Chương 3 “Xây dựng mục lục cho văn bản” sẽ đi sâu vào việc tích

hợp các thuật toán để giải quyết bài toán chính của luận văn, đồng thời

đề xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó.

- Chương 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử

nghiệm của luận văn và các kết quả đạt được trong quá trình thử

nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả

đạt được

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Xây dựng mục lục cho văn bản
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản
  • Xây dựng mục lục cho văn bản

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Phát triển bộ công cụ hỗ trợ xây dựng kho ...

Upload: cavico7777

📎 Số trang: 40
👁 Lượt xem: 550
Lượt tải: 16

Phát triển bộ công cụ hỗ trợ xây dựng kho ...

Upload: fast_connects

📎 Số trang: 40
👁 Lượt xem: 533
Lượt tải: 16

Xây dựng mức giá ban đầu phương pháp xây ...

Upload: phandao_vinh

📎 Số trang: 33
👁 Lượt xem: 330
Lượt tải: 16

Các biện pháp nâng cao động lực cho cán bộ ...

Upload: huuhaodo2601

📎 Số trang: 53
👁 Lượt xem: 355
Lượt tải: 17

Giải pháp nâng cao động lực cho cán bộ công ...

Upload: mrchaubk86

📎 Số trang: 52
👁 Lượt xem: 434
Lượt tải: 16

Xây dựng dmz tour tại quảng trị với mục đích ...

Upload: thesonofthewinter

📎 Số trang: 30
👁 Lượt xem: 320
Lượt tải: 16

Xây dựng ứng dụng tóm lược tự động văn bản ...

Upload: phamcongbinh2002

📎 Số trang: 94
👁 Lượt xem: 358
Lượt tải: 17

Phân tích sự biến động và xây dựng 1 danh ...

Upload: hoangquang1974

📎 Số trang: 109
👁 Lượt xem: 202
Lượt tải: 16

Phân tích sự biến động và xây dựng một danh ...

Upload: quanglinhlinh33

📎 Số trang: 65
👁 Lượt xem: 398
Lượt tải: 16

Xây dựng phát triển nền văn hoá VN tiên tiến ...

Upload: strictlyprinciple

📎 Số trang: 14
👁 Lượt xem: 416
Lượt tải: 26

Văn hoá và Vấn đề xây dựng nền văn hoá Việt ...

Upload: tycoonvdh

📎 Số trang: 13
👁 Lượt xem: 447
Lượt tải: 17

Xây dựng và ban hành văn bản quy phạm pháp ...

Upload: phd802

📎 Số trang: 36
👁 Lượt xem: 341
Lượt tải: 18

QUAN TÂM

Những tài liệu bạn đã xem

Xây dựng mục lục cho văn bản

Upload: anmian

📎 Số trang: 47
👁 Lượt xem: 442
Lượt tải: 16

CHUYÊN MỤC

Tổng hợp
Xây dựng mục lục cho văn bản MỤC LỤC LỜI CẢM ƠN . i LỜI CAM ĐOAN . ii MỤC LỤC . .iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT . v DANH MỤC CÁC BẢNG . vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . .vii MỞ ĐẦU . .1 Chương 1. GIỚI THIỆU BÀI TOÁN . .3 1.1. Bài toán tóm tắt văn bản . 3 1.2. Bài pdf Đăng bởi
5 stars - 260110 reviews
Thông tin tài liệu 47 trang Đăng bởi: anmian - 20/08/2024 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 20/08/2024 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Xây dựng mục lục cho văn bản