Tìm tài liệu

Phan mem tu vung tieng Viet

Phần mềm từ vựng tiếng Việt

Upload bởi: IkoThompson

Mã tài liệu: 299155

Số trang: 63

Định dạng: pdf

Dung lượng file: 1,031 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

LỜI NÓI ĐẦU

Xử lý ngôn ngữ tự nhiên nói chung và phân tích cú pháp ngôn ngữ tự nhiên nói riêng là những vấn đề quan trọng của trí tuệ nhân tạo, được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu trong suốt 50 năm qua. Các ứng dụng trong lĩnh vực này rất phong phú. Ta có thể điểm qua một số ứng dụng chính như dịch máy, kiểm tra và chữa lỗi văn bản, chuyển giao diện người – máy sang ngôn ngữ tự nhiên, nhận dạng chữ viết, thiết kế người máy có khả năng hiểu và nói được tiếng của con người…

Bài toán phân tích cú pháp ngôn ngữ tự nhiên bằng máy tính là bài toán lớn và phức tạp. Với tiếng Việt - một ngôn ngữ rất phức tạp thì dường như bài toán này lại càng khó khăn hơn. Chúng ta đã có một số công trình nghiên cứu về xử lý tiếng Việt và đã đạt được một số thành công nhất định. Tuy nhiên, cho đến nay bài toán phân tích cú pháp tiếng Việt vẫn chưa được giải quyết triệt để. Một trong những lý do chính là vì chúng ta chưa nghiên cứu một cách có hệ thống ngữ pháp tiếng Việt và cơ sở lý thuyết về xây dựng những trình phân tích cú pháp cho tiếng Việt còn tương đối ít và chưa hoàn chỉnh.

Các mô hình văn phạm phi ngữ cảnh và mạng chuyển được sử dụng rộng rãi trong mô tả cú pháp không chỉ của các ngôn ngữ lập trình mà cả các ngôn ngữ tự nhiên. Trong khoá luận này, em sẽ tập trung nghiên cứu việc vận dụng các mô hình này cho bài toán cụ thể là phân tích cú pháp tiếng Việt. Ngôn ngữ Việt có nhiều điểm khác so với các ngôn ngữ phổ biến, đã được nghiên cứu nhiều như tiếng Anh hay tiếng Pháp. Do đó, chúng ta không thể áp dụng hoàn toàn những kết quả đã đạt được đối với các ngôn ngữ này vào tiếng Việt.

Khoá luận trình bày các vấn đề sau:

• Khái quát vấn đề phân tích văn bản

• Vận dụng các mô hình văn phạm phi ngữ cảnh và mạng chuyển đệ quy để

mô tả ngôn ngữ tự nhiên

• Nghiên cứu các thuật toán phân tích đối với các văn phạm phi ngữ cảnh và các mạng chuyển

• Nghiên cứu một cách hệ thống các đặc điểm của ngữ pháp tiếng Việt

• Xây dựng một trình phân tích câu tiếng Anh đơn giản

• Xây dựng một trình phân tích câu tiếng Việt đơn giản

• Đánh giá kết quả đã đạt được và hướng phát triển

Để thực hiện được đề tài này, em đã vận dụng những kiến thức được học trong giai đoạn đại cương và chuyên ngành, đồng thời học hỏi và nghiên cứu thêm lĩnh vực ngôn ngữ học và tiếng Việt. Để tạo ra một sản phẩm phần mềm tương đối khả quan cần có sự nghiên cứu lâu dài và có hệ thống trên cả ba lĩnh vực toán học, tin học và ngôn ngữ học. Nếu chỉ có những kiến thức tin học thì sản phẩm tạo ra sẽ không thể mang ứng dụng trong thực tế. Vì vậy, việc đồng thời trau dồi những kiến thức toán học, tin học và ngôn ngữ học là rất cần thiết.

Những công việc em đã thực hiện mới chỉ là bước đầu trong việc xử lý các văn bản tiếng Việt. Em rất mong muốn tiếp tục nhận được sự hỗ trợ và chỉ bảo tận tình của các thầy cô giáo, các nhà chuyên môn cùng toàn thể các bạn sinh viên quan tâm, yêu thích công việc xử lý ngôn ngữ tự nhiên, vốn rất khó khăn và phức tạp, cần có lòng kiên trì và say mê cao độ.

Em xin được bày tỏ lòng cảm ơn sâu sắc tới TS. Lương Chi Mai và ThS. Nguyễn Thị Minh Huyền đã tận tình hướng dẫn và giúp đỡ, tạo mọi điều kiện thuận lợi về tài liệu và phương tiện để em hoàn thành khoá luận này.

Trong quá trình thực hiện khoá luận, em còn nhận được sự ủng hộ, giúp đỡ và động viên của các anh chị ở Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, Trung tâm Khoa học Tự nhiên và Công nghệ Quốc gia, nơi em thực tập trong thời gian qua. Em xin chân thành cảm ơn.

Em xin chân thành cảm ơn các thầy cô giáo trong và ngoài Khoa Toán-Cơ-Tin học đã truyền đạt cho em những kiến thức, trang bị cho em những hành trang quý giá trước khi em ra trường. Em xin chân thành cảm ơn các thầy cô giáo trong Bộ môn Tin học đã tạo điều kiện cho em được thực hiện một số xêmina khoa học liên quan đến đề tài, và đóng góp nhiều ý kiến quý báu, kịp thời. Xin cảm ơn các bạn sinh viên đã động viên, giúp đỡ tôi thực hiện đề tài này.

Hà Nội, ngày 10 tháng 5 năm 2002

Sinh viên

Lê Hồng Phương

Mục lục

LỜI NÓI ĐẦU ..1

Danh mục hình .5

Danh mục bảng.5

Chương 1. Mở đầu...7

1.1. Tổng quan về vấn đề phân tích văn bản... 7

1.2. Bài toán phân tích cú pháp ... 7

1.3. Nội dung khoá luận .. 8

Chương 2. Văn phạm phi ngữ cảnh .9

2.1. Văn phạm và ngôn ngữ sinh bởi văn phạm.. 9

2.2. Văn phạm phi ngữ cảnh . 10

2.3. Biểu diễn cấu trúc câu 11

2.4. Phân tích từ trên xuống .. 14

2.5. Phân tích từ dưới lên .. 15

2.6. Đánh giá hai phương pháp phân tích trên .. 20

2.7. Phương pháp phân tích tổng hợp ... 21

Chương 3. Các mạng chuyển.27

3.1. Văn phạm và ôtômát .. 27

3.2. Các yếu tố cơ sở của mạng chuyển đệ quy 29

3.3. Tính thủ tục của các RTN .. 33

3.4. Phân tích từ trên xuống cho mạng chuyển đệ quy . 34

Chương 4. Xây dựng văn phạm tiếng Việt .37

4.1. Xây dựng tập từ loại tiếng Việt .. 37

4.2. Xây dựng văn phạm tiếng Việt .. 38

4.2.1. Danh ngữ ..39

4.2.2. Động ngữ ..41

4.2.3. Tính ngữ44

4.2.4. Câu đơn hai thành phần ...45

4.2.5. Văn phạm tiếng Việt .47

Chương 5. Cài đặt chương trình 49

5.1. Cấu trúc dữ liệu .. 49

5.2. Cài đặt thuật toán ... 51

5.3. Thể hiện kết quả phân tích . 52

5.4. Đánh giá kết quả. 57

Phụ lục .58

Bài toán tách từ vựng tiếng Việt ... 58

1. Đặt bài toán 58

2. Các bước giải quyết58

3. Đánh giá kết quả 60

Tài liệu tham khảo ..63

Chương 1. Mở đầu

1.1. Tổng quan về vấn đề phân tích văn bản

Phân tích và kiểm tra tính chính xác của văn bản là một vấn đề lớn và phức tạp. Quá trình này thường được chia thành 4 giai đoạn chính: phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa và phân tích thực chứng.

• Phân tích từ vựng. Là quá trình phân tích hình thái các từ vựng tạo nên vănbản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ.

• Phân tích cú pháp. Là quá trình đưa ra mô tả quan hệ về vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu.

• Phân tích ngữ nghĩa. Mục đích của phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic vềnghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệthống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn.

• Phân tích thực chứng. Là quá trình phân tích nhằm xác định ý nghĩa của câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộcrất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự quyết định.

1.2. Bài toán phân tích cú pháp

Phân tích cú pháp đưa ra mô tả về quan hệ và vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, đồng thời đưa ra hình thái của câu. Đầu vào của giai đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc điểm hình thái xác định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp (cây phân tích) của câu. Kết quả cần đạt được là hình thái của câu.

Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngôn ngữ và những người làm tin học. Với những người làm ngôn ngữ thì ngôn ngữ là đối tượng nghiên cứu, cú pháp là một trong các cấp độ phải mô tả. Với những người làm tin học thì cần làm cho máy tính phân tích được cú pháp với hai mục tiêu là xây dựng các ứng dụng, qua đó phục vụ việc nghiên cứu ngôn ngữ; đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán.

Chương 1. Mở đầu

Khi xét về cấu trúc cú pháp có hai khía cạnh, một là thứ tự của các từ, trong đó có những ràng buộc về cấu tạo câu đúng và chức năng của các thành phần trong câu (chủ ngữ, vị ngữ...); hai là những biến tố (về hình thái, ví dụ các thì, số ít, số nhiều, giống...) quy định ràng buộc về cấu tạo và chức năng ngữ pháp. Với tiếng Việt, không có khía cạnh thứ hai.

Để phân tích cấu trúc của một câu ta cần đến hai thứ: Thứ nhất là ngữ pháp của ngôn ngữ, là đặc tả hình thức cấu trúc của ngôn ngữ và thứ hai là các kỹ thuật phân tích, là các phương thức phân tích để tìm ra cấu trúc ngữ pháp của câu, hoặc kết luận câu sai ngữ pháp. Để đặc tả ngữ pháp, người ta đưa ra các mô hình cú pháp của ngôn ngữ.

1.3. Nội dung khoá luận

Khoá luận gồm hai nội dung chính.

Nội dung thứ nhất là trình bày hai mô hình truyền thống dùng để phân tích cú pháp của ngôn ngữ tự nhiên, gồm các văn phạm phi ngữ cảnh và các mạng chuyển đệ quy. Trong khuôn khổ của khoá luận, em chỉ thực hiện phần nghiên cứu, cài đặt các thuật toán phân tích cho văn phạm phi ngữ cảnh và mạng chuyển đệ quy nhằm nắm chắc và làm chủ các kỹ thuật phân tích, các phần khác là triển vọng nghiên cứu trong tương lai gần. Có ba kỹ thuật phân tích được nghiên cứu là phân tích từ trên xuống, phân tích từ dưới lên và phân tích tổng hợp. Ðể tiện trong việc trình bày, toàn bộ các thuật toán được giải thích và minh hoạ trên bộ văn phạm đơn giản của tiếng Anh.

Nội dung thứ hai là xây dựng tập từ loại và văn phạm đơn giản cho tiếng Việt, thiết kế cấu trúc dữ liệu và cài đặt các thuật toán phân tích, đánh giá kết quả. Vì khuôn khổ của khoá luận có hạn, nên em chỉ trình bày phần cài đặt thuật toán phân tích từ trên xuống cho văn phạm phi ngữ cảnh. Kết quả cần đạt được là hoàn thiện một chương trình phân tích cú pháp tiếng Việt đơn giản viết bằng ngôn ngữ lập trình Java, thể hiện kết quả phân tích bằng giao diện đồ hoạ dạng cây.

Phần phụ lục của khoá luận trình bày bài toán tách từ vựng tiếng Việt - vấn đề tiền xử lý quan trọng trước khi bước vào phân tích cú pháp.

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Phần mềm từ vựng tiếng Việt
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt
  • Phần mềm từ vựng tiếng Việt

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Nghiên cứu xây dựng phần mềm tạo lập và nhận ...

Upload: hoangdung_sc

📎 Số trang: 23
👁 Lượt xem: 631
Lượt tải: 16

Tìm hiểu các hướng tiếp cận phân loại email ...

Upload: nikekidliem

📎 Số trang: 106
👁 Lượt xem: 552
Lượt tải: 17

Tìm hiểu các hướng tiếp cận phân loại email ...

Upload: cophieumayman88

📎 Số trang: 106
👁 Lượt xem: 524
Lượt tải: 16

Tìm hiểu về xử lý ngôn ngữ tự nhiên và viết ...

Upload: huyen_dt86

📎 Số trang: 67
👁 Lượt xem: 640
Lượt tải: 17

Thiết kế và xây dựng phần mềm sắp xếp tiếng ...

Upload: tranchung107

📎 Số trang: 53
👁 Lượt xem: 553
Lượt tải: 16

Thiết kế từ điển từ công cụ tiếng Việt

Upload: nguyenhunganh1986

📎
👁 Lượt xem: 475
Lượt tải: 16

Nhận dạng tiếng nói và ứng dụng tích hợp với ...

Upload: lequocphapvn

📎 Số trang: 99
👁 Lượt xem: 632
Lượt tải: 17

Đồ án tốt nghiệp Xây dựng phần mềm hỗ trợ ...

Upload: vtoan1803

📎 Số trang: 49
👁 Lượt xem: 553
Lượt tải: 17

Phần mềm

Upload: nhanngochuyen

📎 Số trang: 24
👁 Lượt xem: 380
Lượt tải: 17

Xây dựng từ điển danh từ Tiếng Việt dựa theo ...

Upload: vchungtex

📎 Số trang: 56
👁 Lượt xem: 660
Lượt tải: 16

Giới thiệu Ebook Việt Hóa Phần Mềm 1 0

Upload: longht09

📎
👁 Lượt xem: 358
Lượt tải: 16

Nghiên cứu áp dụng phần mềm Moodle trong ...

Upload: welcomtonk2512

📎 Số trang: 66
👁 Lượt xem: 712
Lượt tải: 17

QUAN TÂM

Những tài liệu bạn đã xem

Phần mềm từ vựng tiếng Việt

Upload: IkoThompson

📎 Số trang: 63
👁 Lượt xem: 343
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Phần mềm từ vựng tiếng Việt LỜI NÓI ĐẦU Xử lý ngôn ngữ tự nhiên nói chung và phân tích cú pháp ngôn ngữ tự nhiên nói riêng là những vấn đề quan trọng của trí tuệ nhân tạo, được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu trong suốt 50 năm qua. Các ứng dụng trong lĩnh pdf Đăng bởi
5 stars - 299155 reviews
Thông tin tài liệu 63 trang Đăng bởi: IkoThompson - 04/05/2024 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 04/05/2024 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Phần mềm từ vựng tiếng Việt