Tìm tài liệu

Xay dung mo hinh ngon ngu cho tieng viet

Xây dựng mô hình ngôn ngữ cho tiếng việt

Upload bởi: rantung81kr

Mã tài liệu: 287858

Số trang: 47

Định dạng: zip

Dung lượng file: 744 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

LỜI CẢM ƠN

Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người đã trực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong quá trình hoàn thành luận văn này.

Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại học Công Nghệ, đặc biệt là các thầy cô trong bộ môn Khoa học Máy tính , những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện cho tôi trong quá trình học tập và thực hành ở trường.

Cuối cùng, tôi xin gửi gời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng hộ, giúp đỡ tôi hoàn thành luận văn

TÓM TẮT

Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữ như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựa chọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô cùng phong phú của chúng ta.

Luận văn sẽ trình bày khái quát về mô hình ngôn ngữ, đồng thời chỉ ra các khó khăn còn tồn tại để rồi đưa ra những phương pháp khắc phục, trong đó trọng tâm nghiên cứu các phương pháp làm mịn. Trong luận văn này này, chúng tôi sử dụng chủ yếu bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ cho tiếng Việt, sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hỗn loạn thông tin của văn bản và dịch máy thống kê. Kết quả có được sẽ là cơ sở chính để chúng tôi chỉ ra phương pháp làm mịn nào là tốt nhất khi sử dụng trong việc xây dựng mô hình ngôn ngữ tiếng Việt.

MỤC LỤC

Chương 1 Giới thiệu vấn đề 1

1.1 Đặt vấn đề: 1

1.2 Mục tiêu: 1

1.3 Cấu trúc của luận văn: 2

Chương 2 Mô hình ngôn ngữ Ngram: 3

2.1 Khái quát: 3

2.2 Công thức tính “xác suất thô”: 3

2.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram 4

2.3.1 Phân bố không đều: 4

2.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ 5

2.4 Các phương pháp làm mịn 5

2.4.1 Các thuật toán chiết khấu (discounting): 5

2.4.2 Phương pháp truy hồi: 8

2.4.3 Phương pháp nội suy: 10

2.4.4 Phương pháp làm mịn Kneser - Ney: 10

2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến bởi Chen - GoodMan: 12

2.5 Kỹ thuật làm giảm kích thước dữ liệu: 13

2.5.1 Loại bỏ (pruning): 13

2.5.2 Đồng hóa (Quantization): 15

2.5.3 Nén (Compression): 16

2.6 Độ đo: 16

2.6.1 Entropy – Độ đo thông tin: 16

2.6.2 Perplexity – Độ hỗn loạn thông tin: 18

2.6.3 Error rate – Tỉ lệ lỗi: 18

Chương 3 Ứng dụng của mô hình ngôn ngữ trong mô hình dịch máy thống kê: 19

3.1 Dịch máy: 19

3.2 Dịch máy thống kê: 19

3.2.1 Giới thiệu: 19

3.2.2 Nguyên lý và các thành phần: 19

3.2.3 Mô hình dịch: 21

3.2.4 Bộ giải mã: 25

3.3 Các phương pháp đánh giá bản dịch: 25

3.3.1 Đánh giá trực tiếp bằng con người: 25

3.3.2 Đánh giá tự động: phương pháp BLEU 25

Chương 4 Thực nghiệm: 28

4.1 Công cụ: 28

4.1.1 Bộ công cụ trợ giúp xây dựng tập văn bản huấn luyện: 28

4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28

4.1.3 Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM: 29

4.1.4 Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES: 32

4.2 Dữ liệu huấn luyện: 34

4.3 Kết quả: 34

4.3.1 Số lượng các cụm ngram: 34

4.3.2 Tần số của tần số: 36

4.3.3 Cut-off (loại bỏ): 39

4.3.4 Các phương pháp làm mịn: 40

4.3.5 Áp dụng vào mô hình dịch máy thống kê: 41

Chương 5 Kết luận 43

Tài liệu tham khảo 44

Danh sách các bảng sử dụng trong luận văn:

Bảng 4 1: số lượng các cụm Ngram trong văn bản huấn luyện với âm tiết 35

Bảng 4 2: số lượng các cụm Ngram trong văn bản huấn luyện với từ 36

Bảng 4 3: tần số của tần số các cụm Ngram áp dụng cho âm tiết 37

Bảng 4 4: tần số của tần số các cụm Ngram với từ 38

Bảng 4 5: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ trong âm tiết 39

Bảng 4 6: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ với từ 40

Bảng 4 7: độ hỗn loạn thông tin của các phương pháp làm mịn cho âm tiết 40

Bảng 4 8: độ hỗn loạn thông tin của các phương pháp làm mịn cho từ 41

Bảng 4 9: điểm BLEU của bản dịch máy với mô hình ngôn ngữ sử dụng dữ liệu huấn luyện có kích thước nhỏ (50Mb) 41

Bảng 4 10: điểm BLEU của bản dịch máy với mô hình Ngram sử dụng dữ liệu huấn luyện có kích thước lớn (300Mb) 42

Danh sách các hình sử dụng trong luận văn:

Hình 3 1: mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 20

Hình 3 3: sự tương ứng một - một giữa câu tiếng Anh và câu tiếng Pháp 21

Hình 3 4: sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22

Hình 3 5: sự tương ứng một - nhiều giữa câu tiếng Anh với câu tiếng Pháp 22

Hình 3 6: sự tương ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp. 22

Hình 3 7: mô hình dịch dựa trên cây cú pháp 25

Hình 3 8: sự trùng khớp của các bản dịch máy với bản dịch mẫu 26

Hình 4 1: số lượng các cụm Ngram với âm tiết khi tăng kích thước dữ liệu 35

Hình 4 2: số lượng các cụm Ngram với từ khi tăng kích thước dữ liệu 36

Hình 4 3: số lượng các cụm Ngram (âm tiết) có tần số từ 1 đến 10 37

Hình 4 4: số lượng các cụm Ngram (từ) có tần số từ 1 đến 10 38

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt
  • Xây dựng mô hình ngôn ngữ cho tiếng việt

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Xây dựng mô hình ngôn ngữ cho tiếng việt

Upload: hqdhhh

📎 Số trang: 47
👁 Lượt xem: 434
Lượt tải: 16

Tìm hiểu ngôn ngữ mô hình hóa và xây dựng bộ ...

Upload: hcmvan

📎 Số trang: 226
👁 Lượt xem: 531
Lượt tải: 16

Tìm hiểu ngôn ngữ mô hình hóa mạng và xây ...

Upload: dieulyvt

📎 Số trang: 226
👁 Lượt xem: 369
Lượt tải: 16

Tìm hiểu Về Trình Biên Dịch và Xây Dựng Ngôn ...

Upload: duongquyendt

📎 Số trang: 47
👁 Lượt xem: 447
Lượt tải: 16

Tìm hiểu Về Trình Biên Dịch và Xây Dựng Ngôn ...

Upload: cuongmanh47xd1

📎
👁 Lượt xem: 493
Lượt tải: 17

Ngôn ngữ mô hình thống nhất UML

Upload: mayxanhxanh2406

📎 Số trang: 171
👁 Lượt xem: 497
Lượt tải: 16

Nghiên cứu xây dựng tiêu chuẩn bản rõ tiếng ...

Upload: lehuonghao1536

📎 Số trang: 56
👁 Lượt xem: 467
Lượt tải: 16

Nghiên cứu xây dựng tiêu chuẩn bản rõ tiếng ...

Upload: pqminh07

📎 Số trang: 56
👁 Lượt xem: 432
Lượt tải: 16

Phát triển bộ công cụ hỗ trợ xây dựng kho ...

Upload: bigbet2009

📎 Số trang: 40
👁 Lượt xem: 539
Lượt tải: 16

Tìm hiểu mô hình ngôn ngữ sử dụng phương ...

Upload: nguyenkieuphong

📎 Số trang: 71
👁 Lượt xem: 407
Lượt tải: 16

Tìm hiểu mô hình ngôn ngữ sử dụng phương ...

Upload: tuannq_mops

📎 Số trang: 71
👁 Lượt xem: 649
Lượt tải: 16

Ứng dụng mô hình dịch máy thống kê cho bài ...

Upload: huynhdacduyvu

📎 Số trang: 44
👁 Lượt xem: 491
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Xây dựng mô hình ngôn ngữ cho tiếng việt

Upload: rantung81kr

📎 Số trang: 47
👁 Lượt xem: 589
Lượt tải: 16

Con quỷ truyền kiếp

Upload: phanthehien_90

📎 Số trang: 0
👁 Lượt xem: 475
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Xây dựng mô hình ngôn ngữ cho tiếng việt LỜI CẢM ƠN Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người đã trực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong quá trình hoàn thành luận văn này. Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô zip Đăng bởi
5 stars - 287858 reviews
Thông tin tài liệu 47 trang Đăng bởi: rantung81kr - 01/11/2025 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 01/11/2025 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Xây dựng mô hình ngôn ngữ cho tiếng việt