Mã tài liệu: 299028
Số trang: 71
Định dạng: zip
Dung lượng file: 1,063 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Tóm tắt nội dung
Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Sau khi tìm hiểu sơ lược về mô hình ngôn ngữ, chúng ta sẽ nghiên cứu hai kiểu cấu trúc dữ liệu dựa trên Bloom Filter là Log-Frequency Bloom Filter và Bloom Map. Qua các thử nghiệm, chúng tôi chỉ ra sự ưu việt của các mô hình ngôn ngữ dựa trên Bloom Filter trên cả phương diện dung lượng và tính hiệu quả khi ứng dụng trong thực tế, cụ thể ở đây là hệ thống dịch máy bằng phương pháp thống kê với Moses .
Mục lục
TÓM TẮT NỘI DUNG i
MỤC LỤC ii
LỜI CẢM ƠN iv
DANH MỤC TỪ VIẾT TẮT v
DANH MỤC HÌNH vi
MỞ ĐẦU 1
CHƯƠNG 1 - Tổng quan về mô hình ngôn ngữ 3
1.1 N-gram 3
1.2 Xây dựng mô hình ngôn ngữ 4
1.2.1 Ước lượng cực đại hóa khả năng (MLE) 5
1.2.2 Các phương pháp làm mịn 5
1.2.2.1 Kneser-Ney 7
1.2.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney) 8
1.2.2.3 Stupid Backoff 9
1.3 Đánh giá mô hình ngôn ngữ 10
1.3.1 Perplexity 10
1.3.2 MSE 11
CHƯƠNG 2 - Các cấu trúc dữ liệu dựa trên Bloom Filter 13
2.1 Các cấu trúc dữ liệu xác suất (PDS) 14
2.2 Hàm băm 16
2.3 Bloom Filter cơ bản 17
2.4 Mô hình ngôn ngữ sử dụng Bloom Filter 22
2.4.1 Bloom Filter tần số log 23
2.4.2 Bộ lọc dựa vào chuỗi con 25
2.4.3 Bloom Map 26
CHƯƠNG 3 - Thử nghiệm: Xây dựng LM với RandLM và SRILM 32
3.1 Ngữ liệu 33
3.2 Thuật toán làm mịn 35
3.3 Xây dựng LM với SRILM và RandLM 35
CHƯƠNG 4 - Thử nghiệm: Dịch máy thống kê với Moses 40
4.1 Dịch máy thống kê 40
4.1.1 Giới thiệu về dịch máy thống kê 40
4.1.2 Dịch máy thống kê dựa trên cụm 43
4.1.3 Điểm BLEU 45
4.2 Baseline System 46
4.3 Ngữ liệu 46
4.4 Kết quả thử nghiệm 48
KẾT LUẬN 50
PHỤ LỤC 51
Mở đầu
Mô hình ngôn ngữ (Language Model - LM) là một thành phần quan trọng trong nhiều ứng dụng như dịch máy, nhận dạng tiếng nói, … Các LM luôn cố gắng mô phỏng ngôn ngữ tự nhiên một cách chính xác nhất. Từ nhiều nghiên cứu và thử nghiệm [19, 28], chúng ta có thể thấy rằng mô hình ngôn ngữ với ngữ liệu càng lớn, bậc càng cao thì mô phỏng càng chính xác.
Trước đây việc xây dựng các ngữ liệu lớn rất khó khăn. Nhưng với sự bùng nổ của Internet như hiện nay, khối lượng thông tin sẵn có là vô cùng lớn. Sẽ thật là lãng phí nếu như chúng ta không tận dụng kho ngữ liệu khổng lồ này. Do đó trong những năm gần đây, kích thước các tập ngữ liệu dùng để huấn luyện LM đã phát triển đáng kinh ngạc, chúng lớn đến mức không còn có thể lưu trữ được trong bộ nhớ của những siêu máy tính với nhiều Gigabytes bộ nhớ RAM. Điều này khiến cho nỗ lực mô phỏng chính xác hơn ngôn ngữ tự nhiên bằng cách sử dụng các ngữ liệu lớn với kiểu mô hình truyền thống trở nên vô nghĩa, vì cần phải cắt giảm kích cỡ của ngữ liệu để LM có thể được chứa vừa trong bộ nhớ máy tính. Điều này đi ngược lại với mục đích ban đầu của việc tạo ra những tập ngữ liệu ngày càng lớn hơn. Hạn chế này đòi hỏi các nhà nghiên cứu cần tìm ra những phương pháp khác để mô hình hóa ngôn ngữ nếu vẫn muốn tận dụng lợi thế mà các bộ ngữ liệu lớn mang lại.
Một giải pháp để thực hiện yêu cầu này là bỏ đi sự chính xác, chấp nhận mất mát một lượng thông tin nhất định khi mô hình ngôn ngữ từ ngữ liệu. Nghĩa là thay vì các LM không mất mát (losses LM), ta sử dụng các LM có mất mát thông tin (lossy LM). Các nghiên cứu về lossy LM tạo ra một lớp các loại cấu trúc dữ liệu mới là Cấu trúc dữ liệu ngẫu nhiên (Randomized Data Structure, viết tắt là RDS), hay còn gọi là Cấu trúc dữ liệu xác suất (Probabilistic Data Structure - PDS). Vài cấu trúc dữ liệu điển hình loại này là Skip List , Sparse Partition , Lossy Dictionary , Bloom Filter . Ở Việt Nam cũng đã có một số nghiên cứu về vấn đề mô hình ngôn ngữ , nhưng mới chỉ dừng lại ở việc sử dụng các mô hình ngôn ngữ chuẩn. Khóa luận này nghiên cứu và tìm hiểu về mô hình ngôn ngữ dựa trên Bloom Filter do những cải tiến đáng chú ý những năm gần đây của loại cấu trúc dữ liệu này để xây dựng mô hình ngôn ngữ [35, 36, 37]. Nội dung khóa luận tập trung nghiên cứu khả năng tiết kiệm bộ nhớ, không gian lưu trữ của loại LM này và hiệu quả của nó, so với các LM tiêu chuẩn , thông qua một ứng dụng cụ thể là hệ thống dịch máy thống kê Moses.
Chương 1 trình bày các hiểu biết cơ bản cần biết về mô hình ngôn ngữ như n-gram, các thuật toán làm mịn được sử dụng trong mô hình ngôn ngữ và các thước đo để đánh giá một mô hình ngôn ngữ.
Chương 2 tập trung nghiên cứu về các trúc dữ liệu dựa trên Bloom Filter được sử dụng cho mô hình ngôn ngữ, cụ thể là Log-Frequency Bloom Filter và Bloom Map.
Chương 3 thử nghiệm xây dựng mô hình ngôn ngữ trên một ngữ liệu tiếng Anh và một ngữ liệu tiếng Việt..
Chương 4 giới thiệu sơ lược về dịch máy thống kê, thử nghiệm dịch máy thống kê với hệ thống dịch máy nguồn mở Moses sử dụng các mô hình ngôn ngữ xây dựng ở chương 3.
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 71
👁 Lượt xem: 403
⬇ Lượt tải: 16
📎 Số trang: 226
👁 Lượt xem: 526
⬇ Lượt tải: 16
📎 Số trang: 226
👁 Lượt xem: 364
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 641
⬇ Lượt tải: 17
📎 Số trang: 74
👁 Lượt xem: 420
⬇ Lượt tải: 4
📎 Số trang: 74
👁 Lượt xem: 29
⬇ Lượt tải: 5
Những tài liệu bạn đã xem
📎 Số trang: 71
👁 Lượt xem: 645
⬇ Lượt tải: 16