Mã tài liệu: 237610
Số trang: 71
Định dạng: doc
Dung lượng file: 1,062 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Tóm tắt nội dung
Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Sau khi tìm hiểu sơ lược về mô hình ngôn ngữ, chúng ta sẽ nghiên cứu hai kiểu cấu trúc dữ liệu dựa trên Bloom Filter là Log-Frequency Bloom Filter và Bloom Map. Qua các thử nghiệm, chúng tôi chỉ ra sự ưu việt của các mô hình ngôn ngữ dựa trên Bloom Filter trên cả phương diện dung lượng và tính hiệu quả khi ứng dụng trong thực tế, cụ thể ở đây là hệ thống dịch máy bằng phương pháp thống kê với Moses .
Mục lục
TÓM TẮT NỘI DUNG i
MỤC LỤC ii
LỜI CẢM ƠN iv
DANH MỤC TỪ VIẾT TẮT v
DANH MỤC HÌNH vi
MỞ ĐẦU 1
CHƯƠNG 1 - Tổng quan về mô hình ngôn ngữ 3
1.1 N-gram 3
1.2 Xây dựng mô hình ngôn ngữ 4
1.2.1 Ước lượng cực đại hóa khả năng (MLE) 5
1.2.2 Các phương pháp làm mịn 5
1.2.2.1 Kneser-Ney 7
1.2.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney) 8
1.2.2.3 Stupid Backoff 9
1.3 Đánh giá mô hình ngôn ngữ 10
1.3.1 Perplexity 10
1.3.2 MSE 11
CHƯƠNG 2 - Các cấu trúc dữ liệu dựa trên Bloom Filter 13
2.1 Các cấu trúc dữ liệu xác suất (PDS) 14
2.2 Hàm băm 16
2.3 Bloom Filter cơ bản 17
2.4 Mô hình ngôn ngữ sử dụng Bloom Filter 22
2.4.1 Bloom Filter tần số log 23
2.4.2 Bộ lọc dựa vào chuỗi con 25
2.4.3 Bloom Map 26
CHƯƠNG 3 - Thử nghiệm: Xây dựng LM với RandLM và SRILM 32
3.1 Ngữ liệu 33
3.2 Thuật toán làm mịn 35
3.3 Xây dựng LM với SRILM và RandLM 35
CHƯƠNG 4 - Thử nghiệm: Dịch máy thống kê với Moses 40
4.1 Dịch máy thống kê 40
4.1.1 Giới thiệu về dịch máy thống kê 40
4.1.2 Dịch máy thống kê dựa trên cụm 43
4.1.3 Điểm BLEU 45
4.2 Baseline System 46
4.3 Ngữ liệu 46
4.4 Kết quả thử nghiệm 48
KẾT LUẬN 50
PHỤ LỤC 5
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 71
👁 Lượt xem: 645
⬇ Lượt tải: 16
📎 Số trang: 226
👁 Lượt xem: 527
⬇ Lượt tải: 16
📎 Số trang: 226
👁 Lượt xem: 364
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 642
⬇ Lượt tải: 17
📎 Số trang: 74
👁 Lượt xem: 420
⬇ Lượt tải: 4
📎 Số trang: 74
👁 Lượt xem: 29
⬇ Lượt tải: 5
Những tài liệu bạn đã xem
📎 Số trang: 71
👁 Lượt xem: 404
⬇ Lượt tải: 16