Mã tài liệu: 299151
Số trang: 63
Định dạng: pdf
Dung lượng file: 1,955 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Tóm tắt nội dung
Collocation là những cụm từ (gồm hai hay nhiều từ) thường được sử dụng với nhau. Bài toán xác định collocation trong một kho ngữ liệu đã và đang nhận được nhiều sự quan tâm, nghiên cứu của các nhà khoa học trên thế giới. Có rất nhiều phương pháp để giải quyết bài toán này, song hiện nay, các phương pháp thống kê đang được sử dụng phổ biến bởi những người làm trong lĩnh vực Xử lý ngôn ngữ tự nhiên.
Khóa luận tốt nghiệp với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt” tập trung nghiên cứu một số phương pháp thống kê điển hình (Tần suất, Kỳ vọng và phương sai, Kiểm thử t, Kiểm thử khi-bình phương, Tỷ lệ likehood, Thông tin tương hỗ) để trích chọn collocation. Khóa luận đã tiến hành thử nghiệm xác định collocation tiếng Việt cho kết quả tương ứng với các phương pháp kiểm thử thống kê nói trên. Thông qua kết quả thử nghiệm, Khóa luận nhận thấy phương pháp Kiểm thử khi- bình phương phù hợp nhất để xác định collocation trong tiếng Việt.
Mục lục
Lời mở đầu ...1
Chương 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION ...3
1.1. Khái niệm collocation 3
1.1.1. Định nghĩa collocation ...3
1.1.2. Đặc trưng của collocation ..4
1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên ..4
Chương 2. CÁC PHƯƠNG PHÁP XÁC ĐỊNH COLLOCATION ...6
2.1. Phương pháp Tần suất (Frequency) 7
2.2. Phương pháp Kỳ vọng và Phương sai (Mean & Variance) ... 11
2.3. Kiểm thử Giả thuyết (Hypothesis testing) 16
2.3.1. Kiểm thử t (t test) . 17
2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis
testing of differences)... 19
2.4. Kiểm thử khi-bình phương (Pearson’s chi-square test) 21
2.5. Các tỉ lệ likelihood (Likelihood ratios) . 26
2.5.1. Tỉ lệ likelihood (Likelihood ratio) 26
2.5.2. Các tỉ lệ tần suất tương đối (Relative Frequency Ratios) .. 29
2.6. Thông tin tương hỗ MI (Mutual information) ... 30
Chương 3. COLLOCATION TRONG TIẾNG VIỆT . 36
3.1. Đặc điểm từ vựng Tiếng Việt ... 36
3.1.1. Đơn vị cấu tạo từ 36
3.1.2. Phương thức cấu tạo từ ... 36
3.1.3. Biến thể của từ 37
3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt .. 38
3.2. Khái niệm collocation trong Tiếng Việt ... 40
3.3. Bài toán xác định collocation trong Tiếng Việt 41
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 44
4.1. Dữ liệu thực nghiệm 44
4.1.1. Chuẩn bị dữ liệu... 44
4.1.2. Tiền xử lý dữ liệu. 44
4.2. Thiết kế thực nghiệm ... 45
4.2.1. Phương pháp thực nghiệm 45
4.3. Kết quả thực nghiệm và đánh giá kết quả . 46
Kết luận.. 49
Tài liệu tham khảo .. 50
Tài liệu Tiếng Việt . 50
Tài liệu Tiếng Anh . 50
Phụ lục ... 53
1. Bảng phân phối t .. 53
2. Bảng phân phối .. 54
Lời mở đầu
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ như sinh ngôn ngữ tự nhiên, dịch tự động, tóm tắt văn bản và xây dựng từ điển... Chính vì tầm quan trọng của collocation, nên người ta đặt ra một vấn đề là làm thế nào để xác định các collocation trong kho ngữ liệu.
Có nhiều phương pháp để giải quyết bài toán xác định collocation, trong đó có phương pháp xác định dựa vào thống kê. Phương pháp thống kê sử dụng các kỹ thuật toán học khác nhau và các kho ngữ liệu lớn để mở rộng xấp xỉ các mô hình suy rộng về hiện tượng ngôn ngữ, dựa trên các ví dụ thực tế về các hiện tượng ngôn ngữ được cung cấp bởi kho ngữ liệu mà không bổ sung vào các thành phần tri thức khác.
Khóa luận với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt” tập trung nghiên cứu về collocation, các phương pháp xác định collocation từ các ngôn ngữ khác nhau và lựa chọn phương pháp, thi hành chương trình thực nghiệm để kiểm chứng tính khả thi của chúng trên kho ngữ liệu Tiếng Việt.
Khóa luận gồm bốn chương, nội dung được mô tả sơ bộ như sau:
Chương 1. Tổng quan về bài toán xác định collocation giới thiệu khái niệm collocation, đặc trưng của collocation. Chương này cũng nêu lên tầm quan trọng cũng như ứng dụng của collocation trong lĩnh vực Xử lý ngôn ngữ tự nhiên.
Chương 2. Các phương pháp xác định collocation phân tích các phương pháp thống kê đang được sử dụng phổ biến để xác định collocation, một số đánh giá ưu nhược điểm cũng như mức độ phù hợp của từng phương pháp đối với mỗi loại collocation và dữ liệu khác nhau.
Chương 3. Collocation trong Tiếng Việt trình bày đặc điểm của Tiếng Việt, khái niệm collocation trong Tiếng Việt và phát biểu Bài toán xác định collocation trong Tiếng Việt.
Chương 4. Thực nghiệm và đánh giá trình bày nội dung thử nghiệm sử dụng các phương pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khi- bình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), và Thôngtin tương hỗ (Mutual information) để xác định collocation trong tập văn bản Tiếng Việt. Qua đó, Khóa luận cũng đánh giá mức độ phù hợp của các phương pháp đó trong Tiếng Việt.
Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận.
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 143
👁 Lượt xem: 320
⬇ Lượt tải: 16
📎 Số trang: 116
👁 Lượt xem: 596
⬇ Lượt tải: 17
📎 Số trang: 56
👁 Lượt xem: 501
⬇ Lượt tải: 16
📎 Số trang: 56
👁 Lượt xem: 376
⬇ Lượt tải: 16
📎 Số trang: 53
👁 Lượt xem: 455
⬇ Lượt tải: 16
📎 Số trang: 42
👁 Lượt xem: 395
⬇ Lượt tải: 16
📎 Số trang: 74
👁 Lượt xem: 398
⬇ Lượt tải: 16
📎 Số trang: 6
👁 Lượt xem: 490
⬇ Lượt tải: 16
📎 Số trang: 73
👁 Lượt xem: 799
⬇ Lượt tải: 18
📎 Số trang: 67
👁 Lượt xem: 610
⬇ Lượt tải: 17
📎 Số trang: 68
👁 Lượt xem: 622
⬇ Lượt tải: 17
📎 Số trang: 63
👁 Lượt xem: 341
⬇ Lượt tải: 17
Những tài liệu bạn đã xem
📎 Số trang: 63
👁 Lượt xem: 370
⬇ Lượt tải: 16