Mã tài liệu: 301022
Số trang: 113
Định dạng: rar
Dung lượng file: 1,021 Kb
Chuyên mục: Kỹ thuật - Công nghệ
[FONT=Times New Roman]Mục lục
Mục lục .................................................. .......................................... ii
Danh sách các hình............................................. ........................... vi
Lời nói đầu .................................................. .................................. vii
Chương 1: Tổng quan .................................................. .................. 1
1.1 Giới thiệu .................................................. ............................................. 2
1.2 Tổng quan về gán nhãn từ loại .................................................. .......... 3
1.2.1 Gán nhãn từ loại là gì? .................................................. ................... 3
1.2.2 Vai trò của gán nhãn từ loại............................................ ................. 4
1.3 Các vấn đề gặp phải và hướng giải quyết trong bài toán gán nhãn
từ loại............................................ .................................................. .................. 6
1.3.1 Các vấn đề gặp phải khi giải quyết bài toán .................................... 6
1.3.2 Hướng giải quyết........................................... ................................... 7
1.4 Bố cục .................................................. .................................................. . 8
Chương 2: Cơ sở lý thuyết .................................................. ........... 9
2.1 Máy học và xử lý ngôn ngữ tự nhiên............................................ ..... 10
2.1.1 Hướng tiếp cận thống kê............................................... ................. 11
2.1.2 Hướng tiếp cận theo biểu trưng .................................................. ... 12
2.1.2.1 Cây quyết định:.......................................... .........................................12
2.1.2.2 Danh sách quyết định........................................... ...............................13
2.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái
(TBL) 13
2.1.3 Hướng tiếp cận thay thế biểu trưng ............................................... 14
2.1.3.1 Mạng Neural .................................................. .....................................14
2.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA) ................................14
2.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ loại ............... 15
2.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL) ................ 15
2.2.1.1 Sơ đồ của giải thuật TBL .................................................. ..................17
2.2.1.2 Mô tả hoạt động của giải thuật........................................... .................17
2.2.1.3 Trình bày giải thuật........................................... ..................................20
2.2.1.4 Kết luận:........................................... .................................................. .21
2.2.2 Mô hình mạng neural. .................................................. .................. 22
2.2.2.1 Giới thiệu: .................................................. .........................................22
2.2.2.2 Mạng neural: .................................................. .....................................22
2.2.2.3 Giải thuật gán nhãn từ loại dựa trên mạng neural...............................25
2.2.2.4 Từ điển:.......................................... .................................................. ...27
2.2.3 Mô hình Maximum Entropy (ME): ............................................... 28
2.2.3.1 Giới thiệu: .................................................. .........................................28
2.2.3.2 Các đặc trưng của gán nhãn từ loại:........................................... .........29
2.2.3.3 Mô hình kiểm tra:.............................................. ..................................33
2.2.4 Mô hình TBL nhanh (FnTBL) .................................................. ..... 34
2.2.4.1 Giới thiệu giải thuật FnTBL: .................................................. ............34
2.2.4.2 Tính điểm và phát sinh luật:........................................... .....................36
2.2.4.3 Giải thuật FnTBL:............................................ ...................................39
Chương 3: Mô hình .................................................. .................... 41
3.1 Một số khái niệm sử dụng trong mô hình: ....................................... 42
3.1.1 Ngữ liệu(Corpus): .................................................. ........................ 42
3.1.2 Ngữ liệu vàng(Golden Corpus)........................................... ........... 44
3.1.3 Ngữ liệu huấn luyện(Training corpus): ......................................... 45
3.2 Một số mô hình kết hợp hiện nay:.............................................. ....... 46
3.2.1 Mô hình kết hợp sử dụng nhiều mô hình liên kết.......................... 47
3.2.2 Phương pháp kết hợp dựa trên tính điểm cho các nhãn ứng viên.. 48
3.2.3 Phương pháp kết hợp dựa trên gợi ý của ngữ cảnh. ...................... 50
3.2.4 Phương pháp kết hợp dựa trên tính kế thừa kết quả của giải thuật
TBL 51
3.3 Mô hình gán nhãn từ loại dựa trên song ngữ Anh-Việt.................. 52
3.3.1 Sơ đồ hoạt động của mô hình: .................................................. ..... 55
3.3.1.1 Ngữ liệu huấn luyện:.......................................... .................................56
3.3.1.2 Quá trình khởi tạo: .................................................. ............................58
3.3.1.3 Quá trình huấn luyện:.......................................... ................................58
3.3.1.4 Quá trình gán nhãn từ loại trên cặp câu song ngữ ..............................61
3.3.2 Thuật giải .................................................. ..................................... 63
3.3.3 Khung luật (Template):....................................... ........................... 64
3.3.4 Cải tiến .................................................. ......................................... 66
3.3.5 Chiếu sang tiếng Việt............................................ ......................... 67
Chương 4: Cài đặt thử nghiệm và đánh giá kết quả ................. 70
4.1 Cài đặt .................................. 71
4.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL và
ME. 71
4.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng Việt. ........ 72
4.1.3 Cài đặt mô hình chiếu từ loại từ Tiếng Anh sang tiếng Việt .......... 73
4.2 Thử nghiệm.......................................... ................................................ 74
4.2.1 Thử nghiệm với các mô hình khởi tạo khác nhau. ....................... 74
4.2.1.1 Kết quả thử nghiệm dùng Unigram là giải thuật gán nhãn cơ sở. ......75
4.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mô hình Markov ẩn .......78
4.2.1.3 Kết quả thử nghiệm dùng Maximum Entropy làm giải thuật gán nhãn
cơ sở. 81
4.2.2 Thử nghiệm với các khung luật khác nhau cho giải thuật TBL
nhanh 84
4.2.3 Kết quả gán nhãn từ loại khi dùng thông tin tiếng Việt................. 85
4.3 Nhận xét .................................................. ............................................. 85
Chương 5: Tổng kết .................................................. ................... 86
5.1 Kết quả đạt được.......................................... ....................................... 87
5.2 Hạn chế .................................................. .............................................. 88
5.3 Hướng phát triển: .................................................. ............................. 89
Phụ lục A:Các tập nhãn của Penn Tree Bank ........................... 90
Phụ lục B: Bộ nhãn từ loại tiếng Việt. ........................................ 92
Phụ lục C: Bảng ánh xạ từ loại từ Tiếng Anh sang tiếng Việt... 93
Phụ lục D: Một số luật chuyển đổi............................................ .. 95
Phụ lục E: Kết quả gán nhãn từ loại trong mô hình kết hợp
không dùng thông tin tiếng Việt............................................ ...... 97
Phụ lục F: Kết quả gán nhãn từ loại trong mô hình kết hợp có
dùng thông tin tiếng Việt .................................................. ........... 99
Lời nói đầu
Ngày nay, khi khoa học công nghệ phát triển hết sức mạnh mẽ, yêu
cầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng và
chính xác là hết sức cần thiết. Hiện nay, đa số các tài liệu đều được viết bằng
tiếng Anh. Do đó, việc chuyển các tài liệu này về tiếng Việt là điều rất cần
thiết. Nếu làm được điều này, mọi người sẽ có được nhiều cơ hội tiếp cận với
các thông tin tri thức mới. Nhưng công việc này tương đối khó khăn mặc dù
hiện nay có khá nhiều hệ dịch tự động ( như dịch trực tiếp, dịch qua ngôn
ngữ trung gian, dịch dựa trên luật hoặc dịch dựa trên thống kê…) nhưng đa
số các các hệ dịch này đều chưa đạt kết quả cao. Do đó, việc cải tiến chất
lượng các hệ dịch máy luôn được quan tâm. Hiện nay, hệ dịch máy dựa trên
chuyển đổi cú pháp được đánh giá khá cao. Hệ dịch máy này bao gồm khá
nhiều giai đoạn như tiền xử lý, gán nhãn từ loại, phân tích hình thái, phân
tích cú pháp, chuyển đổi trật tự từ, xử lý ngữ nghĩa,…
Dịch máy là một qui trình tương đối phức tạp, do vậy, trong luận văn
này chúng tôi chỉ tập trung giải quyết một bài toán trong hệ dịch máy này, đó
là giai đoạn gán nhãn từ loại. Đây là một bước cơ sở, làm nền tảng cho các
giai đoạn sau. Kết quả của việc gán nhãn từ loại sẽ ảnh hưởng tới các giai
đoạn khác. Trong luận văn này, ngoài việc cố gắng cải tiến kết quả của gán
nhãn từ loại, chúng tôi còn sử dụng các thông tin có được sau khi gán nhãn
từ loại để xây dựng một ngữ liệu về từ loại cho tiếng Việt. Nó sẽ giúp tiết
kiệm rất nhiều thời gian và chi phí trong việc xây dựng ngữ liệu tiếng Việt,
và ngữ liệu được tạo ra sẽ là nguồn dữ liệu vô cùng quý giá phục vụ cho các
mục đích nghiên cứu về tiếng Việt khác
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 164
👁 Lượt xem: 251
⬇ Lượt tải: 16
📎 Số trang: 68
👁 Lượt xem: 474
⬇ Lượt tải: 16
📎 Số trang: 43
👁 Lượt xem: 386
⬇ Lượt tải: 16
📎 Số trang: 116
👁 Lượt xem: 688
⬇ Lượt tải: 16
📎 Số trang: 115
👁 Lượt xem: 540
⬇ Lượt tải: 16
📎 Số trang: 39
👁 Lượt xem: 1001
⬇ Lượt tải: 16
📎 Số trang: 58
👁 Lượt xem: 393
⬇ Lượt tải: 14
Những tài liệu bạn đã xem
📎 Số trang: 113
👁 Lượt xem: 293
⬇ Lượt tải: 16