Mã tài liệu: 254279
Số trang: 56
Định dạng: pdf
Dung lượng file: 574 Kb
Chuyên mục: Kỹ thuật - Công nghệ
MỤC LỤC
LỜI CẢM ƠN . 3
MỞ ĐẦU . . 4
CHƯƠNG 1: GIỚI THIỆU . . 5
1.1 Đặt vấn đề . 5
1.1.1 Tổ chức cơ sở ngữ nghĩa từ vựng . 5
1.1.2 Mô hình gán nhãn ngữ nghĩa . . 6
1.2 Các hướng tiếp cận truyền thống . 6
1.2.1 Xây dựng từ điển phân loại dựa trên từ điển MRD . . 7
1.2.2 Sử dụng các liên kết trong các từ điển đã có . 7
1.2.3 Sử dụng ánh xạ từ điển MRD song ngữ . . 7
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT . . 8
2.1 Các vấn đề về Ngôn Ngữ học . . 8
2.1.1 Từ trong Tiếng Việt . . 8
2.1.2 Từ trong Tiếng Anh . 10
2.1.3 Nghĩa của từ: . . 10
2.1.4 Quan hệ đồng âm, đồng nghĩa . . 17
2.1.5 So sánh từ tiếng Việt và từ tiếng Anh về hình thái . 19
2.1.6 So sánh từ tiếng Việt và từ tiếng Anh về mặt ngữ pháp . . 20
2.1.7 So sánh từ tiếng Việt và tiếng Anh về mặt nhãn ngữ nghĩa . . 23
2.2 WordNet . 25
2.2.1 Mô hình WordNet . 26
2.2.2 Danh từ trong WordNet . . 33
2.2.3 Định dạng file cơ sở dữ liệu trong WordNet . . 42
2.2.4 Số lượng từ, synset trong WordNet . 44
Chương 3: XÂY DỰNG MÔ HÌNH VÀ THỰC NGHIỆM . 45
3.1 Phương pháp dịch ttự động WordNet qua tiếng Việt . 45
3.1.1 Dịch từ WordNet . . 45
3.1.2 Dịch từ từ điển tiếng Việt . . 48
3.1.3 Tổ chức dữ liệu . . 52
Đồ án tốt nghiệp - CNTT
MỞ ĐẦU
Trong những năm gần đây, trong lĩnh vực xử lý ngôn ngữ tự nhiên thì xử
lý ngữ nghĩa chiếm vai trò quyết định tính chính xác của các mô hình xử lý ngôn
ngữ tự nhiên. Để xử lý ngữ nghĩa chúng ta phải có cơ sở tri thức ngữ nghĩa từ
vựng của ngôn ngữ cần xử lý, hiện nay tiếng Anh đã có cơ sở tri thức ngữ nghĩa
hoàn chỉnh. Trong đó hệ thống cơ sở tri thức ngữ nghĩa từ vựng WordNet là phổ
biến nhất hiện nay. Đây là mạng ngữ nghĩa đồ sộ hơn 110.000 synset tiếng Anh.
Các nhà ngôn ngữ học, tâm lý học và tin học đã bỏ ra gần 20 năm để xây dựng hệ
thống này và ngày nay chúng vẫn còn được nâng cấp về số lượng và chất lượng.
Tuy nhiên với các ngôn ngữ khác, hệ thống như vậy vẫn chưa có nhiều. Điển
hình là tiếng Việt, hiện nay chúng ta vẫn chưa có hệ thống cơ sở tri thức ngữ
nghĩa từ vựng như vậy. Do đó vấn đề cấp bách hiện nay là phải xây dựng một hệ
thống ngữ nghĩa của tiếng Việt cho máy tính nếu chúng ta muốn phát triển các
ứng dụng về xử lý ngôn ngữ tự nhiên.
WordNet phân biệt giữa danh từ, động từ, tính từ và trạng từ, vì họ làm
theo quy tắc ngữ pháp khác nhau. Danh từ là một loại từ phổ biến và phổ dụng
trong mọi ngôn ngữ. Ðến nay, đã có nhiều cách phân lớp danh từ tiếng Việt theo
các tiêu chí khác nhau, nhưng ít nhiều các cách này đều mang tính chủ quan và
chỉ được thực hiện trên một số ít các ví dụ cụ thể. Tuy nhiên, trong thực tế, khi
phân giải ngữ nghĩa của một danh từ tiếng Việt trong một ngữ cảnh bất kì, chúng
ta lại cần đến một hệ thống phân lớp hoàn chỉnh cho tất cả các danh từ tiếng Việt
theo những ý niệm chung nhất trong tư duy của con người. Việc xây dựng một hệ
thống phân lớp như thế đã được thực hiện thành công lần đầu tiên đối với tiếng
Anh qua mạng WordNet, và cũng chính từ đây, các mạng tương tự cho tiếng
Pháp, Tây Ban Nha, Ðức, Hoa, Nhật, . đã được hình thành trên cơ sở mạng này.
Việc xây dựng một mạng từ vựng tương tự WordNet có nhiều ý nghĩa. Nó cho
việc phát triển các ứng dụng xử lý ngôn ngữ tiếng Việt, cho các nghiên cứu về
ngôn ngữ học tiếng Việt. Do vậy, trong bài báo cáo này, em trình bày về phương
pháp xây dựng từ điển danh từ Tiếng Việt dựa theo từ điển WordNet.
Đồ án được chia thành các phần như sau:
Chương 1: Tìm hiểu đề tài và phương pháp tiếp cận.
Chương 2: Tìm hiểu về tiếng Việt và WordNet áp dụng trong việc xây
dựng từ điển danh từ tiếng Việt
Chương 3: Xây dựng mô hình tổ chức dữ liệu cho WordNet tiếng Việt và
thực nghiệm
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 66
👁 Lượt xem: 612
⬇ Lượt tải: 16
📎 Số trang: 129
👁 Lượt xem: 426
⬇ Lượt tải: 16
📎 Số trang: 145
👁 Lượt xem: 400
⬇ Lượt tải: 16
📎 Số trang: 145
👁 Lượt xem: 389
⬇ Lượt tải: 16
📎 Số trang: 80
👁 Lượt xem: 444
⬇ Lượt tải: 16
📎 Số trang: 69
👁 Lượt xem: 858
⬇ Lượt tải: 19
Những tài liệu bạn đã xem
📎 Số trang: 56
👁 Lượt xem: 661
⬇ Lượt tải: 16