Mã tài liệu: 243887
Số trang: 50
Định dạng: pdf
Dung lượng file: 819 Kb
Chuyên mục: Tổng hợp
TÓM TẮT NỘI DUNG
Phân lớp Văn bản là một trong những bài toán cơ bản và quan trọng nhất của
lĩnh vực xử lý Ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tế
ví dụ như: ứng dụng lọc nội dung Văn bản (lọc thư rác, lọc trang web có nội dung phản
động, trang web có nội dung không lành mạnh, ), bài toán phân lớp Văn bản sau tìm
kiếm, Hiện nay có rất nhiều bộ phân lớp đạt được độ chính xác cao (đều xấp xỉ
90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một Ngôn ngữ cụ thể.
Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phải
xử lý trên nhiều Ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp Văn bản
được quan tâm gần đây là phân lớp đa Ngôn ngữ . Khoá luận này nghiên cứu và đề
xuất một phương pháp phân lớp nội dung Web độc lập ngôn ngữ. Phương pháp này
cho phép tích hợp thêm các Ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùng
nổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưu
hoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận của
khoá luận rất khả quan, cụ thể, khi huấn luyện riêng biệt trên từng Ngôn ngữ đều nhận
được kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của hai
Ngôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi cho
mô hình kiểm tra trên một tập dữ liệu hoàn toàn mới kết quả cũng rất khả quan (độ
chính xác Anh-Việt xấp xỉ 84%). Bên cạnh đó, khoá luận cũng đã phân tích các vấn đề
cơ bản của bài toán phân lớp Văn bản độc lập Ngôn ngữ đó là sự nhập nhằng ngôn ngữ
và sự bùng nổ đặc trưng, sau đó đã đưa ra các phương pháp khắc phục khá hiệu quả.
Một đề xuất mới mà khoá luận đưa ra là mô hình dựa trên cây phân lớp thông minh.
Đề xuất này có nhiều triển vọng cho các ứng dụng nhỏ cần phân loại Văn bản và nhận
diện được ngôn ngữ.
MỤC LỤC
LỜI CẢM ƠN . . i
TÓM TẮT NỘI DUNG . i
MỤC LỤC . . ii
BẢNG KÍ HIỆU VIẾT TẮT . iv
DANH MỤC BẢNG SỐ LIỆU .v
DANH MỤC HÌNH ẢNH . vi
MỞ ĐẦU .1
CHƯƠNG 1. KHÁI QUÁT VỀ PHÂN LỚP Văn bản ĐỘC LẬP Ngôn ngữ 3
1.1. Bài toán phân lớp Văn bản .3
1.1.1. Tổng quan 3
1.2. Phân lớp Văn bản độc lập Ngôn ngữ .4
1.2.1. Đặt vấn đề . .4
1.2.2. Phân lớp Văn bản độc lập Ngôn ngữ 5
1.2.3. Ý nghĩa và ứng dụng .5
CHƯƠNG 2. CÁC MÔ HÌNH VÀ THUẬT TOÁN PHÂN LỚP VĂN BẢN .7
2.1. Giới thiệu . 7
2.2. Mô hình Maximum Entropy . .7
2.2.1. Giới thiệu . 7
2.2.2. Xây dựng mô hình .9
2.3. Tổng kết chương .16
CHƯƠNG 3. PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP Ngôn ngữ VỚI MÔ HÌNH
ENTROPY CỰC ĐẠI . . .1 7
3.1 Giới thiệu . .17
3.2. Bài toán phân lớp Văn bản độc lập Ngôn ngữ 17
3.2.1. Vấn đề nhập nhằng ngôn ngữ . .17
3.2.2. Vấn đề bùng nổ đặc trưng .18
3.3. Quy trình Xây dựng bộ phân lớp . .19
3.3.1. Tiền xử lý dữ liệu 19
3.3.2. Xây dựng đặc trưng .20
3.3.3. Lựa chọn đặc trưng 21
3.3.4. Huấn luyện mô hình 23
3.3.5. Phân lớp Văn bản mới . .23
3.4. Đánh giá độ chính xác của bộ phân lớp 24
iii
3.4.1. Các độ đo . 24
3.4.2. Áp dụng phương pháp ước lượng chéo trên k tập con 25
3.5. Xây dựng bộ phân lớp trên cây phân lớp thông minh .25
3.5.1. Bản chất bài toán .26
3.5.2. Phân lớp cho Văn bản mới .26
3.5.3. Thảo luận .27
3.6. Tổng kết chương 27
CHƯƠNG 4. KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ .28
4.1. Môi trường thử nghiệm 28
4.1.1. Môi trường phần cứng .28
4.1.2. Công cụ phần mềm . .28
4.2. Dữ liệu kiểm thử . 29
4.2.1. Tiền xử lý dữ liệu 29
4.2.2. Cây phân lớp . .30
4.3. Kết quả thử nghiệm 31
4.3.1. Quá trình huấn luyện .31
4.3.2. Lần lặp cho độ chính xác cao nhất 34
4.3.3. Kết quả kiểm tra trên dữ liệu mới .35
4.4. Tổng kết chương .36
KẾT LUẬN .37
PHỤ LỤC. DANH SÁCH STOP-WORD 38
TÀI LIỆU THAM KHẢO . . .4
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 77
👁 Lượt xem: 358
⬇ Lượt tải: 16
📎 Số trang: 62
👁 Lượt xem: 452
⬇ Lượt tải: 16
📎 Số trang: 85
👁 Lượt xem: 274
⬇ Lượt tải: 16
📎 Số trang: 47
👁 Lượt xem: 674
⬇ Lượt tải: 16
Những tài liệu bạn đã xem