Mã tài liệu: 302224
Số trang: 132
Định dạng: zip
Dung lượng file: 1,723 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Chương 1 TỔNG QUAN 2
1 1 Đặt vấn đề 2
1 2 Các phương pháp phân loại văn bản 2
1 3 Tách từ Tiếng Việt – Một thách thức thú vị 3
1 4 Mục tiêu của luận văn 5
1 4 1 Phần tìm hiểu các thuật toán phân loại văn bản 5
1 4 2 Phần tách từ tiếng Việt 5
1 4 3 Phần mềm phân loại tin tức báo điện tử bán tự động 5
1 4 4 Đóng góp của luận văn 6
Chương 2 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG ANH 8
2 1 Bối cảnh các phương pháp phân loại văn bản hiện nay 8
2 2 Các phương pháp phân loại văn bản tiếng Anh hiện hành 8
2 2 1 Biểu diễn văn bản 8
2 2 2 Support vector Machine(SVM) 10
2 2 3 K–Nearest Neighbor (kNN) 12
2 2 4 Naïve Bayes (NB) 13
2 2 5 Neural Network (NNet) 15
2 2 6 Linear Least Square Fit (LLSF) 17
2 2 7 Centroid- based vector 18
2 3 Kết luận 19Chương 3 CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY 22
3 1 Tại sao tách từ tiếng Việt là một thách thức? 22
3 1 1 So sánh giữa tiếng Việt và tiếng Anh 22
3 1 2 Nhận xét 23
3 2 Bối cảnh các phương pháp tách từ hiện nay 23
3 2 1 Bối cảnh chung 23
3 2 2 Các hướng tiếp cận dựa trên từ (Word-based approaches) 24
3 2 3 Các hướng tiếp cận dựa trên ký tự (Character-based approaches) 26
3 3 Một số phương pháp tách từ tiếng Việt hiện nay 28
3 3 1 Phương pháp Maximum Matching: forward/backward 28
3 3 2 Phương pháp giải thuật học cải biến ( TBL) 30
3 3 3 Mô hình tách từ bằng WFST và mạng Neural 31
3 3 4 Phương pháp quy hoạch động (dynamic programming) 34
3 3 5 Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
toán di truyền (Internet and Genetics Algorithm-based Text Categorization for
Documents in Vietnamese - IGATEC) 34
3 4 So sánh các phương pháp tách từ Tiếng Việt hiện nay 37
3 5 Kết luận 37
Chương 4 TÁCH TỪ TIẾNG VIỆT KHÔNG DỰA TRÊN TẬP NGỮ LIỆU ĐÁNH
DẤU (ANNOTATED CORPUS) HAY TỪ ĐIỂN (LEXICON) – MỘT THÁCH THỨC 40
4 1 Giới thiệu 40
4 2 Các nghiên cứu về thống kê dựa trên Internet 40
4 2 1 Giới thiệu 40
4 2 2 Một số công trình nghiên cứu về thống kê dựa trên Internet 41
4 2 3 Nhận xét 43
4 3 Các phương pháp tính độ liên quan giữa các từ dựa trên thống kê 43
4 3 1 Thông tin tương hỗ và t-score dùng trong tiếng Anh 44
4 3 2 Một số cải tiến trong cách tính độ liên quan ứng dụng trong tách từ tiếng
Hoa và tiếng Việt 46
4 3 3 Nhận xét về các cách tính độ liên quan khi áp dụng cho tiếng Việt 48
4 4 Tiền xử lý (Pre-processing) 49
4 4 1 Xử lý văn bản đầu vào 49
4 4 2 Tách ngữ & tách stopwords 50
4 5 Hướng tiếp cận tách từ dựa trên thống kê từ Internet và thuật toán di truyền
(Internet and Genetic Algorithm - based ) 51
4 5 1 Công cụ trích xuất thông tin từ Google 51
4 5 2 Công cụ tách từ dùng thuật toán di truyền (Genetic Algorithm – GA) 53
4 6 Kết luận 61
Chương 5 BÀI TOÁN PHÂN LOẠI TIN TỨC ĐIỆN TỬ 63
5 1 Lý do chọn phương pháp Naïve Bayes 63
5 2 Thuật toán Naïve Bayes 64
5 2 1 Công thức xác suất đầy đủ Bayes 64
5 2 2 Tính độc lập có điều kiện (Conditional Independence) 65
5 2 3 Nguồn gốc thuật toán Naïve Bayes 65
5 2 4 Phương pháp Naïve Bayes trong phân loại văn bản 66
5 2 5 Hai mô hình sự kiện trong phân loại văn bản bằng phương pháp Naïve
Bayes 68
5 3 Bài toán phân loại tin tức điện tử tiếng Việt 70
5 3 1 Quy ước 70
5 3 2 Công thức phân loại văn bản trong IGATEC [H Nguyen et al, 2005] 71
5 3 3 Công thức Naïve Bayes trong bài toán phân loại tin tức điện tử tiếng Việt
sử dụng thống kê từ Google 72
5 4 Kết luận 74
Chương 6 HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI VĂN BẢN 76
6 1 Giới thiệu hệ thống thử nghiệm Vikass 76
6 1 1 Chức năng hệ thống Vikass 76
6 1 2 Tổ chức và xử lý dữ liệu 76
6 1 3 Một số màn hình của hệ thống Vikass 79
6 2 Thử nghiệm các cách trích xuất thông tin 82
6 2 1 Các phương pháp thử nghiệm 82
6 2 2 Nhận xét 84
6 3 Dữ liệu thử nghiệm 84 vii
6 3 1 Nguồn dữ liệu 84
6 3 2 Số lượng dữ liệu thử nghiệm 84
6 3 3 Nhận xét 86
6 4 Thử nghiệm các công thức tính độ tương hỗ MI 87
6 4 1 Các phương pháp thử nghiệm 87
6 4 2 Kết quả 87
6 4 3 Nhận xét 88
6 5 Thử nghiệm phân loại tin tức điện tử 89
6 5 1 Thước đo kết quả phân loại văn bản 89
6 5 2 Các phương pháp thử nghiệm 91
6 5 3 Kết quả 91
6 5 4 Nhận xét 9
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 132
👁 Lượt xem: 520
⬇ Lượt tải: 16
📎 Số trang: 132
👁 Lượt xem: 108
⬇ Lượt tải: 16
📎 Số trang: 106
👁 Lượt xem: 554
⬇ Lượt tải: 17
📎 Số trang: 106
👁 Lượt xem: 526
⬇ Lượt tải: 16
📎 Số trang: 4
👁 Lượt xem: 430
⬇ Lượt tải: 16
📎 Số trang: 97
👁 Lượt xem: 1475
⬇ Lượt tải: 16
📎 Số trang: 49
👁 Lượt xem: 499
⬇ Lượt tải: 16
📎 Số trang: 41
👁 Lượt xem: 353
⬇ Lượt tải: 17
Những tài liệu bạn đã xem
📎 Số trang: 132
👁 Lượt xem: 405
⬇ Lượt tải: 16