Mã tài liệu: 243884
Số trang: 47
Định dạng: pdf
Dung lượng file: 588 Kb
Chuyên mục: Tổng hợp
TÓM TẮT NỘI DUNG
Hiện nay, với một lượng lớn các dữ liệu thì phân lớp dữ liệu có vai trò rất quan
trọng, là một trong những bài toán luôn thời sự trong lĩnh vực xử lý dữ liệu văn bản. Một
yêu cầu cơ bản được đặt ra là cần tăng tính hiệu quả của thuật toán phân lớp, nâng cao giá
trị của các độ đo hồi tưởng, chính xác của thuật toán. Mặt khác, nguồn tài nguyên về ví
dụ học có nhãn không phải luôn được đáp ứng vì vậy cần có các thuật toán phân lớp sử
dụng các ví dụ chưa có nhãn. Phân lớp bán giám sát đáp ứng được hai yêu cầu nói trên
[5, 7, 8, 16, 17]. Các thuật toán phân lớp bán giám sát tận dụng các nguồn dữ liệu chưa
gán nhãn rất phong phú có trong tự nhiên kết hợp với một số dữ liệu đã được gán nhãn
cho sẵn.
Trong những năm gần đây, phương pháp sử dụng bộ phân loại máy hỗ trợ vector
(Support Vector Machine - SVM) được quan tâm và sử dụng nhiều trong lĩnh vực nhận
dạng và phân loại. Từ các công trình khoa học [4, 7, 8, 11] được công bố cho thấy
phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân loại Văn bản cũng
như trong nhiều ứng dụng khác.
Trong khoá luận này, em khảo sát thuật Toán học bán giám sát SVM và trình bày
các nội dung về phần mềm SVMlin do V. Sindhwani đề xuất . Trong năm 2006-
2007, V. Sindhwani đã dùng SVMlin tiến hành phân lớp Văn bản từ nguồn 20-
Newsgroups cho các kết quả tốt [14,15].
MỤC LỤC
MỞ ĐẦU . 9
Chương 1 TỔNG QUAN VỀ PHÂN LỚP BÁN GIÁM SÁT 11
1.1. Phân lớp dữ liệu 11
1.1.1. Bài toán phân lớp dữ liệu .11
1.1.2. Quá trình phân lớp dữ liệu 12
1.2. Phân lớp Văn bản 13
1.2.1. Đặt vấn đề . .13
1.2.2. Mô hình vector biểu diễn văn bản . 14
1.2.3. Phương pháp phân lớp Văn bản .19
1.2.4. Ứng dụng của phân lớp văn bản . .19
1.2.5. Các bước trong quá trình phân lớp Văn bản 20
1.2.6. Đánh giá mô hình phân lớp .22
1.2.7. Các yếu tố quan trọng tác động đến phân lớp Văn bản .23
1.3. Một số thuật Toán học máy phân lớp 23
1.3.1. Học có giám sát 23
1.3.1.1. Bài Toán học có giám sát 23
1.3.1.2. Giới thiệu học có giám sát 24
1.3.1.3. Thuật Toán học có giám sát k-nearest neighbor (kNN) 25
1.3.1.4. Thuật Toán học có giám sát Support vector machine (SVM) .26
1.3.2. Thuật toán phân lớp sử dụng quá trình học bán giám sát .27
1.3.2.1. Khái niệm .27
1.3.2.2. Lịch sử Phát triển sơ lược của học bán giám sát 28
1.3.2.3. Một số phương pháp học bán giám sát điển hình 29
Chương 2 SỬ DỤNG SVM VÀ BÁN GIÁM SÁT SVM
VÀO BÀI TOÁN PHÂN LỚP 32
2.1. SVM – Support Vector Machine . 32
2.1.1. Thuật toán SVM .33
2.1.2. Huấn luyện SVM . .3 5
2.1.3. Các ưu thế của SVM trong phân lớp Văn bản 35
2.2. Bán giám sát SVM và phân lớp trang Web . 37
2.2.1. Giới thiệu về bán giám sát SVM 37
2.2.2. Phân lớp trang Web sử dụng bán giám sát SVM .38
2.2.2.1. Giới thiệu bài toán phân lớp trang Web (Web Classification) .38
2.2.2.3. Áp dụng S3VM vào phân lớp trang Web . 39
Chương 3 THỬ NGHIỆM HỌC BÁN GIÁM SÁT PHÂN LỚP TRANG
WEB . . 41
3.1. Giới thiệu phần mềm SVMlin 41
3.2. Download SVMlin 42
3.3. Cài đặt 42
3.4. Cách sử dụng phần mềm . 42
KẾT LUẬN 45
Những công việc đã làm được của khoá luận .45
Hướng nghiên cứu trong thời gian tới . 45
TÀI LIỆU THAM KHẢO . 46
I. Tiếng Việt .46
II. Tiếng anh .4
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 61
👁 Lượt xem: 370
⬇ Lượt tải: 16
📎 Số trang: 99
👁 Lượt xem: 500
⬇ Lượt tải: 16
📎 Số trang: 140
👁 Lượt xem: 478
⬇ Lượt tải: 16
📎 Số trang: 119
👁 Lượt xem: 415
⬇ Lượt tải: 16
📎 Số trang: 8
👁 Lượt xem: 353
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 736
⬇ Lượt tải: 18
📎 Số trang: 1
👁 Lượt xem: 531
⬇ Lượt tải: 16
📎 Số trang: 83
👁 Lượt xem: 390
⬇ Lượt tải: 16
📎 Số trang: 1
👁 Lượt xem: 573
⬇ Lượt tải: 16
📎 Số trang: 6
👁 Lượt xem: 435
⬇ Lượt tải: 19
Những tài liệu bạn đã xem
📎 Số trang: 47
👁 Lượt xem: 673
⬇ Lượt tải: 16