Mã tài liệu: 288071
Số trang: 53
Định dạng: zip
Dung lượng file: 910 Kb
Chuyên mục: Kỹ thuật - Công nghệ
TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng....
Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh và cho kết quả khả quan.
MỤC LỤC
TÓM TẮT NỘI DUNG i
MỤC LỤC ii
Bảng các kí hiệu và chữ viết tắt iv
Danh mục hình vẽ v
Danh mục các bảng biểu vi
MỞ ĐẦU 1
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3
1.1. Đặt vấn đề 3
1.2. Khái niệm và các đặc trưng của từ khóa 4
1.3. Đánh giá các từ khóa 5
1.4. Thách thức của bài toán sinh từ khóa cho trang web 5
1.4.1. Đối với các trang có nội dung tập trung 6
1.4.2. Đối với các trang có nội dung tổng hợp 6
1.4.3. Các vấn đề khác 6
1.5. Ứng dụng của từ khóa trong các lĩnh vực 7
1.5.1. Vai trò từ khóa trong máy tìm kiếm 7
1.5.1.1. Quảng cáo trên máy tìm kiếm 7
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin 10
1.6. Tổng kết chương 12
Chương 2. Các công trình liên quan 13
2.1. Các phương pháp trích xuất từ khóa cho văn bản 13
2.1.1. Phương pháp tần số từ 13
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản 14
2.1.3. Phương pháp sử dụng học máy 15
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes 16
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp 16
2.2. Các phương pháp trích xuất từ khóa cho trang web 17
2.2.1. Tần số từ 17
2.2.2. Kĩ thuật khai phá log 17
2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ 18
2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19
2.4 Tổng kết chương 19
Chương 3. Hướng giải quyết và đề xuất mô hình bài toán 20
3.1. Hướng giải quyết 20
3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20
3.1.2. Sử dụng đồ thị web 23
3.1.2.1. Định nghĩa đồ thị Web 23
3.1.2.2 Nội dung của phương pháp 24
3.1.3. Sử dụng query log 26
3.1.4. Sử dụng từ điển hỗ trợ 27
3.2. Đề xuất mô hình bài toán 27
3.2.1. Mô hình toàn hệ thống 27
3.2.2. Mô đun Crawler 28
3.2.3. Mô đun sinh từ khóa 29
3.2.3.1. Mô đun sử dụng trọng số thẻ HTML 30
3.2.3.2. Mô đun sử dụng đồ thị web 32
3.2.3.3. Các phương pháp hỗ trợ 33
3.2.3.4. Mô đun tổng hợp 35
3.3. Tổng kết chương 35
Chương 4. Thực nghiệm và đánh giá 36
4.1. Giới thiệu bài toán thực nghiệm 36
4.2. Môi trường, dữ liệu 36
4.1.1. Môi trường phần cứng 36
4.1.2. Mô tả chương trình 36
4.1.3. Công cụ phần mềm 37
4.1.4. Dữ liệu thử nghiệm 38
4.3. Kết quả thực nghiệm 40
4.4. Đánh giá kết quả thực nghiệm 43
Kết luận 46
Hướng phát triển tiếp theo 47
Tài liệu tham khảo. 48
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 53
👁 Lượt xem: 286
⬇ Lượt tải: 16
📎 Số trang: 70
👁 Lượt xem: 409
⬇ Lượt tải: 16
📎 Số trang: 37
👁 Lượt xem: 576
⬇ Lượt tải: 17
📎 Số trang: 70
👁 Lượt xem: 506
⬇ Lượt tải: 16
📎 Số trang: 432
👁 Lượt xem: 465
⬇ Lượt tải: 16
📎 Số trang: 46
👁 Lượt xem: 552
⬇ Lượt tải: 19
📎 Số trang: 29
👁 Lượt xem: 681
⬇ Lượt tải: 16
📎 Số trang: 70
👁 Lượt xem: 464
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 53
👁 Lượt xem: 393
⬇ Lượt tải: 16