Mã tài liệu: 258710
Số trang: 42
Định dạng: doc
Dung lượng file: 215 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Cùng với sự gia tăng nhanh chóng về số lượng các trang Web thì nhu cầu về khai phá dữ liệu Web ngày càng nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu. Trong lĩnh vực khai phá Web thì phân cụm Web là một trong những bài toán cơ bản và quan trọng. Đây cũng là thành phần chịu nhiều ảnh hưởng của các đặc trưng ngôn ngữ. Khóa luận này tập trung nghiên cứu về bài toán phân cụm Web sử dụng phương pháp xếp hạng. Trên cơ sở lý thuyết phân cụm Web và lựa chọn các đặc trưng của tiếng Việt, khóa luận đã sử dụng phương pháp xếp hạng các cụm từ quan trọng vào phân cụm các tài liệu Web tiếng Việt và tiến hành thực nghiệm. Kết quả thực nghiệm đánh giá theo các đặc trưng TFDF, độ dài (LEN), tương tự nội tại (ICS), entropy nội tại cụm văn bản (CE) cho thấy đặc trưng TFIDF và LEN có ảnh hưởng lớn hơn so với các đặc trưng khác
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 15
👁 Lượt xem: 1384
⬇ Lượt tải: 28
📎 Số trang: 17
👁 Lượt xem: 518
⬇ Lượt tải: 18
📎 Số trang: 68
👁 Lượt xem: 478
⬇ Lượt tải: 16
📎 Số trang: 63
👁 Lượt xem: 373
⬇ Lượt tải: 16
📎 Số trang: 20
👁 Lượt xem: 507
⬇ Lượt tải: 17
📎 Số trang: 179
👁 Lượt xem: 330
⬇ Lượt tải: 16
📎 Số trang: 24
👁 Lượt xem: 509
⬇ Lượt tải: 16
📎 Số trang: 24
👁 Lượt xem: 463
⬇ Lượt tải: 16
📎 Số trang: 15
👁 Lượt xem: 1606
⬇ Lượt tải: 24
📎 Số trang: 87
👁 Lượt xem: 536
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 42
👁 Lượt xem: 399
⬇ Lượt tải: 16