Mã tài liệu: 237800
Số trang: 74
Định dạng: doc
Dung lượng file: 3,674 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Lời mở đầu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v ra đời như một nhu cầu tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm, lọc thông tin, Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty buôn bán sản phẩm. Đối với họ, ý kiến đánh giá về sản phẩm mà người dùng đưa ra là quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả. Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy.
Mục lục
Lời mở đầu i
Lời cảm ơn ii
Mục lục iii
Danh sách hình vẽ vi
Danh sách bảng vii
Chương 1 Giới thiệu 1
Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm 3
2.1 Xu hướng các cuộc nghiên cứu gần đây 3
2.1.1 Xác định từ, cụm từ quan điểm 4
2.1.2 Xác định chiều hướng từ, cụm từ quan điểm 4
2.1.3 Phân lớp câu / tài liệu chỉ quan điểm 7
2.2 Những thách thức và công việc có thể trong tương lai 9
2.2.1 Các loại từ khác 9
2.2.2 Thuật ngữ chỉ quan điểm 10
2.2.3 Tính phủ định 10
2.2.4 Cấp độ quan điểm 11
2.2.5 Sự phức tạp của câu / tài liệu 12
2.2.6 Quan điểm theo ngữ cảnh 13
2.2.7 Tài liệu không đồng nhất 13
2.2.8 Một số vấn đề khác 14
Chương 3 Giới thiệu GATE 15
3.1 Tổng quan về GATE 15
3.1.1 Mô hình kiến trúc của GATE 16
3.1.2 Những khái niệm cơ bản trong GATE 18
3.2 Xây dựng plugin trên GATE 18
3.3 Các thành phần quan trọng của GATE 21
3.3.1 Bộ từ điển (Gazetteers) 21
3.3.2 Bộ luật JAPE 22
3.4 Các công cụ quản lý chất lượng 27
3.4.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) 27
3.4.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 28
Chương 4 Hệ thống đánh giá quan điểm người dùng 30
4.1 Giới thiệu hệ thống 30
4.2 Thu thập dữ liệu và gán nhãn 31
4.2.1 Thu thập dữ liệu 32
4.2.2 Gán nhãn dữ liệu 33
4.3 Xây dựng hệ thống đánh giá quan điểm 34
4.3.1 Mô tả tổng quan hệ thống 35
4.3.2 Tiền xử lý 37
4.3.3 Xây dựng bộ từ điển 38
4.3.4 Xây dựng bộ luật 40
Chương 5 Kết quả thực nghiệm và phân tích lỗi 46
5.1 Tiến hành thực nghiệm 46
5.2 Kết quả thực nghiệm 47
5.2.1 Kết quả thực nghiệm đánh giá ở mức từ 47
5.2.2 Kết quả thực nghiệm đánh giá ở mức câu 48
5.2.3 Kết quả thực nghiệm đánh giá ở mức văn bản theo từng Features 49
5.2.4 Kết luận chung về kết quả đánh giá 53
5.3 Phân tích lỗi 54
5.3.1 Lỗi do gán nhãn từ loại (POS tag) 54
5.3.2 Lỗi do luật 56
5.3.3 Lỗi do tách câu 57
Chương 6 Tổng kết và hướng phát triển 59
Tài liệu tham khảo 60
Phụ lục A. Annotation Guideline. 63
Phụ lục B. Bảng nhãn từ loại tiếng Việt 64
Chương 1
Giới thiệu
Hiện nay nền công nghệ càng ngày càng phát triển, đặc biệt với sự ra đời của Web, lượng thông tin trên Web là một kho tàng đồ sộ và nhiệm vụ của chúng ta là làm thế nào để khai thác kho tàng to lớn đó. Chính vì nó quá khổng lồ cho nên lượng thông tin rác cũng rất nhiều, vậy làm thế nào để biết được cái gì là cần thiết và cái gì là dư thừa. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay Machine Learning đều đi tìm câu trả lời cho câu hỏi đó tuy nhiên chúng cũng chỉ tìm được câu trả lời cho những phần nhỏ của câu hỏi mà thôi. Mỗi người quan tâm một số lĩnh vực, mỗi người cần biết thông tin về một vài thứ mà trên Web thì bao gồm vô vàn thông tin thế nhưng lĩnh vực mà đa số người đều quan tâm, từ những nhà doanh nghiệp đến khách hàng - những người dùng đều quan tâm đó chính là sản phẩm. Người dùng thì quan tâm sản phẩm này có tốt không, sản phẩm kia tốt ở chỗ nào và chỗ nào không tốt. Còn doanh nghiệp thì lại thường quan tâm đến sản phẩm của họ được mọi người tiếp đón thế nào, những điểm nào chưa tốt để họ bổ sung sửa chữa, hay phát huy thêm những điểm người dùng quan tâm Câu trả lời cho những câu hỏi này nằm trong nghiên cứu về “Opinion Mining” hay còn gọi “phân tích quan điểm người dùng”. Nghiên cứu này của chúng tôi xuất phát từ sự cần thiết của doanh nghiệp và người dùng, sử dụng những công cụ có ích nhất để đánh giá một cách chính xác nhất về sản phẩm. Với mỗi sản phẩm sẽ có những điểm tính năng riêng (Features) và nhiệm vụ của chúng tôi là từ những review, comment, Feedback, trên nguồn dữ liệu khổng lồ Web để đánh giá xem tính năng của sản phẩm này được mọi người tiếp đón thế nào.
Hệ thống của chúng tôi sử dụng dữ liệu từ trên trang Web http//tinvadung.vn làm dữ liệu chuẩn để phát triển và kiểm thử hệ thống. Chúng tôi giải quyết bài toán dựa trên hướng tiếp cận về luật và phân lớp ở mức câu. Ở đây chúng tôi tạm thời chia thành 2 loại đánh giá của người dùng là hướng tích cực (positive) và hướng tiêu cực (negative). Hệ thống của chúng tôi được xây dựng trên nền GATE – là một framework giúp phát triển các thành phần xử lý ngôn ngữ tự nhiên, và được sử dụng với dữ liệu về máy tính (laptop & desktop). Trong tương lai chúng tôi sẽ phát triển hệ thống để đưa ra một thước đo chính xác hơn về những đánh giá và mở rộng thêm với các lĩnh vực khác.
Phần còn lại của khóa luận được chia thành 5 chương:
ã Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán tự động đánh giá quan điểm người dùng, những công trình nghiên cứu hiện tại và những thách thức sẽ giải quyết trong tương lai.
ã Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE, và cách xây dựng một hệ thống tích hợp trong GATE.
ã Chương 4: Chúng tôi mô tả chi tiết hệ thống tự động đánh giá quan điểm người dùng trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE.
ã Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi vẫn còn tồn tại.
ã Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ thống trong tương lai
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 94
👁 Lượt xem: 513
⬇ Lượt tải: 16
📎 Số trang: 94
👁 Lượt xem: 349
⬇ Lượt tải: 16
📎 Số trang: 123
👁 Lượt xem: 494
⬇ Lượt tải: 16
📎 Số trang: 123
👁 Lượt xem: 594
⬇ Lượt tải: 17
📎 Số trang: 268
👁 Lượt xem: 505
⬇ Lượt tải: 18
📎 Số trang: 49
👁 Lượt xem: 515
⬇ Lượt tải: 18
📎 Số trang: 7
👁 Lượt xem: 329
⬇ Lượt tải: 19
Những tài liệu bạn đã xem