Mã tài liệu: 237617
Số trang: 55
Định dạng: doc
Dung lượng file: 800 Kb
Chuyên mục: Kỹ thuật - Công nghệ
TÓM TẮT
Nội dung của khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình này trong trích chọn thông tin trong tiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về trích chọn thông thông tin. Đồng thời nêu đến hai hướng tiếp cận để xây dựng một hệ thống trích chọn thông tin cũng như ưu nhược điểm của từng hướng tiếp cận, Đồng thời cũng nêu ra được ứng dụng của trích chọn thông tin trong tiếng Việt như thế nào. Cụ thể ở đây là bài toán trích chọn thông tin nhà đất.
Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba mô hình học máy trong đó tập trung chủ yếu vào mô hình Conditional Random Field –CRF. Bất kỳ mô hình nào cũng có ưu nhược điểm trong luận văn này trình bày hai vấn đề lớn của mô hình CRF đó là vấn đề gán nhãn và ước lượng tham số. Đồng thời cũng trình bày về công cụ hữu ích CRF++.
Luận văn cũng trình bày được việc ứng dụng mô hình CRF làm nền tảng lý thuyết và cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất. Một bài toán nhỏ trong bài toán xử lý ngôn ngữ tự nhiên.
MỤC LỤC
LỜI CẢM ƠN iii
TÓM TẮT iv
MỤC LỤC v
DANH MỤC CÁC HÌNH VẼ vii
BẢNG CÁC KÍ HIỆU VIẾT TẮT viii
LỜI MỞ ĐẦU 1
Chương 1.TỔNG QUAN 3
1.1. TRÍCH CHỌN THÔNG TIN 3
1.2. CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN 5
1.2.1. Hướng tiếp cận dựa trên tri thức 5
1.2.2. Hướng tiếp cận xây dựng các mô hình học máy 5
1.3. KIẾN TRÚC HỆ THỐNG IE 7
1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 8
1.5. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 9
1.6. TỔNG KẾT CHƯƠNG 10
Chương 2. CONDITIONAL RANDOM FIELDS 11
2.1. MÔ HÌNH MARKOV ẨN- HMM 11
2.2. MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM 13
2.3. MÔ HÌNH CONDITIONAL RANDOM FIELDS 15
2.3.1.Việc gán nhãn cho dữ liệu tuần tự 15
2.3.2. Định nghĩa CRF 16
2.3.3. Nguyên lý cực đại hóa Entropy 18
2.3.3.1. Độ đo Entropy điều kiện 18
2.3.3.2. Các ràng buộc đối với phân phối mô hình 19
2.3.3.3. Nguyên lý cực đại hóa Entropy 20
2.3.4. Hàm tiềm năng của các mô hình CRF 20
2.3.5. Conditional Random Fields 21
2.3.6. So sánh với các mô hình khác 22
2.4. TỔNG KẾT CHƯƠNG 23
Chương 3. THUẬT TOÁN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH CRF VÀ CÔNG CỤ CRF ++ 24
3.1. THUẬT TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI 24
3.2. XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25
3.3. ƯỚC LƯỢNG THAM SỐ CHO MÔ HÌNH CRF 26
3.3.1. Thuật toán S 28
3.3.2. Thuật toán T 29
3.4. CÔNG CỤ CRF++ TOOLKIT 30
3.4.1. Giới thiệu 30
3.4.2. Tính năng 31
3.4.3. Cài đặt và cách sử dụng 31
3.4.3.1 Cài đặt 31
3.4.3.2. File định dạng huấn luyện và test 31
3.4.3.3. Template type 32
3.4.4. Huấn luyện và kiểm tra 34
3.5. TỔNG KẾT CHƯƠNG 36
Chương 4. ỨNG DỤNG CRF VÀO BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37
4.1. MÔ HÌNH HÓA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37
4.1.1. Xử lý dữ liệu đầu vào 38
4.2. MÔI TRƯỜNG THỰC NGHIỆM 39
4.2.1. Phần cứng 39
4.2.2. Phần Mềm 39
4.2.3. Dữ liệu thực nghiệm 39
4.2.3.1. Lần thử nghiệm thứ nhất 40
4.2.3.2. Lần thử nghiệm thứ hai 40
4.2.3.3. Kết quả và đánh giá 42
4.3. HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI 44
4.4. TỔNG KẾT CHƯƠNG 45
KẾT LUẬN 46
TÀI LIỆU THAM KHẢO 4
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 55
👁 Lượt xem: 763
⬇ Lượt tải: 16
📎 Số trang: 164
👁 Lượt xem: 565
⬇ Lượt tải: 16
📎 Số trang: 76
👁 Lượt xem: 575
⬇ Lượt tải: 16
📎 Số trang: 59
👁 Lượt xem: 560
⬇ Lượt tải: 16
📎 Số trang: 14
👁 Lượt xem: 649
⬇ Lượt tải: 16
📎 Số trang: 55
👁 Lượt xem: 681
⬇ Lượt tải: 16
📎 Số trang: 58
👁 Lượt xem: 551
⬇ Lượt tải: 16
📎 Số trang: 81
👁 Lượt xem: 949
⬇ Lượt tải: 19
📎 Số trang: 103
👁 Lượt xem: 398
⬇ Lượt tải: 17
📎 Số trang: 19
👁 Lượt xem: 754
⬇ Lượt tải: 23
📎 Số trang: 54
👁 Lượt xem: 483
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 55
👁 Lượt xem: 464
⬇ Lượt tải: 17