Phan biet nhap nhang ten nguoi trong he thong tim kiem thuc the

Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Upload bởi: bientinh

Mã tài liệu: 260118

Số trang: 50

Định dạng: pdf

Dung lượng file: 997 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Đến trang tải tài liệu này

Info

Mục lục

Chương 1. Bài toán phân biệt nhập nhằng tên người trong hệ thống tìm kiếm

thực thể. . 3

1.1. Hệ thống tìm kiếm thực thể . . 3

1.1.1. Những thuận lợi và khó khăn trong việc khai thác thông tin trên WWW . 3

1.1.2. Hệ thống tìm kiếm thực thể . . 4

1.1.3. Vấn đề giải quyết nhập nhằng tên trong hệ thống tìm kiếm thực thể người 7

1.2. Bài toán phân biệt nhập nhằng tên người trên tập văn bản. 9

1.2.1. Phát biểu bài toán . . 9

1.2.3. Mối quan hệ với bài toán phân biệt nhập nhằng nghĩa của từ. 9

1.2.3. Phương pháp đánh giá . . 10

Tóm tắt chương một . . 11

Chương 2. Phương pháp giải quyết bài toán nhập nhằng tên người trên tập văn

bản . . 12

2.1. Tiếp cận dựa trên thực thể định danh . 12

2.2. Tiếp cận dựa trên từ khóa . 14

2.3. Tiếp cận dựa trên kỹ thuật trích xuất thông tin . . 18

2.4. Một số cách tiếp cận khác . 20

Tóm tắt chương hai . 21

Chương 3: Mô hình hệ thống phân biệt nhập nhằng tên người . . 22

3.1. Cơ sở thực tiễn . . 22

3.2. Cơ sở lý thuyết . . 24

3.2.1. Mô hình không gian vector . 24

3.2.2. Thuật toán phân cụm HAC . 26

3.3. Mô hình hệ thống phân biệt nhập nhằng tên người trên tập văn bản . 31

3.4. Áp dụng bài toán phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực

thể người . 33

Tóm tắt chương ba . . 34

Chương 4. Thực nghiệm và đánh giá . . 35

4.1. Môi trường và các công cụ sử dụng thực nghiệm. . 35

4.2. Xây dựng tập dữ liệu . . 36

4.3. Thực nghiệm . . 37

Thực nghiệm phân biệt nhập nhằng tên người trên tập văn bản. . 37

Kết luận . . 41

Tài liệu tham khảo . . 42

Danh sách hình vẽ

Hình 1 - Kết quả tìm kiếm từ Google với truy vấn “nokia 6030” . 5

Hình 2 - Đồ thị giữa các trang Web dưới góc nhìn thực thể . . 5

Hình 3 - Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất

thông tin. . 6

Hình 4 - Hệ thống tìm kiếm nơi nghỉ mát của Cazoodle . . 7

Hình 5 - Danh sách top 10 từ khóa được tìm kiếm trong Google, Bing và Yahoo năm

2009 . . 8

Hình 7 - Các mẫu trích xuất sinh tự động cho ngày sinh . . 19

Hình 8 - Đoạn trích từ bài báo “Năm 2010: ĐH Quốc gia Hà Nội tuyển sinh 5.500 chỉ

tiêu” . . 22

Hình 9 - Đoạn trích từ bài báo “Cá ngừ độc là do chứa histamin tự do” . .23

Hình 10 - Trích từ bài báo “11 giám đốc bưu điện đồng loạt hầu tòa” từ trang

vnexpress.net . 23

Hình 11 - Trích từ bài báo “Siêu lừa Nguyễn Lâm Thái có dấu hiệu tâm thần” từ trang

vnexpress.net . 24

Hình 13 - Quy trình phân cụm . . 26

Hình 14 - Ví dụ về thuật toán K-means . . 27

Hình 15 - Hình vẽ minh họa cho phân cụm dữ liệu dựa trên mật độ. . 27

Hình 16 - Sơ đồ các phân tử trước khi phân cụm . . 28

Hình 17 - Sơ đồ các phần tử sau khi phân cụm phân cấp . . 28

Hình 18 - Phân cụm với Single-linkage . . 30

Hình 19 - Phân cụm với Complete-linkage . . 30

Hình 20 - Trung bình các khoảng cách trong GAAC . . 31

Hình 22 - Trích từ bài viết “Lê Thị Thanh Nhàn - nữ PGS toán học trẻ nhất VN” -báo

dantri.com.vn . 39

Hình 23 - Trích từ bài viết “Kịch tính vòng chung khảo Nhân tài đất Việt CNTT

2008!” - báo dantri.com.vn . . 39

Mở đầu

Sự ra đời của các máy tìm kiếm đã giúp ích cho con người rất nhiều trong các

hoạt động khai thác thông tin. Tuy nhiên, chất lượng tìm kiếm thông tin vẫn còn nhiều

hạn chế, đặc biệt là tìm kiếm thông tin về người, một trong những lĩnh vực có truy vấn

lớn nhất trong các máy tìm kiếm. Mặt khác, thực thể người là một trong những loại

thực thể có độ nhập nhằng cao nhất, vì vậy mà các kết quả trả về bởi máy tìm kiếm sẽ

bao gồm tất cả những người có tên giống nhau và người dùng cần phải đọc lần lượt để

tìm ra kết quả mong muốn. Vì vậy mà cần thiết phải có một hệ thống có khả năng gom

cụm kết quả sao cho những trang Web thuộc cùng một cụm nói về một người, và

những trang Web thuộc các cụm khác nhau nói về những người khác nhau.

Bài toán cốt lõi cho vấn đề này là bài toán giải quyết nhập nhằng tên người trên

tập văn bản. Bài toán này đã nhận được sự quan tâm từ các nhà nghiên cứu trong các

hội nghị lớn trong những năm gần đây như Colling, ACL, Senseval Đặc biệt là hội

nghị WebPS1, hội nghị dành riêng cho các vấn đề giải quyết nhập nhằng tên người

trong kết quả tìm kiếm Web. Trong những năm gần đây, có rất nhiều nghiên cứu và ý

tưởng được đề xuất trên thế giới để giải quyết bài toán này,

Tuy nhiên, đối với tiếng Việt thi các nghiên cứu về bài toán này vẫn còn rất hạn

chế. Các nghiên cứu tập trung chủ yếu vào việc thể hiện tốt nhất các ngữ cảnh riêng

biệt cho từng người, tìm các độ đo tương đồng ngữ cảnh phù hợp và phân cụm ngữ

cảnh, hay phân cụm văn bản chứa ngữ cảnh. Và các phương pháp thường chỉ thao tác

trên một miền dữ liệu tương đối đặc thù, chứ không có một phương pháp khả thi trên

nhiều miền dữ liệu. Việc tìm ra một phương pháp tốt cho tiếng Việt vẫn là một vấn đề

khó khăn, mặc dù tiếng Việt đã giải quyết được một số bài toán cơ sở (thuộc đề tài KC

01.01/06-10), tuy nhiên so với nhu cầu của bài toán giải quyết nhập nhằng tên người

thì vẫn chưa đủ.

Mục tiêu của khóa luận là khảo sát, nghiên cứu để đưa ra một phương pháp đủ

tốt giải quyết bài toán phân biệt nhập nhằng tên người trên miền dữ liệu báo điện tử

tiếng Việt. Để đạt được mục tiêu này, khóa luận khảo sát một số phương pháp tiêu

biểu nhất giải quyết bài toán này trên thế giới. Từ đó, khóa luận đưa ra phương pháp

giải quyết bài toán phân biệt nhập nhằng tên người trên tập văn bản tiếng Việt. Đầu

tiên, khảo sát miền dữ liệu báo điện tử để tìm ra những đặc trưng tốt (dựa trên từ vựng

và đặc điểm mạng xã hội) thể hiện riêng biệt cho một người, phân biệt người đó với

những người khác cùng tên. Tiếp đó, thực hiện việc gom cụm các văn bản chứa tên

1 http://nlp.uned.es/weps/

người này bằng thuật toán HAC. Khóa luận đã thực nghiệm với kết quả độ đo F đạt

mức tốt so với kết quả của thế giới (F = 0.791 và F = 0.773); đồng thời, đề xuất

0 5 0 2

một mô hình hệ thống tìm kiếm thực thể người dựa trên kết quả bài toán này.

Nội dung của khóa luận được chia thành các chương như sau:

Chương 1: Khóa luận giới thiệu khái quát về hệ thống tìm kiếm thực thể và bài

toán giải quyết nhập nhằng tên người trên tập tài liệu, vai trò của bài toán đối với hệ

thống tìm kiếm thực thể người. Khóa luận cũng trình bày mối liên hệ của bài toán với

bài toán phân biệt nhập nhằng nghĩa của từ, và phương pháp đánh giá cho bài toán

phân biệt nhập nhằng tên người trên tập văn bản.

Chương 2: Khóa luận giới thiệu chi tiết các phương pháp tiêu biểu để giải

quyết vấn đề phân biệt nhập nhằng tên người trên tập văn bản.

Chương 3: Khoá luận đã giới thiệu các đặc trưng của miền dữ liệu báo điện tử

để từ đó đề xuất ra mô hình giải quyết bài toán nhập nhằng tên người trên tập văn bản

và ứng dụng bài toán đó trong việc đề xuất mô hình hệ thống tìm kiếm thực thể người.

Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc việc

phân biệt nhập nhằng trên miền dữ liệu báo điện tử tiếng Việt với tập dữ liệu kiểm thử

là những tên người có độ nhập nhằng cao.

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát

triển tương lai.

̃̃̃̃āā̃̃̃̃̃̃̃āā̃̃̃̃̃̃̃ăā́̃̃̃̃̃̃

Tìm tài liệu

Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Info

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

GỢI Ý

Luận án tiến sĩ kỹ thuật Phân giải nhập ...

Tìm hiểu dịch vụ tên miền trong hệ thống ...

Tìm hiểu dịch vụ tên miền trong hệ thống ...

Một số thuật toán phân hạng ảnh phổ biến và ...

Hệ thống phát thiện xâm nhập trái phép tên ...

Tìm hiểu và nghiên cứu hệ thống phần mềm ...

Luận văn Đánh giá các hệ thống tìm kiếm ...

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ...

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ...

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ ...

Hệ thống tư vấn website cho máy tìm kiếm dựa ...

Lệnh tìm kiếm trong google

QUAN TÂM

Phân biệt nhập nhằng tên người trong hệ ...

Tìm hiểu joomla và ứng dụng xây dựng website ...

ERP trong hệ thống quản lý và điều hành vận ...

Xây dựng 1 chương trình đào tạo từ xa 1 môn ...

CHUYÊN MỤC

KhoTri thức số

Về chúng tôi

MENU

LIÊN HỆ

098 333 9285