Tìm tài liệu

Xay dung mo hinh mo rong truy van trong truy xuat thong tin van ban

Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Upload bởi: connhi02

Mã tài liệu: 298544

Số trang: 223

Định dạng: pdf

Dung lượng file: 2,337 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

TÓM TẮT

Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn đến kết quả tìm được không đáp ứng đủ nhu cầu mong muốn, hoặc chất lượng thấp. Do đó, mở rộng truy vấn là vấn đề cần thiết, để từ đó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh có thể thu được từ những thông tin phản hồi liên quan, từ đồng hiện hay mô hình tri thức như bản thể học (ontology).

Việc ứng dụng ontology để trợ giúp việc mở rộng truy vấn được nghiên cứu từ đầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới đã sử dụng ontology WordNet. Một số nhóm khác đã phát triển ontology để phục vụ nhu cầu mở rộng truy vấn. Những định hướng đặc biệt về cấu trúc ontology cần xây dựng bao gồm đề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay đề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương đương (equivalence), hoặc phát triển một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain).

Luận án này đề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn đề chính: (1) đề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) đề xuất phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án được tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực nghiệm phản ánh tính khả thi của những phương pháp đề xuất trong luận án, đồng thời cho thấy nhiều triển vọng phát triển của các đề xuất lý thuyết trong luận án.

MỤC LỤC

MỤC LỤC ....... i DANH MỤC CÁC BẢNG iii DANH MỤC CÁC HÌNH...v

DANH MỤC CÁC GIẢI THUẬT . vii DANH MỤC CÁC TỪ VIẾT TẮT.... viii

Chương 1 GIỚI THIỆU ....1

1.1 Động cơ nghiên cứu ...1

1.2 Mục tiêu và phạm vi nghiên cứu ...5

1.3 Đóng góp chính của luận án 8

1.4 Cấu trúc của luận án.10

1.5 Các quy ước ...13

1.6 Tóm tắt nội dung luận án ...13

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN .14

2.1 Giới thiệu ..14

2.2 Các nghiên cứu liên quan trong nước ....15

2.3 Các nghiên cứu về ontology ...19

2.4 Các nghiên cứu về mở rộng truy vấn 23

2.5 Khai thác dữ liệu từ WordNet.39

2.6 Tóm lược...44

Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG ....46

3.1 Giới thiệu ..46

3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn .46

3.3 Các mô hình cho bài toán mở rộng truy vấn....60

3.4 Mẫu nhận dạng cụm danh từ...65

3.5 Phương pháp thực nghiệm và đánh giá..70

3.6 Nguồn dữ liệu thực nghiệm ....74

3.7 Tóm lược...88

Chương 4 XÂY DỰNG ONTOLOGY OOMP .90

4.1 Giới thiệu ..90

4.2 Xây dựng ontology OOMP 90

4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu ...95

4.4 Phương pháp huấn luyện dựa trên WordNet .100

4.5 Cơ chế tự huấn luyện của ontology OOMP ...107

4.6 Các ứng dụng của ontology và quan hệ ....109

4.7 Tóm lược.110

Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN....112

5.1 Giới thiệu 112

5.2 Hoàn chỉnh và rút gọn truy vấn .113

5.3 Kiểm tra cụm danh từ hoàn chỉnh...114

5.4 Tạo cụm danh từ hoàn chỉnh.121

5.5 Tạo cụm danh từ rút gọn ..122

5.6 Hoàn chỉnh cụm danh từ ..123

5.7 Giải thuật rút gọn thành phần cụm danh từ....135

5.8 Tóm lược.140

Chương 6 MỞ RỘNG TRUY VẤN..142

6.1 Mở rộng truy vấn cho động cơ tìm kiếm trên Web .142

6.2 Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn 153

6.3 Tóm lược.165

Chương 7 KẾT LUẬN...167

7.1 Các kết quả đạt được...167

7.2 Hướng phát triển ....171

7.3 Lời kết 172

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ.174

TÀI LIỆU THAM KHẢO ...177

Phụ lục A. Tóm lược về WordNet ....a

Phụ lục B.

Cấu trúc cụm danh từ tiếng Anh.. c

Phụ lục C. Danh mục từ loại tiếng Anh g

Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây

dựng dựa trên TreeBank.... i

Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học ...o Phụ lục F. Cấu trúc định dạng tài liệu TREC ... p Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án .. s

Chương 1

GIỚI THIỆU

1.1 Động cơ nghiên cứu

Như chúng ta đã biết, internet (web)a được xem là nguồn thông tin khổng lồ của nhân loại. Theo thời gian, nguồn thông tin này không ngừng được chia sẻ, mở rộng và phát triển. Các thông tin trên Web hầu hết được thể hiện ở dạng văn bản biểu diễn bởi ngôn ngữ tự nhiên, trong đó phần lớn là thông qua các trang Web, thường chỉ phù hợp với khả năng đọc hiểu của người sử dụng. Đồng thời với sự phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thông tin của người sử dụng, trong đó việc tìm kiếm các thông tin thể hiện trong ngôn ngữ tiếng Anh chiếm tỉ lệ đáng kể. Đặc biệt trong những năm gần đây, nhu cầu truy cập tin tức trên Web của người dân Việt nam rất cao (theo , giai đoạn 1997-2007 internet Việt Nam đã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương đương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao đổi thông tin, và đặc biệt số lượng rất lớn là tác vụ tìm kiếm thông tin cần thiết.

Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ thống truy xuất thông tin (IR) đã được nghiên cứu và phát triển, trong đó thành công nhất là một số động cơ tìm kiếm (search engine) nổi tiếng như Google – Yahoo – Alta Vista và Bing trong thời gian gần đây... Tuy nhiên,thông qua các hệ thống đó, việc tìm kiếm thông tin thường không nhận được đầy đủkết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới hạn nhất định.

Nguyên nhân chủ yếu ảnh hưởng đến vấn đề này là:

− Ngữ nghĩa của tài liệu bị mất đi do cách biểu diễn truy vấn dưới dạng một tập các từ khóa.

− Yêu cầu thông tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài từ khóa cốt lõi, không thể hiện đủ ngữ nghĩa cần thiết.

− Người sử dụng không cung cấp đủ thông tin truy vấn cần thiết cho động cơ

tìm kiếm.

− Động cơ tìm kiếm thông tin hoạt động dựa trên cơ chế so trùng từ khóa và chưa quan tâm đúng mức đến yếu tố ngữ nghĩa trong tương tác và hỗ trợ người dùng.

− Các động cơ tìm kiếm hiện có thường hỗ trợ chính cho tiếng Anh, nhưng thiếu công cụ trợ giúp cho ngôn ngữ khác …

Điều này dẫn đến tình trạng:

− Người sử dụng phải dành một lượng thời gian khá lớn để đọc hiểu và chọn lọc lại các thông tin để có những kết quả mong muốn.

− Người sử dụng gặp khó khăn trong việc diễn đạt nội dung của vấn đề cần tìm.

− Người sử dụng không nhận được một kết quả trả lời trọn vẹn hoàn chỉnh (dù chỉ cần ở mức tóm lược ngắn gọn) như mong muốn về một vấn đề cần tìm.

− Thiếu một hệ thống tìm kiếm thông tin nhanh và linh hoạt để không chỉ có thể tìm các thông tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt theo cơ chế so trùng từ khóa, mà còn có thể trả lời các câu hỏi của người sử dụng (trong phạm vi xác định cho tiếng Việt).

− Hệ thống chưa thực sự đủ mạnh để nhận biết ngữ nghĩa của truy vấn.

Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống tìm kiếm thông tin chưa đủ mạnh nên kết quả đưa ra không thể hỗ trợ người dùng như mong đợi. Truy vấn của người dùng cũng chưa phản ánh đầy đủ ngữ nghĩa để hỗ trợ cho các quá trình tìm kiếm và truy xuất thông tin được tốt hơn. Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban đầu của người dùng là yêu cầu cần thiết.

Một bài toán kinh điển trong lĩnh vực Truy xuất thông tin là Mở rộng truy vấn. Đó là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa. Bài toán này là vấn đề được quan tâm vì nó có thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngôn ngữ tự nhiên, cũng như khắc phục những hạn chế của việc sử dụng từ khóa để thể hiện một khái niệm thông tin. Krovetz và Croft đã quan sát thấy phần lớn các lợi ích thu được trong việc tìm kiếm thông tin có độ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối với việc mở rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác hơn, điều đó cho phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để thu được các kết quả hữu ích.

Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào đó một số từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có thể bao phủ thông tin rộng hơn. Như vậy, tài liệu mong đợi để thu nhận sẽ nhiều hơn dẫn đến tỉ lệ bao phủ thông tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này có thể thực hiện bằng tay, tự động hoặc có người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa vào sự am hiểu và thành thạo của con người để đưa ra quyết định, nhằm nhúng các thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự động truy vấn, các trọng số được tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có trọng số cao nhất vào truy vấn ban đầu. Các hàm tính trọng số khác nhau đưa ra những kết quả khác nhau, do đó hiệu suất của việc truy vấn phụ thuộc vào cách thức tính các trọng số. Với dạng mở rộng truy vấn có người dùng trợ giúp, hệ thống sẽ sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một số trong các thuật ngữ đó để thêm vào.

Vấn đề cốt lõi của bài toán mở rộng truy vấn là xác định các từ thích hợp để thêm vào truy vấn của người dùng. Nhiều nghiên cứu được công bố về mở rộng truy vấn trong đó hướng đến việc sử dụng thông tin ngữ cảnh để xác định các từ cần thêm một cách hợp lý. Thông tin theo ngữ cảnh có thể thu được từ các thông tin phản hồi liên quan (relevance feedback), từ các từ đồng hiện (co-occurrence term) và trong thời gian gần đây là từ các mô hình tri thức như bản thể học (ontology).

Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn đề đang được các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin. Theo Finkelstein ngữ cảnh chưa có định nghĩa chuẩn xác, nhưng theo thì có hai định nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là các phần của bài luận bao quanh từ hay đoạn văn và có thể làm sáng tỏ nghĩa củanó”b. Định nghĩa thứ hai dựa trên tình huống “các điều kiện tương quan trong đómột điều gì đó tồn tại hay xảy ra”c . Từ đó, một nhận định chung là thông qua tương tác của người dùng lên hệ thống truy xuất thông tin, ngữ cảnh tương ứng sẽ bao gồm những thông tin liên quan đến những hành động, những quyết định của người dùng.

Ngữ cảnh trong truy xuất thông tin bao gồm nhiều vấn đề trong đó có mở rộng truy vấn. Một khó khăn là làm sao biểu diễn được nghĩa của truy vấn bằng các thuật ngữ (term) một cách chính xác. Do vậy, mở rộng truy vấn cho phép người dùng thực hiện tìm kiếm thông tin bằng truy vấn mới có các thuật ngữ là sự biến đổi hình thái của thuật ngữ ban đầu và (hoặc) một số thuật ngữ mới được thêm vào truy vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban đầu. Nhiều phương pháp tiếp cận khác nhau được đề xuất hướng đến việc mở rộng truy vấn. Trong đó, có nhiều nghiên cứu hướng đến việc sử dụng ontology để hỗ trợ suy luận ngữ cảnh cho các truy vấn nhập nhằng. Các khái niệm trong ontology được dùng để khử nhập nhằng ngữ nghĩa của từ và hỗ trợ để mở rộng truy vấn. Việc mở rộng truy vấn đạt

thành công ở một mức độ nhất định nhưng vẫn còn nhiều vấn đề cần cải thiện về kỹ

b Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning”

c Nguyên văn: “the interrelated conditions in which something exists or occurs”

thuật, giao diện hoặc giải thuật để xác định ngữ nghĩa một cách chính xác hơn từ đó cải tiến kết quả truy vấn.

Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên internet), cùng với hướng giải quyết làm sao để hệ thống IR có thể hiểu nhiều hơn và thông minh hơn khi xử lý truy vấn ban đầu của người dùng, thì yêu cầu về một hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn tương đồng hoặc cùng mục tiêu là bài toán quan trọng. Do đó, thông qua những khảo sát phân tích nêu trên, vấn đề mở rộng truy vấn là bài toán quan trọng mà luận án này nghiên cứu và đề xuất phương pháp giải quyết.

1.2 Mục tiêu và phạm vi nghiên cứu

Từ động cơ nghiên cứu nêu trên, luận án đề xuất một số phương pháp mở rộng truy vấn ban đầu của người dùng. Đây là vấn đề cốt lõi và đồng thời là mục tiêu nghiên cứu của luận án.

Hiện nay trên thế giới nhiều phương pháp tiếp cận bài toán mở rộng truy vấn trên cơ sở sử dụng cơ sở tri thức đã được công bố như:

− Mở rộng truy vấn sử dụng cơ sở tri thức có tương tác kho ngữ liệu (công trình và ...)

− Mở rộng truy vấn sử dụng các cơ sở tri thức không tương tác kho ngữ liệu

(công trình …)

Mỗi phương pháp đều có ưu, nhược điểm cùng với những công trình nghiên cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp này (xem chương 2), dựa trên những giải pháp khả thi đã được công bố trên thế giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức không tương tác kho ngữ liệu.

Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết quả như mong muốn, tác giả đã thực hiện:

(a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới cho việc mở rộng truy vấn, trên cơ sở kết hợp với ontologyd.

(b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn luyện tạo dữ liệu ban đầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và có thể triển khai trong thực tế để mang lại kết quả truy xuất thông tin tốt hơn.

Như định hướng nêu trên, phạm vi nghiên cứu của luận án được thể hiện trong hình 1.1 (trong khung đường gạch đứt nét).

Với mô hình được mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ có danh từ đơn) được xử lý để trả về tập các câu truy vấn đã được mở rộng (cụm danh từ có dạng truy vấn hoàn chỉnhe). Trong phạm vi luận án, dựa trên giải pháp rút trích các từ đặc trưng cốt lõicho một câu ( ), câu truy vấn ban đầu của người dùng được tiền xử lý để loại bỏ các thành phần không quan trọng nhằm giữ lại những thành phần chính thỏa điều kiện truy vấn hoàn chỉnh. Điều đó sẽ giúp giảm được độ phức tạp hay dạng biểu diễn phức hợp của truy vấn, đồng thời còn giúp đảm bảo tính duy nhất của từng thành phần trong truy vấn thỏa điều kiện truy vấn hoàn chỉnh.

Mục (B) của hình trên gồm động cơ tìm kiếm thông tin (search engine). Đây là một bộ phận quan trọng của hệ thống Truy xuất Thông tin (Information Retrieval). Động cơ tìm kiếm thông tin giải quyết ba vấn đề cốt lõi là mô hình biểu diễn văn bản, thuật toán tìm kiếm so trùng từ khóa - đối sánh ngữ nghĩa tương ứng với các truy vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới có những động cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những động cơ này như một công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn đã mở rộng bằng phương pháp xử lý của luận án và không đặt mục tiêu nghiên cứu ba vấn đề nêu trên. Vì vậy luận án đã không trình bày ba vấn đề này.

Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội dung của truy vấn nhập nên hoàn toàn không làm ảnh hưởng đến ba khía cạnh nêu trên trong quá trình vận hành của động cơ tìm kiếm ở mục (B). Điều này còn cho thấy phạm vi nghiên cứu của luận án hướng đến bài toán mở rộng truy vấn dựa trên ontology và hoàn toàn khác biệt so với ba khía cạnh đã nêu.

Từ những trình bày trên, các bài toán chính cần giải quyết trong phạm vi luận án bao gồm:

Bài toán 1 - Xây dựng ontology OOMP

Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object- Member-Property) cùng cơ chế huấn luyện dữ liệu. Dựa trên tập tài liệu tiếng Anhf từ nguồn TREC và khai thác dữ liệu từ WordNet để huấn luyện dữ liệu ontology

OOMP nhằm phục vụ yêu cầu của bài toán 2. Nếu bài toán 1 được giải quyết thành

công, một ontology có chất lượng được tạo thành sẽ giúp cung cấp nhiều khả năng chọn lựa cho các thông tin hơn, để bổ sung vào từ khóa ban đầu của người dùng, dẫn đến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài toán này được trình bày chi tiết trong chương 4 của luận án.

Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn

Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có dạng truy vấn hoàn chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngôn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài toán 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi tiết từng phần của những phương pháp giải quyết bài toán này.

Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên không nghiên cứu vấn đề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ nghĩa của cụm từ và câu có ảnh hưởng của ngữ cảnh là vấn đề rất khó và hiện nay cũng đang được nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngoài phạm vi của luận án.

1.3 Đóng góp chính của luận án

Các vấn đề nghiên cứu của luận án đã có một số đóng góp mới về mặt khoa học từ phương pháp luận đến giải pháp thực hiện:

* Đóng góp thứ nhất: đề xuất phương pháp xác định các quan hệ của các

khái niệm bao gồm:

− Quan hệ

− Quan hệ

R m xác định thành phần đặc trưng (member) của đối tượng (object).

R p tính chất đặc trưng (property) của thành phần.

− Các quan hệ xác định tính chất trội R m

và Rp liên quan.

Các phương pháp mà luận án đề xuất không những có thể áp dụng trong phạm vi luận án để giải quyết Bài toán 1 và Bài toán 2 nêu trên mà còn có thể áp dụng trong một số lĩnh vực khác để tạo ontology cho một miền khái niệm (trong lĩnh vực xử lý ngôn ngữ tự nhiên). Ngoài ra, từ góc độ toán học, việc xây dựng các lớp đồng dạng (liên quan đến nhóm các đối tượng, nhóm các thành phần đặc trưngvà nhóm các tính chất đặc trưngg) từ các quan hệ nêu trên sẽ giúp cho việc phân loại đối tượng hiệu quả hơn. Công trình , , và h đã giới thiệu phương pháp xác định các quan hệ cùng định nghĩa của những khái niệm này.

Phần đóng góp này sẽ không thực sự đầy đủ nếu không có các định nghĩa

MQE OB

MQE OB P ,

MQE OB

MQE

OB P IR

cùng khái niệm truy vấn hoàn chỉnh,

cây phân tích và dạng đồ thị ngữ nghĩa do tác giả đề xuất, liên quan đến việc mô hình hóa bài toán mở rộng truy vấn.

* Đóng góp thứ hai: đề xuất mô hình ontology OOMP cùng các phương pháp huấn luyện dữ liệu:

− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có (Corpus-Based

Knowledge Base Training, CB-KBT).

− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có (WordNet- Based Knowledge Base Training, WB-KBT).

− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của ontology từ hai phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base Training, A-KBT).

Ontology OOMP không những được dùng để phục vụ bài toán mở rộng truy vấn mà còn có thể được sử dụng cho những bài toán khác theo hướng khai thác các quan hệ khái niệm. Ngoài ra, từ góc độ ngôn ngữ học, các thành phần của ontology OOMP được phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên. Do đó, việc phát triển ontology trên những ngôn ngữ tự nhiên khác (như tiếng Việt hay Pháp …) tương đối thuận lợi. Nội dung liên quan đến đóng góp này được công bố trong , và .

* Đóng góp thứ ba: đề xuất mô hình xử lý truy vấn (truy vấn tiếng Anh,

dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:

g Tham khảo thêm hình 3.3, trang 59 về các lớp này.

h Tham khảo thêm phần Các công trình khoa học.

− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase

Verification, CNPV)

− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)

− Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE)

Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng trong Bài toán 2, cũng như trong các bài toán khác như:

− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo quan điểm ngôn ngữ học tính toán (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản).

− Hoàn chỉnh và mở rộng cụm danh từ tương đương (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản) ….

Các phương pháp và giải thuật liên quan đến đóng góp này được giới thiệu trong , và .

* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc chỉ mục để lưu trữ thêm thông tin liên quan ngữ nghĩa đến ontology xác định. Đây chính là cầu nối giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuất thông tin. Kết quả thu được từ phương pháp này tạo tiền đề cho nhiều nghiên cứu ứng dụng liên quan đến truy xuất thông tin. Phương pháp này được trình này trong công trình và được phát triển trong và .

Những kết quả đạt được này đồng thời được áp dụng cho công trình và dự định áp dụng cho công trình .

1.4 Cấu trúc của luận án

Luận án được chia thành bảy chương và bảy phụ lục. Chương 1 trình bày mục tiêu, phạm vi và những đóng góp chính của luận án; giới thiệu cấu trúc của luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng nước ngoài. Trong mỗi chương tiếp theo, từ chương 2 đến chương 6 đều có phần giới thiệu và phần tóm lược. Chương 7 là kết luận của luận án.

Chương 2 tổng thuật các nghiên cứu ở trong nước và ngoài nước liên quan đến luận án. Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu về vấn đề mở rộng truy vấn, đặc biệt là hướng kết hợp ontology, những ưu nhược điểm của các phương pháp nghiên cứu hiện nay.

Chương 3 trình bày cơ sở toán học để phát triển mô hình mở rộng truy vấn cùng một số đề xuất về lý thuyết liên quan đến hướng nghiên cứu của luận án. Những đề xuất lý thuyết được trình bày theo từng khái niệm thông qua các định nghĩa, tính chất và ví dụ minh hoạ. Phần khảo sát WordNet được trình bày trong chương này bao gồm cấu trúc tổ chức và các tính năng cũng như ưu khuyết điểm. Việc vận dụng ngôn ngữ học tính toán vào đề xuất mẫu nhận dạng cụm danh từ của tác giả được trình bày chi tiết ở cuối chương để làm nổi bật tập luật sinh của mẫu. Kết quả những đề xuất về các phương pháp đã được công bố trong báo cáo khoa học , , và . Các đề xuất này góp phần tạo cơ sở cho những phương pháp tiếp cận (trình bày ở các chương sau) để giải quyết Bài toán 1 Xây dựng ontology OOMP và Bài toán 2 Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn đề ra trong Luận án. Ngoài ra, chương này còn trình bày phương pháp đánh giá các thực nghiệm của luận án cùng những vấn đề liên quan đến thực nghiệm như xác định nguồn dữ liệu sử dụng, xây dựng tập dữ liệu huấn luyện, xây dựng tập dữ liệu thử nghiệm và các công cụ hỗ trợ thực nghiệm.

Chương 4 trình bày mô hình ontology OOMP cùng các phương pháp huấn luyện dữ liệu. Chương này trình bày về thiết kế tổ chức của ontology dựa trên các quan hệ đã được đề xuất ở chương 3 và phương pháp huấn luyện dữ liệu là CB-KBT thực hiện trên tập dữ liệu TREC cùng phương pháp WB-KBT để rút trích dữ liệu từ WordNet. Các giải thuật này thể hiện phương pháp tiếp cận giải quyết Bài toán 1 trong mục tiêu đề ra của Luận án. Nội dung chương này dựa trên , và .

Chương 5 trình bày hai phần, trong đó phần một giới thiệu các bài toán hỗ trợ để xây dựng cụm danh từ hoàn chỉnh và rút gọn, tạo cơ sở để tiếp cận các phương pháp hoàn chỉnh và mở rộng truy vấn. Phần hai trình bày các phương pháp hoàn chỉnh và rút gọn truy vấn. Phương pháp hoàn chỉnh truy vấn đóng vai trò quan trọng ảnh hưởng tích cực đến vấn đề làm đầy đủ thông tin hơn cho một truy vấn. Còn phương pháp rút gọn truy vấn sẽ góp phần tạo nên một truy vấn cô đọng nhưng vẫn đầy đủ thông tin hơn. Những phương pháp này đã góp phần giải quyết mục tiêu tạo truy vấn hoàn chỉnh của Bài toán 2 nêu trên, đồng thời đã được giới thiệu trong và .

Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp . Trong đó, phương pháp đầu tiên quan tâm đến việc kết hợp ontology OOMP, để bổ sung các thông tin về đối tượng, thành phần cùng thuộc tính đặc trưng vào truy vấn ban đầu. Từ đó, các truy vấn đã được mở rộng có thể tương tác với các động cơ tìm kiếm thông tin có sẵn để khai thác thông tin trên Web. Phương pháp thứ hai thực hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất thông tin có sẵn để tạo chỉ mục hướng ngữ nghĩa từ đó mở rộng tập dữ liệu truy xuất được. Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài toán 2 được giải quyết bởi hai phương pháp này với những kết quả ban đầu được giới thiệu trong và . Ngoài ra và trình bày các phát triển từ hướng tiếp cận chỉ mục hướng ngữ nghĩa để áp dụng cho công trình .

Chương 7 là phần tổng kết, trong đó trình bày tóm lược kết quả luận án và những đề nghị hướng nghiên cứu trong tương lai, liên quan đến luận án. Ngoài những kết quả nêu trong các chương trên đã được trình bày trong công trình , những kết quả bước đầu của hướng nghiên cứu tiếp theo cũng được giới thiệu trong , , , , , và dự định áp dụng cho công trình .

Phần cuối của luận án là các phụ lục. Trong đó, phụ lục A trình bày tóm lược về WordNet. Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh. Phần phụ lục C và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn phạm tiếng Anh dựa trên Penn TreeBank. Phụ lục E tóm lược kiến thức về khái niệm ảnh và tạo ảnh của ánh xạ trong toán học. Phụ lục F giới thiệu cấu trúc định dạng tài liệu trong nguồn tài liệu TREC. Phần cuối là phụ lục G cung cấp sơ đồ minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án.

1.5 Các quy ước

Các khái niệm hay thuật ngữ được sử dụng trong luận án được đồng thời ghi cả bằng tiếng Việt và tiếng Anh (hoặc ký hiệu viết tắt tương ứng nếu có) ở lần liệt kê đầu tiên trong luận án, sau đó chúng sẽ được dùng thống nhất theo một tên gọi tiếng Việt hay tiếng Anh.

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
  • Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Xây dựng hệ thống thống kê và phân tích ...

Upload: tu_vule

📎 Số trang: 81
👁 Lượt xem: 615
Lượt tải: 18

Xây dựng cổng thông tin cá nhân hỗ trợ truy ...

Upload: lehungck

📎
👁 Lượt xem: 472
Lượt tải: 16

Xử lý truy xuất thông tin hỗ trợ việt ngữ

Upload: hieplq

📎 Số trang: 87
👁 Lượt xem: 442
Lượt tải: 16

Câu Lệnh Truy Vấn SQL

Upload: vipsales009

📎 Số trang: 21
👁 Lượt xem: 489
Lượt tải: 17

Nghiên cứu và đánh giá các hệ truy xuất ...

Upload: le_hai_ho

📎
👁 Lượt xem: 487
Lượt tải: 16

Giải pháp mở rộng thông tin ngữ cảnh phiên ...

Upload: tt310502

📎 Số trang: 59
👁 Lượt xem: 436
Lượt tải: 16

Xây dựng một thư viện các hàm mã hoá phục vụ ...

Upload: khanhhalc

📎 Số trang: 74
👁 Lượt xem: 410
Lượt tải: 16

Tìm kiếm mờ và ứng dụng tìm kiếm thông tin ...

Upload: thanhnhanit

📎 Số trang: 76
👁 Lượt xem: 578
Lượt tải: 16

Xây dựng mô hình tìm kiếm thông tin theo ...

Upload: manly217

📎 Số trang: 34
👁 Lượt xem: 409
Lượt tải: 16

Nghiên cứu và đề xuất giải pháp ngăn chặn ...

Upload: ongthitruong

📎 Số trang: 74
👁 Lượt xem: 509
Lượt tải: 17

Phân tích tự ðộng dữ liệu video số hỗ trợ ...

Upload: nvthuong2004

📎 Số trang: 121
👁 Lượt xem: 489
Lượt tải: 16

Phân tích tự ðộng dữ liệu video số hỗ trợ ...

Upload: boybank78

📎 Số trang: 121
👁 Lượt xem: 818
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Xây dựng mô hình mở rộng truy vấn trong truy ...

Upload: connhi02

📎 Số trang: 223
👁 Lượt xem: 655
Lượt tải: 17

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản TÓM TẮT Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn đến kết quả tìm được không đáp ứng đủ nhu cầu mong muốn, hoặc pdf Đăng bởi
5 stars - 298544 reviews
Thông tin tài liệu 223 trang Đăng bởi: connhi02 - 09/11/2025 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 09/11/2025 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản