Mã tài liệu: 260114
Số trang: 78
Định dạng: pdf
Dung lượng file: 708 Kb
Chuyên mục: Tổng hợp
?Mục lục
Phần mở đầu . . 3
Chương 1. Tổng quan về tìm kiếm thông tin trên web . . 5
1.1 Giới thiệu về tìm kiếm thông tin . .5
1.2 Bài toán tìm kiếm thông tin . .5
1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin . .9
1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời . .10
1.3 Mô hình biểu diễn thông tin của văn bản . 11
1.3.1 Mô hình biểu diễn thông tin theo từ khoá . .12
1.3.2 Mô hình biểu diễn thông tin theo nội dung . .14
1.4 Phân tích cú pháp và ngữ nghĩa . 15
1.5 Phân lớp văn bản . .15
1.6 Phân cụm văn bản . 15
1.7 Khai thác thông tin cấu trúc web . .16
1.8 Khai thác thông tin sử dụng web . .16
Chương 2. phương pháp biểu diễn trang web theo ngữ nghĩa lân cận
siêu liên kết . . 18
2.1 Giới thiệu . .18
2.2 Phương pháp đánh giá chất lượng độ đo tương tự . .19
2.2.1 Chọn phương pháp đánh giá . .19
2.2.2 Xác định thứ tự nền trong ODP . .20
2.2.3 So sánh sự tương quan giữa các tập thứ tự . .23
2.2.4 Miền của tập thứ tự . 24
2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản . .26
2.3.1 Vector biểu diễn thông tin văn bản . 27
2.3.2 Lựa chọn từ khoá biểu diễn . .27
2.3.3 Lược bớt từ khoá . .28
2.3.4 Xác định trọng số của từ khoá . .29
2.4 Định nghĩa độ đo tương tự . .30
2.5 Đánh giá chất lượng xếp hạng đối với mỗi phương pháp xây dựng vector
31
2.5.1 Đánh giá chất lượng đối với cách chọn từ khoá . .32
2.5.2 Đánh giá chất lượng đối với cách chuẩn hoá trọng số từ khoá . 39
2.5.3 Đánh giá chất lượng đối với phương pháp lược bớt từ khoá . .42
2.6 Các thuật toán tìm kiếm theo mô hình vector . 42
Chương 3. máy tìm kiếm vietseek và thử nghiệm Thuật toán tìm kiếm
theo ngữ nghĩa lân cận siêu liên kết . 45
3.1 Máy tìm kiếm VietSeek . 45
3.1.1 Các đặc điểm cơ bản của Vietseek . 45
3.1.2 Cơ sở dữ liệu của Vietseek . 46
3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek . 49
3.2.1 Những cơ sở để đề xuất thuật toán . 49
3.2.2 Các thuật toán áp dụng cho máy tìm kiếm VietSeek . 53
3.2.3 Kết quả thực hiện . 62
Phần kết luận . . 67
Tài liệu tham khảo . 69
Phụ lục . . 72
?Phần mở đầu
Cùng với sự phát triển mạnh mẽ của Internet là một khối lượng khổng lồ dữ liệu
được phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở
dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách
chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm
kiếm theo từ khoá (cụm từ khoá) như Yahoo, Google . Tuy nhiên việc tìm kiếm theo
từ khoá vẫn chưa đủ để giúp người sử dụng nhanh chóng tìm được trang Web cần thiết
vì số lượng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì
vậy các hệ thống tìm kiếm cần được cải tiến để ngày càng thông minh hơn. Xuất hiện
những hệ hướng tới mục tiêu cụ thể như tra cứu thông tin về các chủ đề y tế, giáo dục,
luật pháp, âm nhạc . Tuy vậy, việc nghiên cứu các giải pháp tìm được các trang thông
tin theo một nội dung nào đó sát với yêu cầu người sử dụng vẫn còn nhiều hạn chế. Đã
có nhiều mô hình tìm kiếm được đề xuất, song những mô hình lý tưởng về mặt lý
thuyết thì lại chưa có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, người ta
tìm cách cải tiến các phương pháp có sẵn để áp dụng trong thực tế. Luận văn này hướng
tới việc nghiên cứu, phân tích, đánh giá một số thuật toán tìm kiếm theo nội dung, từ
đó đề xuất phương án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung
cũng như về tốc độ.
Từ việc tìm hiểu, đánh giá và phân tích ưu, nhược điểm của các phương pháp tiếp
cận khác nhau, dựa theo mục tiêu nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải
pháp thực hiện “Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm
kiếm VietSeek”.
Nội dung của luận văn được định hướng vào các vấn đề sau:
1. Mô hình toán học biểu diễn trang văn bản Web,
4
2. Khái quát các phương pháp tiếp cận trong tìm kiếm trang Web có nội dung
tương tự. Đánh giá ưu điểm và nhược điểm của mỗi phương pháp được
khảo sát.
3. Đề xuất phương pháp kết hợp để nâng cao hiệu quả trong tìm kiếm trang
Web có nội dung tương tự
Luận văn bao gồm Phần mở đầu, ba chương nội dung và Phần kết luận với nội
dung các chương được trình bày như dưới đây.
Chương 1 với tiêu đề là Tổng quan về các phương pháp biểu diễn và tìm kiếm
thông tin trên web giới thiệu khái quát về các phương pháp biểu diễn và tìm kiếm trên
web.
Tiêu đề của chương 2 là Phương pháp biểu diễn trang web theo ngữ nghĩa lân
cận siêu liên kết. Chương này trình bày cơ sở, nội dung của phương pháp được đề xuất
và đánh giá phương pháp được đề xuất với các phương pháp khác. Luận văn cũng trình
bày chi tiết các lựa chọn được đề xuất trong mỗi bước của phương pháp, từ đó chọn ra
giải pháp tốt nhất.
Chương 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ
nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết
kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở
biểu diễn trang web do luận văn đề xuất. Chương này cũng đề xuất những cải tiến khi
áp dụng vào thực tế để nâng cao hiệu suất thực hiện của phương pháp biểu diễn.
Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn và chỉ ra
một số hạn chế của luận văn. Đồng thời luận văn đề xuất một số hướng nghiên cứu cụ
thể tiếp theo của luận văn.
Phần phụ lục bổ sung một số thông tin chi tiết về việc áp dụng thuật toán cho
máy tìm kiếm VietSeek như sơ đồ khối một số module cần bổ sung chức năng, những
lệnh bổ sung vào cơ sở dữ liệu của VietSeek
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 90
👁 Lượt xem: 468
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 530
⬇ Lượt tải: 16
📎 Số trang: 114
👁 Lượt xem: 504
⬇ Lượt tải: 16
📎 Số trang: 56
👁 Lượt xem: 523
⬇ Lượt tải: 16
📎 Số trang: 18
👁 Lượt xem: 416
⬇ Lượt tải: 16
📎 Số trang: 1
👁 Lượt xem: 479
⬇ Lượt tải: 16
📎 Số trang: 33
👁 Lượt xem: 329
⬇ Lượt tải: 16
📎 Số trang: 87
👁 Lượt xem: 611
⬇ Lượt tải: 16
📎 Số trang: 81
👁 Lượt xem: 350
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 78
👁 Lượt xem: 531
⬇ Lượt tải: 16