Mã tài liệu: 243765
Số trang: 82
Định dạng: rar
Dung lượng file: 1,452 Kb
Chuyên mục: Kỹ thuật - Công nghệ
MỤC LỤC
TỔNG QUAN ĐỀ TÀI 1
I. GIỚI THIỆU CHUNG VỀ VẤN ĐỀ NGHIÊN CỨU 1
I.1. Lịch sử phát triển. 1
I.2. Giới thiệu về các máy tìm kiếm thông dụng. 2
I.2.1. Thế giới 2
I.2.2. Việt Nam 3
II. LÝ DO CHỌN ĐỀ TÀI. 4
II.1. Mục tiêu và ý nghĩa của đề tài 4
II.2. Nhiệm vụ cần phải thực hiện. 5
II.2.1. Xây dựng chức năng. 5
II.2.2. Xây dựng ứng dụng web. 6
II.3. Hướng nghiên cứu của đề tài 6
II.3.1. Về mặt lý thuyết 6
II.3.2. Công cụ xây dựng đề tài 6
II.3.3. Dự kiến kết quả đạt được. 7
CƠ SỞ LÝ THUYẾT 8
I. LÝ THUYẾT LIÊN QUAN ĐẾN ĐỀ TÀI. 8
I.1. Tổng quan hệ thống máy tìm kiếm 8
I.1.1. Giới thiệu. 8
I.1.2. Bộ thu thập tài liệu-Crawler. 10
I.1.3. Bộ lập chỉ mục-Indexer. 15
I.1.4. Ứng dụng tìm kiếm-Searcher. 17
I.2. Lucene-Mã nguồn mở cho máy tìm kiếm 18
I.2.1. Giới thiệu chung. 18
I.2.2. Các bước thực hiện. 21
I.2.3. Các lớp chính. 22
II. VẤN ĐỀ CẦN NGHIÊN CỨU 23
II.1. HyperText Transfer Protocol 23
II.1.1. Định dạng địa chỉ (Internet addressing) 23
II.2. Lập trình đa luồng trong java. 27
II.2.1. Thread là gì?. 27
II.2.2. Thread trong ngôn ngữ Java. 27
II.3. Phân tích HTML 29
II.3.1. Bốn thành phần cơ bản của Html 29
II.3.2. Thành phần mà crawler phân tích. 31
II.3.3. Vấn đề cần xử lý. 33
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 37
I. PHÂN TÍCH HỆ THỐNG 37
I.1. Gói crawler 38
I.1.1. Use-case quản lý các liên kết 39
I.1.2. Usecase quản lý thiết lập các tùy chọn. 46
I.2. Gói reader 47
I.3. Gói indexer 48
I.4. Gói searcher và ứng dụng web. 49
II. THIẾT KẾ HỆ THỐNG 50
II.1. Tổng thể chương trình. 50
II.1.1. Gói crawler. 52
II.1.2. Gói reader. 53
II.1.3. Gói indexer. 55
II.2. Xây dựng các chức năng. 55
II.2.1. Chức năng xác nhận cho phép đánh chỉ mục. 55
II.2.2. Chức năng tải tài liệu về máy. 57
II.2.3. Tạo công việc mới 58
II.2.4. Lưu công việc dở dang. 59
II.2.5. Thực hiện các công việc cũ. 59
II.2.6. Chức năng truy xuất liên kết 59
II.3. Tổ chức dữ liệu. 62
II.3.1. Lớp URLRootBean. 62
II.3.2. Lớp LinkBean. 63
II.3.3. Lớp ParentDirBean. 64
CÀI ĐẶT VÀ TRIỂN KHAI CHƯƠNG TRÌNH 66
I. CÀI ĐẶT CHƯƠNG TRÌNH 66
II. KẾT QUẢ THỰC HIỆN 68
II.1. Màn hình chính của chương trình. 68
II.2. Màn hình hệ thống crawler đang vận hành. 68
II.3. Màn hình xử lý các công việc cũ. 70
KẾT QUẢ THỬ NGHIỆM . 71
I. DỮ LIỆU THỬ NGHIỆM . 71
II. KẾT QUẢ THỬ NGHIỆM . 71
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 74
I. KẾT QUẢ ĐẠT ĐƯỢC 74
I.1. Về mặt lý thuyết 74
I.2. Về mặt thực nghiệm 74
I.2.1. Ưu điểm 74
I.2.2. Khuyết điểm 74
II. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI. 75
PHỤ LỤC 76
TÓM TẮT ĐỀ TÀI
7
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 63
👁 Lượt xem: 354
⬇ Lượt tải: 16
📎 Số trang: 33
👁 Lượt xem: 540
⬇ Lượt tải: 16
📎 Số trang: 9
👁 Lượt xem: 653
⬇ Lượt tải: 17
📎 Số trang: 34
👁 Lượt xem: 405
⬇ Lượt tải: 16
📎 Số trang: 55
👁 Lượt xem: 680
⬇ Lượt tải: 16
📎 Số trang: 166
👁 Lượt xem: 490
⬇ Lượt tải: 16
📎 Số trang: 166
👁 Lượt xem: 493
⬇ Lượt tải: 16
📎 Số trang: 28
👁 Lượt xem: 615
⬇ Lượt tải: 16
📎 Số trang: 68
👁 Lượt xem: 539
⬇ Lượt tải: 16
📎 Số trang: 20
👁 Lượt xem: 398
⬇ Lượt tải: 18
Những tài liệu bạn đã xem
📎 Số trang: 82
👁 Lượt xem: 576
⬇ Lượt tải: 16