Mã tài liệu: 256241
Số trang: 93
Định dạng: doc
Dung lượng file: 2,284 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website
Số trang: 102
MỤC LỤC
1 Giới thiệu
2 Tìm hiểu và phân tích sơ bộ
2.1 Tìm hiểu các kiến thức tổng quan
2.1.1 World Wide Web
2.1.2 Web Crawler
2.1.3 Web Scraper
2.1.4 Phân loại Web
2.2 Phân tích sơ bộ
3 Các kiến thức nền tảng và các công nghệ liên quan
3.1 HTML
3.2 XML
3.3 XHTML
3.3.1 Tính chuẩn của một tài liệu XML (well-formed)
3.3.2 Tên các phần tử và tên các thuộc tính của phần tử phải ở dạng chữ in thường
3.3.3 Các thẻ không rỗng bắt buộc phải có thẻ đóng
3.3.4 Các thuộc tính luôn phải ghi rõ giá trị
3.3.5 Các phần tử rỗng
3.4 XPath
3.4.1 Cú pháp và ngữ nghĩa
3.4.2 Axis specifier
3.4.3 Node test
3.4.4 Predicate
3.4.5 Các hàm và toán tử
3.5 Các công nghệ và thư viện hỗ trợ khác
3.5.1 HTML Tidy
3.5.2 cURL
4 Phân tích
4.1 Một ví dụ tổng quát của bài toán thu thập dữ liệu
4.2 Phân loại các trang Web dựa vào cách thức chuyển trang
4.3 Phân tích và các giải pháp
5 Thiết kế
5.1 Sơ đồ Use Case
5.2 Kiến trúc tổng quan
5.3 Thành phần FRONT
5.3.1 Mô hình MVC
5.3.2 Bot Manager
5.4 Thành phần CORE
5.4.1 Crawler
5.4.2 Extractor
5.4.3 Các Helper
6 Hiện thực
6.1 Môi trường phát triển ứng dụng
6.2 Giao diện sử dụng của WDE
6.3 Đặc tả dữ liệu đầu vào bằng XML
6.3.1 Đặc tả thông tin chung cho Bot
6.3.2 Đặc tả các trang
6.3.3 Đặc tả bảng cơ sở dữ liệu
6.4 Cấu trúc cơ sở dữ liệu
6.4.1 Danh sách các bảng
6.4.2 Chi tiết các bảng
6.5 Front
6.5.1 Bot Manager
6.6 Core
6.6.1 Robot
6.6.2 Crawler
6.6.3 Extractor
7 Sử dụng và đánh giá
7.1 Các bước cơ bản để sử dụng ứng dụng
7.1.1 Xác định trang web cần thu thập dữ liệu
7.1.2 Xác định kiểu lấy dữ liệu (crawler engine) cho Robot
7.1.3 Xác định các tùy chọn cho Robot
7.1.4 Xây dựng cấu hình cụ thể cho từng trang con
7.1.5 Xác định cấu trúc cơ sở dữ liệu lưu trữ:
7.2 Các ví dụ cụ thể từ đơn giản đến phức tạp
8 Đánh giá chung
8.1 Các kết quả đạt được
8.2 Các hạn chế của ứng dụng
8.3 Hướng phát triển
9 Tổng kết
10 Tài liệu tham khả
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 66
👁 Lượt xem: 612
⬇ Lượt tải: 16
📎 Số trang: 92
👁 Lượt xem: 564
⬇ Lượt tải: 16
📎 Số trang: 117
👁 Lượt xem: 662
⬇ Lượt tải: 16
📎 Số trang: 97
👁 Lượt xem: 536
⬇ Lượt tải: 17
📎 Số trang: 97
👁 Lượt xem: 911
⬇ Lượt tải: 16
📎 Số trang: 65
👁 Lượt xem: 547
⬇ Lượt tải: 16
📎 Số trang: 78
👁 Lượt xem: 806
⬇ Lượt tải: 19
Những tài liệu bạn đã xem
📎 Số trang: 93
👁 Lượt xem: 850
⬇ Lượt tải: 18