Nghien cuu mot so ky thuat lay tin tu dong tren internet

Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

Upload bởi: luantin3

Mã tài liệu: 297014

Số trang: 72

Định dạng: pdf

Dung lượng file: 1,192 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Đến trang tải tài liệu này

Info

MỞ ĐẦU

Sự phát triển nhanh chóng của mạng Internet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Các tài liệu siêu văn bản chứa đựng văn bản và thường nhúng các liên kết đến các tài liệu khác phân bố trên Web. Ngày nay, Web bao gồm hàng tỉ tài liệu của hàng triệu tác giả được tạo ra và được phân tán qua hàng triệu máy tính được kết nối qua đường dây điện thoại, cáp quang, sóng radio... Web đang ngày càng được sử dụng phổ biến trong nhiều lĩnh vực như báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, các tổ chức thương mại, chính phủ ... Chính vì vậy lĩnh vực Web mining hay tìm kiếm tự động các thông tin phù hợp và có giá trị trên Web là một chủ đề quan trọng trong Data Mining và là vấn đề quan trọng của mỗi đơn vị, tổ chức có nhu cầu thu thập và tìm kiếm thông tin trên Internet .

Các hệ thống tìm kiếm thông tin hay nói ngắn gọn là các máy tìm kiếm Web thông thường trả lại một danh sách các tài liệu được phân hạng mà người dùng sẽ phải tốn công chọn lọc trong một danh sách rất dài để có được những tài liệu phù hợp. Ngoài ra các thông tin đó thường rất phong phú, đa dạng và liên quan đến nhiều đối tượng khác nhau. Điều này tạo nên sự nhập nhằng gây khó khăn cho người sự dụng trong việc lấy được các thông tin cần thiết.

Có nhiều hướng tiếp cận khác nhau để giải quyết vấn đề này, các hướng này thường chú ý giảm sự nhập nhằng bằng các phương pháp lọc hay thêm các tùy chọn để cắt bớt thông tin và hướng biểu diễn các thông tin trả về bởi các máy tìm kiếm thành từng cụm để cho người dùng có thể dễ dàng tìm được thông tin mà họ cần. Đã có nhiều thuật toán phân cụm tài liệu dựa trên phân cụm ngoại tuyến toàn bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu của các máy tìm kiếm là quá lớn và luôn thay đổi để có thể phân cụm ngoại tuyến. Dođó, việc phân cụm phải được ứng dụng trên tập các tài liệu nhỏ hơn được trả về từ các truy vấn và thay vì trả về một danh sách rất dài các thông tin gây nhập nhằng cho người sử dụng cần có một phương pháp tổ chức lại các kết quả tìm kiếm một cách hợp lý.

Do những vấn đề cấp thiết được đề cập ở trên nên em chọn đề tài: "Nghiên cứu một số kỹ thuật lấy tin tự động trên internet"

Mục tiêu của đề tài: Nghiên cứu xây dựng giải pháp phát triển hệ thống phần mềm thu thập, đánh giá và phân cụm thông tin tự động trên Internet phục vụ cho việc nghiên cứu, học tập, giảng dạy.

Ngoài phần mở đầu, phần kết luận, mục lục, tài liệu tham khảo, phụ lục, luận văn gồm 3 chương:

- Chương 1: Khái quát về khai phá dữ liệu và phân cụm tài liệu Web

Giới thiệu một số khái niệm cơ bản về khai phá dữ liệu, khai phá dữ liệu web, các hướng tiếp cận, ứng dụng của khai phá dữ liệu, và nêu bài toàn phân cụm tài liệu Web.

- Chương 2: Một số thuật toán phân cụm tài liệu

Nghiên cứu một số kỹ thuật phân cụm tài liệu liên quan, tư tưởng của các thuật toán đã được nghiên cứu, nghiên cứu đề xuất phương pháp cải tiến.

- Chương 3: Ứng dụng trong lấy tin tự động

Ứng dụng xây dựng bài toán Thu thập dữ liệu về Kinh tế trên Internet.

Để hoàn thành được luận văn Cao học, em xin được gửi lời cảm ơn tới các thầy trong Viện Công nghệ thông tin, các thầy trong Khoa Công nghệ thông tin đã tận tình giảng dạy, cung cấp nguồn kiến thức quý giá trong suốt quá trình học tập.

Đặc biệt em xin chân thành cảm ơn TS. Phạm Việt Bình, đã tận tìnhhướng dẫn, góp ý, tạo điều kiện cho em hoàn thành luận văn này.

Xin chân thành cảm ơn các thầy cô, anh chị em đang công tác tại phòng VRLAB - Viện công nghệ thông tin - Viện khoa học và Công nghệ Việt Nam, các thầy cô đang công tác tại Viện Công nghệ thông tin - Viện khoa học và Công nghệ Việt Nam.

Cảm ơn đồng nghiệp Đỗ Văn Đại đã cung cấp những tài liệu, cùng những kinh nghiệm quý báu đã được làm trong cuốn Đồ án tốt nghiệp đại học của đồng nghiệp Đỗ Văn Đại giúp cho em trong quá trình nghiên cứu giảm bớt được những khó khăn trong việc tiếp cận vấn đề và nghiên cứu tài liệu.

Xin được cảm ơn Ban lãnh đạo Khoa Công nghệ thông tin - Đại học Thái Nguyên, lãnh đạo phòng Công nghệ thông tin - Thư viện, cùng toàn thể các đồng nghiệp trong Khoa Công nghệ thông tin - Đại học Thái Nguyên đã giúp đỡ em về thời gian, vật chất và tinh thần giúp em hoàn thành tốt nhiệm vụ học tập, công tác.

PHẦN KẾT LUẬN

Tầm quan trọng của vấn đề lấy tin tự động trên Internet

Với sự phát triển nhanh chóng của Internet như ngày nay, thì mỗi ngày, tuần, tháng, quý, năm... mỗi con người chúng ta phải xử lý hàng trăm, triệu, tỷ... thông tin, dữ liệu khác nhau, điều này có nghĩa là chúng ta đã gặp phải những rắc rối không mong muốn trong thời đại công nghệ số này. Vì vậy, bài toán tìm kiếm tài liệu Web và phân cụm tài liệu là một bài toán phức tạp và được ứng dụng trong thực tế, đặc biệt trong các ứng dụng Web. Trên cơ sở những dữ liệu thu thập được từ internet thì chúng ta cần phải tiến hành phân loại, nhóm phân cụm thành các cụm khác nhau theo các chủ đề khác nhau từ đó phục vụ cho việc phân tích dữ liệu và dự báo kinh tế .

Hiện nay, có nhiều phương pháp tìm kiếm khác nhau, nhưng nhìn chung là các cách tiếp cận đều dựa vào các trọng số trang Web (Chỉ số quan trọng của trang trong tập kết quả), như: Page Bank, HITS...Tức là các trang này chủ yếu là dựa vào các liên kết để xác định trọng số .

Mặt khác, chúng ta có thể dựa vào nội dung các tài liệu để xác định trọng số, nếu các tài liệu gần nhau về nội dung thì gán cho chúng một trọng số và khi đó chúng thuộc cùng một nhóm.

Các vấn đề đã được tìm hiểu trong luận văn

Luận văn đã nêu vấn đề cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm và đã cài đặt thử nghiệm trên các bộ cơ sở dữ liệu, cho kết quả bước đầu khá khả quan.

Hướng nghiên cứu tiếp theo

Tiếp tục nghiên cứu các kỹ thuật phân cụm dữ liệu, trong đó nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng được các yêu cầu của bài toán phân cụm tài liệu Web.

Đề xuất ra giải pháp xây dựng quy trình công nghệ và phát triển hệ thống phần mềm thu thập, đánh giá và phân cụm thông tin tự động trên Internet phục vụ cho việc nghiên cứu, học tập và giảng dạy ngành Hệ thống thông tin Kinh tế, và phục vụ cho việc phân tích, tổng hợp, xử lý dữ liệu và dự báo phát triển kinh tế xã hội của khu vực trung du và miền núi phía Bắc.