Tìm tài liệu

Nghien cuu mot so phuong phap khai thac du lieu va ung dung

Nghiên cứu một số phương pháp khai thác dữ liệu và ứng dụng

Upload bởi: dangnguyenanhtuan

Mã tài liệu: 219026

Số trang: 0

Định dạng: zip

Dung lượng file: 1,580 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

GIỚI THIỆU ĐỀ TÀI

I. Mở đầu

Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra bộ nhớ có dung lượng lớn, bộ xử lý

tốc độ cao, các công ty xí nghiệp tạo ra các hệ thống thông tin nhằm tự động hóa các họat động kinh

doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay các giao dịch đơn

giản như một cuộc gọi điện thoại, một lần kiểm tra sức khỏe,. . . đều được ghi vào bộ nhớ máy tính.

Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú đã giúp cho con người khai thác có

hiệu quả các nguồn dữ liệu đó. Mô hình cơ sở dữ liệu quan hệ và ngôn ngữ SQL đã có vai trò hết sức

quan trọng trong việc tổ chức khai thác cơ sở dữ liệu.

Cùng với sự gia tăng không ngừng khối lượng dữ liệu, các hệ thống thông tin cũng được

chuyên môn hóa, phân chia theo tùng lĩnh vực ứng dụng. Như vậy, sự thành công trong kinh doanh

không chỉ phụ thuộc vào chức năng khai thác dữ liệu có tính chất nghiệp vụ, mà còn phụ thuộc vào

tính linh họat và sẵn sàng đáp ứng yêu cầu trong thực tế. Nói cách khác, cơ sở dữ liệu cần đem lại tri

thức hơn chính những dữ liệu đó. Từ khối dữ liệu khổng lồ sẵn có, phải tìm ra các thông tin tiềm ẩn có

giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động

lên chúng, các quyết định chính xác cần phải đưa ra càng nhanh càng tốt. Lúc này, các mô hình cơ sở

dữ liệu truyền thống đã cho thấy không có khả năng thực hiện tốt công việc. Để lấy được các tri thức

trong lượng thông tin khổng lồ đó, cần phải có những công nghệ, những kỹ thuật khác. Đó là Khám

phá tri thức và khai thác dữ liệu (KDD: Knowledge Discovery in Database) - thực hiện quá trình

khám phá tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy được tri thức chính là Khai

thác dữ liệu.

II. Mục đích của khai thác dữ liệu

Theo Fayyad, khai thác dữ liệu là tiến trình tìm kiếm các mẫu mới, có ích, tiềm ẩn trong khối

dữ liệu lớn. Các tri thức chiết xuất được sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường hay

trong nghiên cứu khoa học. Cho nên có thấy mục đích chính của khai thác dữ liệu là mô tả và dự báo.

1. Mô tả (Description ):

Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được. Các

mô hình KTDL càng dễ hiểu càng tốt. Những kết quả từ mô hình KTDL cần phải mô tả trong sáng các

mẫu để biểu diễn và giải thích một cách trực quan. Sự mô tả đạt chất lượng cao thường có thể được

hoàn thành bởi sự phân tích dữ liệu có tính khám phá, đó là một phương pháp đồ thị của việc khám phá

dữ liệu trong việc tìm kiếm các mô hình và khuynh hướng.

2. Dự báo (Prediction ):

Dự báo liên quan đến việc sử dụng các biến hoặc các trường trong CSDL để chiết xuất ra các

mẫu là các dự đoán những giá trị chưa biết hoạc những giá trị trong tương lai của các biến đáng quan

tâm.

III. Những nhiệm vụ chính trong khai thác dữ liệu (KTDL)

1. Phân lớp (Classification):

Phân lớp là việc học một hàm ánh xạ một mấu dữ liệu vào một trong số các lớp đã xác định.

2. Hồi quy (Regression):

Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị

thực.

3. Gom cụm (Clustering):

Là việc mô tả để tìm ra các nhóm dữ liệu, các nhóm này có thể rời nhau, phân cấp hay gối lên

nhau.

4. Tóm tắt (Summarization):

Liên quan đến các phương pháp tìm kiếm một mô tả tóm tắt cho một tập con dữ liệu.

5. Mô hình hóa phụ thuộc (Dependency Modeling):

Tìm kiếm mô hình mô tả sự phụ thuộc giữa các biến.

IV. Các phương pháp khai thác dữ liệu phổ biến:

1. Phương pháp quy nạp (induction):

Cách thức suy ra các thông tin từ cơ sở dữ liệu; Có nghĩa là tìm kiếm, tạo mẫu và sinh ra tri

thức chứ không phải bắt đầu với các tri thức đã biết trước.

2. Cây quyết định (decision tree) và luật (Rule):

Cây quyết định là mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số

lớp nhất định.

Các luật được tạo ra nhằm suy diễn một số mẫu có ý nghĩa về mặt thống kê. Các luật có dạng

“Nếu P thì Q” với P là mệnh đề đúng với một phần trong cơ sở dữ liệu, Q là mềnh đề dự đoán.

3. Phát hiện các luật kết hợp (Association ):

Phương pháp này phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu.

Mẫu đầu ra thuật giải phát hiện luật kết hợp là tập các luật kết hợp tìm được.

Các luật kết hợp thường ở dạng “nếu nguyên nhân (antecedent) thì kết quả (consequent)”, cùng với độ

hỗ trợ (support) và độ tin cậy (confidence) liên quan đến luật.

4. Phân lớp (Classification ):

Xác định một đối tượng vào một trong các lớp đã biết.

5. Gom cụm (Clustering ):

Gom cụm là nhóm các đối tượng tương tự (giống nhau) thành các cụm. Một cụm (cluster) là

một tập các đối tượng tương tự nhau và không giống với các đối tượng trong các nhóm khác. Các

thuật giải gom cụm tìm và phân đoạn toàn bộ tập dữ liệu thành các nhóm hay các nhóm con tương đối

đồng nhất, ở đó sự giống nhau (tương tự) của các đối tượng trong nhóm được chú trọng và không quan

tâm đến sự giống nhau tới các đối tượng bên ngoài.

6. Mạng nơron (Neuron Network)

Mạng neuron là tiếp cận tính toán mối liên quan đến việc phát triển các cấu trúc toán học và

khả năng học. Phương pháp này là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh

con người.

Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể sử dụng để

chiết xuất các mẫu.

7. Thuật giải di truyền (Genetic Algorithm ):

Mô phỏng lại hệ thống tiến hóa trong tự nhiên . Thuật giải chỉ ra các cá thể được hình thành,

được ước lượng và biến đổi như thế nào.Thuật giải di truyền được sử dụng tìm lời giải cho các bài toán

tối ưu.

. . .

V. Nội dung và Phạm vi nghiên cứu:

Trong các phương pháp khai thác dữ liệu phổ biến, đề tài tập trung tìm hiểu, nghiên cứu các

phương pháp sau:

ã Gom cụm dữ liệu:

Trong lĩnh vực gom cụm dữ liệu, các tác giả tìm hiểu, nghiên cứu và hệ thống các thuật giải

gom cụm dữ liệu

ã Phân lớp dữ liệu:

Trong phân lớp dữ liệu, các tác giả tìm hiểu, nghiên cứu công cụ tập thô, tập thô dung sai để

phân lớp dữ liệu.

ã Khai thác luật kết hợp:

Trong lĩnh vực khai thác luật kết hợp, các tác giả tìm hiểu, nghiên cứu và hệ thống các thuật

giải tìm các tập luật, và nghiên cứu phương pháp rút gọn tập luật.

VI. Mục tiêu của đề tài:

ã Hệ thống một số thuật giải gom cụm dữ liệu, khai thác luật kết hợp và cài đặt chương trình

minh họa.

ã Nghiên cứu phân lớp dữ liệu bằng công cụ tập thô.

ã Nghiên cứu khai thác luật kết hợp rút gọn từ dàn.

VII. Cấu trúc trình bày nội dung kết quả nghiên cứu:

Các kết quả chính được trình bày trong báo cáo tổng kết đề tài theo cấu trúc sau:

Phần 1:

Trình bày kết quả báo cáo khoa học “Về một thuật giải phân lớp dữ liệu dựa vào tập thô dung

sai” của tác giả Trần Tuấn Minh, công bố năm 2007 trong Kỷ yếu Hội thảo quốc gia “Một số vấn đề về

Công nghệ thông tin và truyền thông ” lần thứ IX .

Phần 2:

Trình bày kết quả báo cáo khoa học “Thuật toán khai thác luật kết hợp rút gọn từ dàn” của

các tác giả Trương Chí Tín, Trần Ngọc Anh, Trần Tuấn Minh, công bố năm 2007 trong “Thông báo

Khoa học” của trường Đại học Đà Lạt.

Phần 3:

Trình bày báo cáo kỹ thuật về kết quả tìm hiểu lĩnh vực gom cụm dữ liệu và khai thác luật kết

hợp : “ Hệ thống một số thuật giải trong các phương pháp gom cụm dữ liệu, khai thác luật kết hợp và

cài đặt chương trình ứng dụng”.

Phần 4:

Kết luận và kiến nghị

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Khai thác dữ liệu và ứng dụng

Upload: chuyenpa

📎 Số trang: 35
👁 Lượt xem: 798
Lượt tải: 17

Nghiên cứu một số vấn đề về khai thác và tìm ...

Upload: binhminh3769

📎 Số trang: 70
👁 Lượt xem: 444
Lượt tải: 16

Đồ án môn học: khai thác dữ liệu và ứng dụng

Upload: fantasy85222

📎 Số trang: 35
👁 Lượt xem: 406
Lượt tải: 12

Nghiên cứu kỹ thuật khai phá dữ liệu và ứng ...

Upload: onggiakhochiu1980

📎
👁 Lượt xem: 732
Lượt tải: 16

Nghiên cứu một số kỹ thuật nén dữ liệu dựa ...

Upload: nguyenkimbach

📎 Số trang: 53
👁 Lượt xem: 568
Lượt tải: 16

Nghiên cứu một số kỹ thuật nén dữ liệu dựa ...

Upload: quythinhypvn

📎 Số trang: 53
👁 Lượt xem: 549
Lượt tải: 16

Một số phương pháp khai phá dữ liệu quan hệ ...

Upload: vanquangks

📎 Số trang: 43
👁 Lượt xem: 567
Lượt tải: 16

Một số phương pháp khai phá dữ liệu quan hệ ...

Upload: tuanvuduceco

📎 Số trang: 43
👁 Lượt xem: 557
Lượt tải: 16

Nghiên cứu xây dựng cơ sở dữ liệu hình ảnh ...

Upload: bacdoanvan

📎 Số trang: 91
👁 Lượt xem: 622
Lượt tải: 16

Tìm hiểu một số phương pháp trích chọn đặc ...

Upload: vangtrangcodon517

📎 Số trang: 54
👁 Lượt xem: 484
Lượt tải: 16

Nghiên cứu các phương pháp mã hoá giấu tin ...

Upload: toanleminh

📎 Số trang: 99
👁 Lượt xem: 475
Lượt tải: 16

Nghiên cứu phương pháp phát hiện đối tượng ...

Upload: sozana_ht

📎 Số trang: 87
👁 Lượt xem: 581
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Nghiên cứu một số phương pháp khai thác dữ ...

Upload: dangnguyenanhtuan

📎 Số trang: 0
👁 Lượt xem: 526
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Nghiên cứu một số phương pháp khai thác dữ liệu và ứng dụng GIỚI THIỆU ĐỀ TÀI I. Mở đầu Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao, các công ty xí nghiệp tạo ra các hệ thống thông tin nhằm tự động hóa các họat động kinh doanh của mình. Điều này đã zip Đăng bởi
5 stars - 219026 reviews
Thông tin tài liệu 0 trang Đăng bởi: dangnguyenanhtuan - 01/05/2025 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 01/05/2025 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Nghiên cứu một số phương pháp khai thác dữ liệu và ứng dụng