Tìm tài liệu

Phuong phap loc thu rac dua tren noi dung

Phương pháp lọc thư rác dựa trên nội dung

Upload bởi: chuyentinhabc

Mã tài liệu: 243885

Số trang: 53

Định dạng: pdf

Dung lượng file: 791 Kb

Chuyên mục: Tổng hợp

Đến trang tải tài liệu này

Info

Tóm tắt nội dung khóa luận

Khóa luận trình bày một số nội dung cơ bản nhất về thư rác (khái niệm, tác hại, các

hình thức phát tán thư rác .), tập trung định hướng tới các phương pháp lọc thư rác, đặc

biệt là phương pháp lọc dựa trên nội dung.

Trong các phương pháp lọc theo nội dung, khóa luận quan tâm mô tả, phân tích hệ

thống hệ thống Email Classification Using Examples (ECUE), một phương pháp lọc spam

dựa trên nội dung do Delany và Cunningham đề xuất năm 2004 . Khóa luận mô tả kiến

trúc của CBR và Kiến trúc hệ thống ECUE. Hệ thống ECUE có khả năng giải quyết được

vấn đề concept drift, hệ thống được Xây dựng dựa trên phương pháp Case-Based

Reasoning (CBR) với việc coi các email là các case, tập các case đã được phân lớp

spam, non-spam được sử dụng làm tập dữ liệu huấn luyện gọi là case-base. Để giải quyết

vấn đề concept drift ECUE có hai thành phần chính là: Case-base Editing và case-base

update policy . Phần cuối cùng của khóa luận trình bày về kết quả thực nghiệm tiến

hành trên hệ thống lọc thư rác sử dụng thuật toán Bayes theo chương trình Spambayes.

Mở đầu

Một trong những dịch vụ mà Internet mang lại đó là dịch vụ thư điện tử, đó là

phương tiện giao tiếp rất đơn giản, tiện lợi, rẻ và hiệu quả giữa mọi người trong cộng

đồng sử dụng dịch vụ Internet. Tuy nhiên chính vì những lợi ích của dịch vụ thư Điện tử

mang lại mà số lượng thư trao đổi trên Internet ngày càng tăng, và một số không nhỏ

trong số đó là thư rác (spam). Thư rác thường được gửi với số lượng rất lớn, không được

người dùng mong đợi, thường với mục đích quảng cáo, đính kèm virus, gây phiền toái

khó chịu cho người dùng, làm giảm tốc độ truyền internet và tốc độ xử lý của email

server, gây thiệt hại rất lớn về kinh tế.

Đã có rất nhều phương pháp đưa ra để giảm số lượng thư rác. Như việc đưa ra các

luật lệ để hạn chế việc gửi thư rác, đưa ra các phương pháp kĩ thuật lọc thư rác như: lọc

dựa trên địa chỉ IP (whitelist, balacklist), lọc dựa trên danh tính người gửi, lọc dựa trên

chuỗi hỏi đáp, phương pháp lọc dựa trên mạng xã hội, và phương pháp lọc nội

dung Mỗi phương pháp đều có ưu nhược điểm riêng, không có phương pháp nào là

hoàn hảo vì vậy để có bộ lọc thư rác tốt cần phải kết hợp các phương pháp với nhau.

Trong các phương pháp lọc thư rác phương pháp lọc dựa trên nội dung hiện đang được

quan tâm nhiều, và được đánh giá là có triển vọng đưa ra kết quả cao. Phương pháp lọc

nội dung dựa trên việc phân tích nội dung của email để phân biệt spam email và nonspam

email.

Tuy đã có nhiều biện pháp ngăn chặn thư rác nhưng số lượng thư rác vẫn càng

ngày càng nhiều, tác hại gây ra càng lớn, cấu trúc nội dung của thư càng ngày càng thay

đổi tinh vi hơn để vượt qua các bộ lọc vì vậy cần có một hệ thống lọc có khả năng giải

quyết được vấn đề thư rác ngày càng tăng, nội dung, cấu trúc của thư ngày càng phức tạp

tinh vi hơn (concept drift).

Đã có nhiều hệ thống học máy lọc thư rác sử dụng các thuật toán Naïve bayes,

phân lớp dựa trên thống kê (Lewis and Ringuette 1994, Lewis 1998), Support Vector

Machines (Joachims 1998, Dumais et al. 1998) các phương pháp này đều cho kết quả lọc

khá tốt. Tuy nhiên các mô hình này chưa giải quyết được vấn đề concept drift . Một

mô hình mới đã được Delany(2006) đề xuất, dựa trên hệ thống học máy sử dụng phương

pháp Case-Based Reasoning (CBR)(Riesbeck and Shank 1989) có khả năng giải

quyết được concept drift. Phương pháp CBR, sử dụng các vấn đề trước đây đã được giải

quyết để đưa ra giải pháp cho vấn đề mới. Các vấn đề đã được giải quyết được lưu vào tập

dữ liệu dùng để huấn luyện gọi là case-base. Các case được biểu diễn dưới dạng véc tơ n

chiều, mỗi thành phần là một token đã được trích chọn từ việc phân tích cú pháp, phân

tích từ tố của tài liệu (email). Các vector cũng chứa thêm một thành phần nữa chỉ lớp mà

tài liệu đó được phân (nonspam, spam).

Trong việc ứng dụng CBR để lọc thư rác có hai vấn đề chính là: làm thế nào để

quản lý được tập dữ liệu huấn luyện(case-base), chứa một số lượng lớn email của người

dùng. Thứ hai là làm thế nào để điều khiển được vấn đề concept drift. Để quản lý được dữ

liệu huấn luyện CBR áp dụng các luật để điều chỉnh case-base(case-base Editing), nhằm

đưa ra tập case-base chứa các case có khả năng dự đoán cao nhất cho việc phân lớp case

mới. Để giải quyết được concept drift CBR thực hiện việc lựa chọn lại các đặc trưng và

case mới tốt nhất cho việc xác định lớp cho case mới.

Trong khóa luận này tôi xin trình bày hướng tiệp cận của Email Classification

Using Example (ECUE)(Delany, Cunningham, 2004), phương pháp học máy lọc thư rác

dựa trên CBR. Trong ECUE có hai phần chính cần quan tâm là: Công nghệ sử dụng cho

Case-base Editing là Competence Based Editing(CBE)(Smyth và McKenna 1998); và

Case-base update policity. CBE có hai chức năng chính là loại bỏ case nhiễu và case dư

thừa, việc loại bỏ case nhiễu áp dụng thuật toán Blame Based Noise Reduction (BBNR),

việc loại bỏ case dư thừa áp dụng thuật toán Conservative Redundancy Reduction

(CRR)(Riesbeck and Shank 1989) . Case-base update policy thực hiện việc đưa các

case đã được phân lớp là spam, nonspam vào case-base để đưa dự đoán lớp cho case tiếp

theo, trong trường hợp cho case học lại, case-base update policy thực hiện lựa chọn lại các

đặc trưng để tìm ra đặc trưng có ích trong việc dự đoán lớp cho case mới.

Mở đầu .2

Chương 1 THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC. 4

1.1 Một số khái niệm cơ bản . .4

1.1.1 Định nghĩa thư rác 4

1.1.2 Phân loại thư rác .5

1.1.3 Tác hại thư rác 6

1.2 Các phương pháp lọc thư rác 7

1.2.1 Lọc thư rác thông qua việc đưa ra luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác .7

1.2.2 Lọc thư rác dựa trên địa chỉ IP .8

1.2.3 Lọc dựa trên chuỗi hỏi/đáp (Challenge/Response filters) 9

1.2.4 Phương pháp lọc dựa trên mạng xã hội . .9

1.2.5 Phương pháp định danh người gửi . 10

1.2.6 Phương pháp lọc nội dung 12

Chương 2 CASE-BASE REASONING 17

2.1 Case-based Reasoning . .17

2.1.1 Biểu diễn Case 19

2.1.2 Case Retrieval 20

2.1.3 Reuse 22

2.1.4 Revision và Retension . .23

2.1.5 Những ưu điểm của CBR . 23

2.1.6 Ứng dụng phương pháp CBR vào việc phân lớp Văn bản (Textual CBR) .23

2.2 Case-base Editing .24

Chương 3 EMAIL CLASSIFICATION USING EXAMPLE 27

3.1 Mô hình thiết kế Case-base áp dụng trong hệ thống ECUE 27

3.1.1 Trích chọn đặc trưng 27

3.1.2 Biểu diễn đặc trưng 28

3.1.3 Lựa chọn các đặc trưng 29

3.1.4 Phân lớp dựa trên thuật toán k-Nearest Neighbour(k-NN) 31

3.1.5 Case Retrieval: .31

3.2 Case-Base Maintenance .31

3.3 Competence Based Editing . .32

3.3.1 Thuật toán Blame Based Noise Reduction 32

3.3.2 Conservative Redundancy Reduction 34

3.4 Mô hình thiết kế ECUE online 34

3.4.1 Cấu trúc của hệ thống . 34

3.4.2 Tương tác với người dùng . .36

53

3.4.3 Theo dõi Emails .37

3.5 Mô hình thiết kế ở mức cao . 38

3.5.1 Mô hình thiết kế tầng Technical Architecture 38

3.5.2 Mô hình thiết kế tần Application Architecture 39

3.6 Đánh giá kết quả lọc của hệ thống ECUE 42

3.6.1 Kết quả so sánh về mức độ lọc chính xác của hệ thống ECUE khi sử dụng thuật toán

BBRN và thuật toán RENN(Delany, 2006) 42

3.6.2 Kết quả đánh giá hoạt động của hệ thống ECUE online 44

Chương 4 THỰC NGHIỆM 46

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Lọc Particle dựa trên màu ứng dụng vào hệ ...

Upload: lamlaicuocdoinha

📎 Số trang: 8
👁 Lượt xem: 433
⬇ Lượt tải: 16

XEM TÀI LIỆU

Phương pháp ước lượng xác suất thứ cấp dựa ...

Upload: vophuonguy1

📎 Số trang: 6
👁 Lượt xem: 610
⬇ Lượt tải: 17

XEM TÀI LIỆU

Thực trạng và giải pháp trong mô hình quản ...

Upload: bachcv84

📎 Số trang: 61
👁 Lượt xem: 533
⬇ Lượt tải: 16

XEM TÀI LIỆU

Giải pháp xã hội hoá công tác thu gom và xử ...

Upload: keobonggoon1201

📎 Số trang: 75
👁 Lượt xem: 517
⬇ Lượt tải: 19

XEM TÀI LIỆU

Tìm kiếm ảnh dựa vào nội dung

Upload: svkt3389

📎 Số trang: 89
👁 Lượt xem: 506
⬇ Lượt tải: 17

XEM TÀI LIỆU

Xã hội hóa công tác thu gom và vận chuyển ...

Upload: vn_118

📎 Số trang: 88
👁 Lượt xem: 484
⬇ Lượt tải: 17

XEM TÀI LIỆU

Hệ thống phát hiện khuôn mặt dựa trên mạng ...

Upload: nptdaiphunnuoc

📎 Số trang: 122
👁 Lượt xem: 621
⬇ Lượt tải: 16

XEM TÀI LIỆU

Bàn luận về vấn đề đổi mới toàn diện nội ...

Upload: minhlong82

📎 Số trang: 15
👁 Lượt xem: 635
⬇ Lượt tải: 16

XEM TÀI LIỆU

Nghiên cứu phương pháp phân tích và đánh giá ...

Upload: xukablet

📎 Số trang: 102
👁 Lượt xem: 706
⬇ Lượt tải: 16

XEM TÀI LIỆU

Nghiên cứu phương pháp xác định silic đa ...

Upload: haihoang2004

📎 Số trang: 1
👁 Lượt xem: 669
⬇ Lượt tải: 16

XEM TÀI LIỆU

Nghiên cứu thiết kế bình đồ đường ô tô cao ...

Upload: quanantisoft2004

📎 Số trang: 6
👁 Lượt xem: 527
⬇ Lượt tải: 16

XEM TÀI LIỆU

Nghiên cứu mô hình quản lý rác thải dựa vào ...

Upload: soho6868

📎 Số trang: 63
👁 Lượt xem: 526
⬇ Lượt tải: 18

XEM TÀI LIỆU

QUAN TÂM

Những tài liệu bạn đã xem

Phương pháp lọc thư rác dựa trên nội dung

Upload: chuyentinhabc

📎 Số trang: 53
👁 Lượt xem: 520
⬇ Lượt tải: 16

XEM TÀI LIỆU

Phân tích 4 chiến lược Marketing điển hình 1

Upload: cauvongtinhyeu

📎 Số trang: 11
👁 Lượt xem: 505
⬇ Lượt tải: 16

XEM TÀI LIỆU

Thiết kế hệ truyền động cho thang máy chở ...

Upload: caosangnhuy123

📎 Số trang: 43
👁 Lượt xem: 519
⬇ Lượt tải: 21

XEM TÀI LIỆU

1số vấn đề về xây dựng thương hiệu cho mặt ...

Upload: bomaydayma

📎 Số trang: 17
👁 Lượt xem: 486
⬇ Lượt tải: 16

XEM TÀI LIỆU

Téppi Tập 38 Thoát Nạn trong Gang Tấc

Upload: Hanhledinh

📎 Số trang: 163
👁 Lượt xem: 559
⬇ Lượt tải: 16

XEM TÀI LIỆU

Nghiên cứu về Six Sigma và ứng dụng

Upload: mailinh1205

📎 Số trang: 27
👁 Lượt xem: 900
⬇ Lượt tải: 17

XEM TÀI LIỆU

CHUYÊN MỤC

Luận văn đồ án

Kinh tế

Kỹ thuật - Công nghệ

Luật

Ngoại ngữ

Xây dựng - Kiến trúc

Sư phạm

Khoa học tự nhiên

Khoa học xã hội

Văn hóa nghệ thuật

Y Dược

Nông Lâm nghiệp

Thủy sản

Giao thông vận tải

Tổng hợp

Tài liệu tiếng nước ngoài

Tài liệu chuyên ngành

Các Môn Đại Cương

Chuyên Ngành Kinh Tế

Chuyên Ngành Xã Hội

Công Nghệ Thông Tin

Kỹ Thuật Công Nghệ

Tài Liệu Ôn Thi

Ebook - Sách điện tử

Chính trị, Triết học

Khoa học

Kinh tế

Kỹ thuật, Công nghệ

Ngoại ngữ

Sử địa, Danh nhân

Tâm lý, Giáo dục

Tổng hợp

Tôn giáo, Tâm linh

Văn hóa, Nghệ thuật

Văn học

Y học, Sức khỏe

Tài liệu phổ thông

Âm Nhạc

Cao đẳng, Đại Học

Công Nghệ

Địa Lý

Giáo dục hướng nghiệp

Hóa Học

Lịch sử

Mẫu giáo, Mầm non

Ngữ văn

Sinh Học

Tổng hợp

1,050,000
Thành viên đăng ký

1,200,000
Tài liệu

50,000
Người bán

KhoTri thức số

Về chúng tôi

SÀN GIAO DỊCH THƯƠNG MẠI ĐIỆN TỬ KHOTRITHUCSO.COM

Công ty TNHH LAZENTO. Giấy phép kinh doanh: 0106201820, cấp ngày 11/6/2013.
Nơi cấp: Sở kế hoạch đầu tư thành phố Hà Nội
Địa chỉ: Số 28, ngách 88/8 Bùi Ngọc Dương, Bạch Mai, Hai Bà Trưng, Hà Nội

MENU

Trang chủ

Tìm kiếm

Khóa học online

Hướng dẫn

Đăng ký

Đăng nhập

LIÊN HỆ

Đị chỉ: 335 Bạch Mai, Hai Bà Trưng, Hà Nội

Hotline: 098 333 9285

Email: khotrithucso@gmail.com

khotrithucso.com

098 333 9285

khotrithucso.com © 2018 Name All Rights Reserved

Tổng hợp

Phương pháp lọc thư rác dựa trên nội dung Tóm tắt nội dung khóa luận Khóa luận trình bày một số nội dung cơ bản nhất về thư rác (khái niệm, tác hại, các hình thức phát tán thư rác .), tập trung định hướng tới các phương pháp lọc thư rác, đặc biệt là phương pháp lọc dựa trên nội dung. Trong pdf Đăng bởi chuyentinhabc
5 stars - 243885 reviews
Thông tin tài liệu 53 trang Đăng bởi: chuyentinhabc - 02/03/2026 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by khotrithucso.com, Written on 02/03/2026 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Phương pháp lọc thư rác dựa trên nội dung