Tìm tài liệu

Ung dung SOM trong khai pha du lieu van ban Tieng Viet

Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt

Upload bởi: huyen

Mã tài liệu: 222485

Số trang: 47

Định dạng: doc

Dung lượng file: 1,447 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

GIỚI THIỆU

Thuật toán SOM là một biểu tượng của lớp mạng neural học không giám sát. Trong đó, sơ khai đầu tiên của SOM được phát minh bởi giáo sư Teuvo Kohonen tại trung tâm nghiên cứu của mạng Neural- Network (1981-1982). Ông đã ứng dụng SOM vào rất nhiều những chương trình phiên bản một cách nhanh chóng và hiệu quả.

Trọng tâm của SOM là đưa và hiển thị dữ liệu hoặc cụm dữ liệu một cách rõ ràng lên mảng một hoặc hai chiều. Nếu các biến trong bản ghi dữ liệu là các vector thì các biến đó sẽ được mô tả như một dữ liệu thống kê, được sử dụng độc lập các mức xám hoặc các mã màu nền riêng. Dùng SOM khai phá để tìm ra được mối quan hệ hữu ích, phụ thuộc lẫn nhau giữa các biến và cấu trúc của dữ liệu.

Lĩnh vực khai phá dữ liệu văn bản cho đến nay đã đạt mục tiêu chính: đó là chứng minh được bằng lý thuyết và thực nghiệm rằng bản đồ văn bản tự tổ chức là một công cụ trọng tâm có nhiều triển vọng, và việc xây dựng những bản đồ như vậy là hoàn toàn tự động. Tuy nhiên, mọi thành quả chỉ mới là ở giai đoạn sơ khai, còn tồn đọng rất nhiều vấn đề không thể giải quyết một cách bao quát được, đặc biệt quan trọng là vấn đề chọn lựa đặc trưng cho nội dung văn bản trong quá trình xây dựng bản đồ, cũng như việc đánh giá chất lượng bản đồ kết quả. Đó là những điều rất đáng phải suy nghĩ

Tính cấp thiết của đề tài nằm ở những mối quan tâm đó - những gì còn chưa đầy đủ và không thể bao quát được của mô hình đã có - khi ứng dụng vào của Tiếng Việt. Trong giai đoạn tiền xử lý, bao hàm trọng tâm là phương pháp chọn lựa đặc trưng cho văn bản, thật ra còn quyết định chất lượng bản đồ nhiều hơn là các yếu tố khác. Sự triển khai lĩnh vực khai phá dữ liệu văn bản trong các ngôn ngữ đặc thù thì dường như là những đề tài vô tận.

Đề tài nghiên cứu mọi khía cạnh tổng quát của mô hình khai phá dữ liệu văn bản với thuật toán bản đồ tự tổ chức, sau đó triển khai với một ngữ liệu văn bản Tiếng Việt

Nội dung cụ thể của đề tài bao gồm việc trình bày tổng quan về các lĩnh vực nghiên cứu có liên quan, thu thập, tổ chức ngữ liệu văn bản và tiền xử lý; xây dựng mới và nghiên cứu các thuật toán chọn lựa đặc trưng: xác định ngữ đoạn, xác định cụm từ, xác định các từ vựng theo chỉ số hữu ích từ vị của Rosengren, xác định các từ khóa theo quan điểm Guiraud; nghiên cứu các phương pháp mã hóa văn bản dựa trên từ vựng, cụm từ, ngữ đoạn;nghiên cứu thuật toán bản đồ tự tổ chức (Self Organizing Map), thuật toán chiếu ngẫu nhiên; đánh giá bản đồ văn bản theo những phương pháp khác nhau.

Ngoài ra, đề tài còn triển khai hai vấn đề quan trọng, đó là cơ sở của việc khám phá và quản lý tri thức trên bản đồ: gom nhóm trên bản đồ và gán nhãn trên bản đồ. Ứng dụng ngữ đoạn trong việc gán nhãn các đơn vị bản đồ và các vùng văn bản. Những vấn đề này đã được một số tác giả nước ngoài nghiên cứu bước đầu.

GIỚI THIỆU

3

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

. 4

1.TIẾNG VIỆT. 4

1.1. Giới thiệu đặc trưng của ngữ pháp tiếng Việt 4

1.2 Khó khăn trong việc nhận dạng từ Tiếng Việt 6

2. NHỮNG PHƯƠNG PHÁP PHÂN TÍCH, KHAI PHÁ DỮ LIỆU 6

2.1 Hiển thị trực quan dữ liệu đa chiều. 7

2.2 Các phương pháp gom nhóm dữ liệu. 7

2. 3 Các phương pháp chiếu. 8

3. KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT. 9

3.1.Những chức năng chính của một hệ thống khai phá dữ liệu văn bản. 9

3.2.Nhu cầu thông tin và những vấn đề liên quan đến văn bản. 10

3.3.Khai phá dữ liệu văn bản với bản đồ biểu diễn trực quan

. 11

CHƯƠNG 2: BẢN ĐỒ TỰ TỔ CHỨC – SOM

. 13

2.1 Nội dung thuật toán. 13

2.2 Những tính chất đặc biệt. 16

2.3 Đặc điểm toán học. 17

2.4 Topology và qui luật học. 19

2.5 Lân cận của nhân. 20

2.6 Lỗi lượng tử hóa trung bình.

22

Chương 3: ỨNG DỤNG SOM TRONG KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT

23

1. BIỂU DIỄN VĂN BẢN TIẾNG VIỆT. 23

1 .1 Mô hình biểu diễn văn bản. 23

1.2 Mô hình không gian vector (Vector Space Model- VSM). 23

1.3.Trọng số từ vựng. 24

1.4 Phương pháp chiếu ngẫu nhiên. 25

2. BẢN ĐỒ VĂN BẢN TIẾNG VIỆT. 30

2.1 Mô hình tổng quát. 30

2.2 Tiền xử lý. 31

2.3 Mã hóa văn bản. 33

2.4 Xây dựng bản đồ. 34

3. PHƯƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN. 39

3.1 Cơ sở phân tích ngữ đoạn. 39

3.2 Thuật toán xác định trung tâm ngữ đoạn. 41

3.3 Minh họa thuật toán.

43

CHƯƠNG 4: QU[FONT="]ẢN LÝ V[FONT="]À KHAI TH[FONT="]ÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC.

45

4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC. 45

4.1.1 Những khoảng cách tiêu chuẩn dùng trong gom nhóm. 45

4.1.2 Gom nhóm trên SOM. 47

4.1.3 Thuật toán gom nhóm. 47

4.2. GÁN NHÃN BẢN ĐỒ. 47

4.3 CƠ CHẾ TRÌNH BÀY BẢN ĐỒ VĂN BẢN. 48

Chương 5: KẾT LUẬN 50

TÀI LIỆU THAM KHẢO 5

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt
  • Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Ứng dụng kỹ thuật khai phá dữ liệu trong hệ ...

Upload: TaiSanRong

📎 Số trang: 109
👁 Lượt xem: 644
Lượt tải: 16

Tìm hiểu bài toán khai phá dữ liệu văn bản

Upload: datrmit

📎 Số trang: 52
👁 Lượt xem: 540
Lượt tải: 16

Nghiên cứu kỹ thuật khai phá dữ liệu và ứng ...

Upload: onggiakhochiu1980

📎
👁 Lượt xem: 731
Lượt tải: 16

Kỹ thuật mạng nơron và giải thuật di truyền ...

Upload: lanvien1983

📎 Số trang: 102
👁 Lượt xem: 668
Lượt tải: 16

Khai thác dữ liệu và ứng dụng

Upload: chuyenpa

📎 Số trang: 35
👁 Lượt xem: 795
Lượt tải: 17

Khai phá dữ liệu (datamining)

Upload: lhongngoc18

📎 Số trang: 12
👁 Lượt xem: 1669
Lượt tải: 19

Lựa chọn thuộc tính trong Khai Phá Dữ Liệu

Upload: trungqt84

📎 Số trang: 58
👁 Lượt xem: 600
Lượt tải: 16

Lựa chọn thuộc tính trong khai phá dữ liệu

Upload: vanlangfood

📎 Số trang: 58
👁 Lượt xem: 371
Lượt tải: 16

Tìm hiểu luật kết hợp trong khai phá dữ liệu

Upload: tvanhung1971

📎 Số trang: 28
👁 Lượt xem: 1809
Lượt tải: 20

Tập thô và ứng dụng trong khai khoáng văn bản

Upload: hoangkhanhlg

📎 Số trang: 1
👁 Lượt xem: 737
Lượt tải: 18

Khai phá dữ liệu và phát hiện luật kết hợp ...

Upload: Luongvietvoiz

📎 Số trang: 69
👁 Lượt xem: 580
Lượt tải: 17

Kỹ thuật phân lớp dữ liệu trong Khai Phá Dữ ...

Upload: letam200686

📎 Số trang: 43
👁 Lượt xem: 589
Lượt tải: 17

QUAN TÂM

Những tài liệu bạn đã xem

Ứng dụng SOM trong khai phá dữ liệu văn bản ...

Upload: huyen

📎 Số trang: 47
👁 Lượt xem: 648
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt GIỚI THIỆU Thuật toán SOM là một biểu tượng của lớp mạng neural học không giám sát. Trong đó, sơ khai đầu tiên của SOM được phát minh bởi giáo sư Teuvo Kohonen tại trung tâm nghiên cứu của mạng Neural- Network (1981-1982). Ông đã ứng dụng SOM vào doc Đăng bởi
5 stars - 222485 reviews
Thông tin tài liệu 47 trang Đăng bởi: huyen - 03/12/2024 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 03/12/2024 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt