Mã tài liệu: 214783
Số trang: 10
Định dạng: pdf
Dung lượng file: 484 Kb
Chuyên mục: Tổng hợp
TÓM TẮT: Biểu diễn văn bản là một bước tiền xử lý rất quan trọng trong nhiều lĩnh
vực như khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên. Bài báo này
trình bày tổng quan mô hình biểu diễn văn bản thành đồ thị. Mô hình đồ thị có thể giữ lại các
thông tin cấu trúc như vị trí, thứ tự xuất hiện và sự gần nhau của từ, trong khi chúng bị loại bỏ
trong mô hình không gian vectơ truyền thống. Chúng tôi xây dựng thử nghiệm hệ thống phân
lớp văn bản tiếng Việt dựa trên mô hình biểu diễn văn bản thành đồ thị.
Từ khoá: Mô hình đồ thị, biễu diễn văn bản, phân lớp văn bản.
1. GIỚI THIỆU
Hiện nay, chúng ta dùng các mô hình biểu diễn để giải quyết hầu hết những vấn đề liên
quan đến văn bản. Chúng đóng vai trò trung gian giữa ngôn ngữ tự nhiên dạng văn bản và
chương trình xử lý trong các lĩnh vực khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn
ngữ tự nhiên. Sau khi được tái thể hiện, văn bản trở thành những cấu trúc dữ liệu trực quan,
đơn giản và có thể xử lý được. Vì vậy, các mô hình biểu diễn không ngừng phát triển, hàm
chứa được nhiều hơn những suy nghĩ mà con người muốn diễn đạt, đồng thời nâng cao hiệu
quả sử dụng. Mô hình biểu diễn văn bản truyền thống như: mô hình túi từ và không gian vectơ
là các mô hình đựơc sử dụng phổ biến nhất. Mô hình không gian vectơ biểu diễn văn bản
như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản. Trọng số
các đặc trưng thường được tính qua độ đo TF*IDF. Tuy nhiên, mô hình này không nắm bắt
được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận của từ, vị
trí xuất hiện của từ trong văn bản. Để giải quyết các hạn chế trên, mô hình đồ thị được đề xuất
và được đánh giá có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà
mô hình túi từ và không gian vectơ đã bỏ qua.
Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm (Conceptual Graphs_
CGs), được John F. Sowa trình bày lần đầu tiên vào năm 1976 . Hiện nay, mô hình đồ thị
không ngừng phát triển dựa trên ý tưởng của mô hình CGs, được ứng dụng vào dãy rộng các
bài toán liên quan đến xử lý văn bản và trở nên khá phong phú. Khi ứng dụng vào từng loại bài
toán khác nhau, các thành phần thích hợp nhất trong văn bản trở thành đỉnh của đồ thị và mối
quan hệ hiệu quả nhất giữa các đỉnh được chọn để xây dựng cạnh của đồ thị. Đỉnh của đồ thị
có thể biểu diễn câu, từ, hay câu kết hợp từ. Cạnh có thể dùng để thể hiện những mối quan hệ
khác nhau giữa các đỉnh như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất hiện, độ tương
đồng.
Mục đích của bài báo này là nghiên cứu, hệ thống các biến thể của mô hình biểu diễn văn
bản bằng đồ thị nhằm cung cấp cho người đọc cái nhìn tổng quan về mô hình này. Bên cạnh
đó, chúng tôi cũng áp dụng thử nghiệm mô hình biểu diễn văn bản bằng đồ thị vào bài toán
phân lớp văn bản tiếng Việt .
Các phần tiếp theo của bài báo được tổ chức như sau. Phần 2 giới thiệu tổng quan mô hình
biểu diễn văn bản bằng đồ thị. Phần 3 giới thiệu hệ thống phân lớp văn bản sử dụng mô hình
đồ thị kết hợp thuật toán khai thác đồ thị con phổ biến. Phần 4 trình bày kết quả thực nghiệm
của hệ thống và cuối cùng là phần kết luận
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 2
👁 Lượt xem: 498
⬇ Lượt tải: 16
📎 Số trang: 11
👁 Lượt xem: 593
⬇ Lượt tải: 22
📎 Số trang: 2
👁 Lượt xem: 572
⬇ Lượt tải: 16
📎 Số trang: 187
👁 Lượt xem: 373
⬇ Lượt tải: 16
📎 Số trang: 1
👁 Lượt xem: 716
⬇ Lượt tải: 16
📎 Số trang: 7
👁 Lượt xem: 553
⬇ Lượt tải: 16
📎 Số trang: 11
👁 Lượt xem: 518
⬇ Lượt tải: 17
📎 Số trang: 11
👁 Lượt xem: 296
⬇ Lượt tải: 19
📎 Số trang: 10
👁 Lượt xem: 382
⬇ Lượt tải: 16
📎 Số trang: 9
👁 Lượt xem: 362
⬇ Lượt tải: 17
📎 Số trang: 9
👁 Lượt xem: 445
⬇ Lượt tải: 17
Những tài liệu bạn đã xem