Mã tài liệu: 282519
Số trang: 172
Định dạng: zip
Dung lượng file: 688 Kb
Chuyên mục: Kỹ thuật - Công nghệ
Tóm tắt luận văn
Vấn đề nghiên cứu Xây dựng chương trình bắt lỗi chính tả tiếng Việt nhằm
phát hiện và đề nghị từ thay thế cho các lỗi chính tả thường gặp. Đề tài này
chỉ giới hạn bắt lỗi chính tả trong các văn bản hành chính.
Cách tiếp cận Sử dụng cách tiếp cận như sau: Phát sinh những câu có khả
năng thay thế dựa trên các nguyên nhân gây lỗi chính tả, sau đó sử dụng mô
hình ngôn ngữ dựa trên từ để xác định câu đúng nhất. Dựa trên sự khác biệt
giữa câu gốc và câu được chọn, ta sẽ có thể biết được từ nào sai chính tả, và
cách viết đúng chính tả là như thế nào. Mô hình sử dụng ngữ liệu thô chưa
tách từ, tự huấn luyện để phù hợp với mục đích của mô hình.
Mô hình bắt lỗi chính tả theo hai giai đoạn. Giai đoạn thứ nhất tìm và yêu
cầu người dùng sửa lỗi tiếng (những tiếng không tồn tại trong tiếng Việt).
Giai đoạn này chủ yếu sửa những lỗi sai do nhập liệu từ bàn phím. Giai đoạn
hai được dùng để bắt lỗi từ. Tất cả các cách tách từ có thể có của câu nhập
vào được xây dựng dựa trên lưới từ. Sau đó lưới từ này được mở rộng để thêm
vào những câu mới nhờ áp dụng các nguyên nhân gây lỗi chính tả, nhằm tạo
ra câu đúng từ câu sai chính tả. Mô hình ngôn ngữ được áp dụng để đánh giá
từng cách tách từ trong lưới từ và chọn ra cách tách từ tốt nhất. Dựa vào cách
tách từ này và câu gốc, ta sẽ xác định từ sai chính tả và đưa ra từ đề nghị.
Một số heuristic được áp dụng để hiệu chỉnh lưới từ nhằm tạo ra một kết quả
8
KHOA CNTT – ĐH KHTN
DANH SÁCH BẢNG DANH SÁCH BẢNG
tốt hơn.
Mô hình ngôn ngữ được dùng là trigram dựa trên từ. Việc huấn luyện
trigram dựa trên ngữ liệu đã tách từ sẵn có và tạo thêm ngữ liệu mới từ ngữ
liệu thô chưa tách từ. Với ngữ liệu thô, mô hình ngôn ngữ được huấn luyện
để thu thập tất cả cách tách từ có thể có của mỗi câu trong ngữ liệu huấn
luyện thay vì sử dụng bộ tách từ rồi huấn luyện trên cách tách từ tốt nhất đó.
Các trigram trong mỗi cách tách từ được thu thập dựa theo khả năng của mỗi
cách tách từ. Trigram của cách tách từ tốt hơn sẽ có trọng số cao hơn các
cách tách từ còn lại
Kết quả Chương trình hoạt động tốt và đạt được một số kết quả nhất định.
Các lỗi sai âm tiết được phát hiện hoàn toàn. Lỗi sai từ có thể phát hiện đến
trên 88%. Các loại lỗi khác đạt độ chính xác rất cao.
Chương trình có thể được cải tiến thêm bằng cách sử dụng các thông tin
cao cấp hơn như thông tin từ loại, thông tin cú pháp, ngữ nghĩa . . . nhằm
nâng cao độ chính xác hơn nữ
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 172
👁 Lượt xem: 642
⬇ Lượt tải: 16
📎 Số trang: 116
👁 Lượt xem: 451
⬇ Lượt tải: 16
📎 Số trang: 49
👁 Lượt xem: 403
⬇ Lượt tải: 16
📎 Số trang: 187
👁 Lượt xem: 466
⬇ Lượt tải: 16
📎 Số trang: 187
👁 Lượt xem: 429
⬇ Lượt tải: 16
📎 Số trang: 187
👁 Lượt xem: 328
⬇ Lượt tải: 16
📎 Số trang: 67
👁 Lượt xem: 642
⬇ Lượt tải: 17
📎 Số trang: 47
👁 Lượt xem: 441
⬇ Lượt tải: 16
📎 Số trang: 98
👁 Lượt xem: 1112
⬇ Lượt tải: 18
Những tài liệu bạn đã xem
📎 Số trang: 172
👁 Lượt xem: 390
⬇ Lượt tải: 16