Tìm tài liệu

Tim hieu mo hinh ngon ngu su dung phuong phap bloom filter

Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

Upload bởi: tuannq_mops

Mã tài liệu: 299028

Số trang: 71

Định dạng: zip

Dung lượng file: 1,063 Kb

Chuyên mục: Kỹ thuật - Công nghệ

Info

Tóm tắt nội dung

Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Sau khi tìm hiểu sơ lược về mô hình ngôn ngữ, chúng ta sẽ nghiên cứu hai kiểu cấu trúc dữ liệu dựa trên Bloom Filter là Log-Frequency Bloom Filter và Bloom Map. Qua các thử nghiệm, chúng tôi chỉ ra sự ưu việt của các mô hình ngôn ngữ dựa trên Bloom Filter trên cả phương diện dung lượng và tính hiệu quả khi ứng dụng trong thực tế, cụ thể ở đây là hệ thống dịch máy bằng phương pháp thống kê với Moses .

Mục lục

TÓM TẮT NỘI DUNG i

MỤC LỤC ii

LỜI CẢM ƠN iv

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC HÌNH vi

MỞ ĐẦU 1

CHƯƠNG 1 - Tổng quan về mô hình ngôn ngữ 3

1.1 N-gram 3

1.2 Xây dựng mô hình ngôn ngữ 4

1.2.1 Ước lượng cực đại hóa khả năng (MLE) 5

1.2.2 Các phương pháp làm mịn 5

1.2.2.1 Kneser-Ney 7

1.2.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney) 8

1.2.2.3 Stupid Backoff 9

1.3 Đánh giá mô hình ngôn ngữ 10

1.3.1 Perplexity 10

1.3.2 MSE 11

CHƯƠNG 2 - Các cấu trúc dữ liệu dựa trên Bloom Filter 13

2.1 Các cấu trúc dữ liệu xác suất (PDS) 14

2.2 Hàm băm 16

2.3 Bloom Filter cơ bản 17

2.4 Mô hình ngôn ngữ sử dụng Bloom Filter 22

2.4.1 Bloom Filter tần số log 23

2.4.2 Bộ lọc dựa vào chuỗi con 25

2.4.3 Bloom Map 26

CHƯƠNG 3 - Thử nghiệm: Xây dựng LM với RandLM và SRILM 32

3.1 Ngữ liệu 33

3.2 Thuật toán làm mịn 35

3.3 Xây dựng LM với SRILM và RandLM 35

CHƯƠNG 4 - Thử nghiệm: Dịch máy thống kê với Moses 40

4.1 Dịch máy thống kê 40

4.1.1 Giới thiệu về dịch máy thống kê 40

4.1.2 Dịch máy thống kê dựa trên cụm 43

4.1.3 Điểm BLEU 45

4.2 Baseline System 46

4.3 Ngữ liệu 46

4.4 Kết quả thử nghiệm 48

KẾT LUẬN 50

PHỤ LỤC 51

Mở đầu

Mô hình ngôn ngữ (Language Model - LM) là một thành phần quan trọng trong nhiều ứng dụng như dịch máy, nhận dạng tiếng nói, … Các LM luôn cố gắng mô phỏng ngôn ngữ tự nhiên một cách chính xác nhất. Từ nhiều nghiên cứu và thử nghiệm [19, 28], chúng ta có thể thấy rằng mô hình ngôn ngữ với ngữ liệu càng lớn, bậc càng cao thì mô phỏng càng chính xác.

Trước đây việc xây dựng các ngữ liệu lớn rất khó khăn. Nhưng với sự bùng nổ của Internet như hiện nay, khối lượng thông tin sẵn có là vô cùng lớn. Sẽ thật là lãng phí nếu như chúng ta không tận dụng kho ngữ liệu khổng lồ này. Do đó trong những năm gần đây, kích thước các tập ngữ liệu dùng để huấn luyện LM đã phát triển đáng kinh ngạc, chúng lớn đến mức không còn có thể lưu trữ được trong bộ nhớ của những siêu máy tính với nhiều Gigabytes bộ nhớ RAM. Điều này khiến cho nỗ lực mô phỏng chính xác hơn ngôn ngữ tự nhiên bằng cách sử dụng các ngữ liệu lớn với kiểu mô hình truyền thống trở nên vô nghĩa, vì cần phải cắt giảm kích cỡ của ngữ liệu để LM có thể được chứa vừa trong bộ nhớ máy tính. Điều này đi ngược lại với mục đích ban đầu của việc tạo ra những tập ngữ liệu ngày càng lớn hơn. Hạn chế này đòi hỏi các nhà nghiên cứu cần tìm ra những phương pháp khác để mô hình hóa ngôn ngữ nếu vẫn muốn tận dụng lợi thế mà các bộ ngữ liệu lớn mang lại.

Một giải pháp để thực hiện yêu cầu này là bỏ đi sự chính xác, chấp nhận mất mát một lượng thông tin nhất định khi mô hình ngôn ngữ từ ngữ liệu. Nghĩa là thay vì các LM không mất mát (losses LM), ta sử dụng các LM có mất mát thông tin (lossy LM). Các nghiên cứu về lossy LM tạo ra một lớp các loại cấu trúc dữ liệu mới là Cấu trúc dữ liệu ngẫu nhiên (Randomized Data Structure, viết tắt là RDS), hay còn gọi là Cấu trúc dữ liệu xác suất (Probabilistic Data Structure - PDS). Vài cấu trúc dữ liệu điển hình loại này là Skip List , Sparse Partition , Lossy Dictionary , Bloom Filter . Ở Việt Nam cũng đã có một số nghiên cứu về vấn đề mô hình ngôn ngữ , nhưng mới chỉ dừng lại ở việc sử dụng các mô hình ngôn ngữ chuẩn. Khóa luận này nghiên cứu và tìm hiểu về mô hình ngôn ngữ dựa trên Bloom Filter do những cải tiến đáng chú ý những năm gần đây của loại cấu trúc dữ liệu này để xây dựng mô hình ngôn ngữ [35, 36, 37]. Nội dung khóa luận tập trung nghiên cứu khả năng tiết kiệm bộ nhớ, không gian lưu trữ của loại LM này và hiệu quả của nó, so với các LM tiêu chuẩn , thông qua một ứng dụng cụ thể là hệ thống dịch máy thống kê Moses.

Chương 1 trình bày các hiểu biết cơ bản cần biết về mô hình ngôn ngữ như n-gram, các thuật toán làm mịn được sử dụng trong mô hình ngôn ngữ và các thước đo để đánh giá một mô hình ngôn ngữ.

Chương 2 tập trung nghiên cứu về các trúc dữ liệu dựa trên Bloom Filter được sử dụng cho mô hình ngôn ngữ, cụ thể là Log-Frequency Bloom Filter và Bloom Map.

Chương 3 thử nghiệm xây dựng mô hình ngôn ngữ trên một ngữ liệu tiếng Anh và một ngữ liệu tiếng Việt..

Chương 4 giới thiệu sơ lược về dịch máy thống kê, thử nghiệm dịch máy thống kê với hệ thống dịch máy nguồn mở Moses sử dụng các mô hình ngôn ngữ xây dựng ở chương 3.

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Đang tải dữ liệu ...
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter
  • Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

GỢI Ý

Những tài liệu gần giống với tài liệu bạn đang xem

Tìm hiểu mô hình ngôn ngữ sử dụng phương ...

Upload: nguyenkieuphong

📎 Số trang: 71
👁 Lượt xem: 403
Lượt tải: 16

Tìm hiểu ngôn ngữ mô hình hóa và xây dựng bộ ...

Upload: hcmvan

📎 Số trang: 226
👁 Lượt xem: 526
Lượt tải: 16

Tìm hiểu ngôn ngữ mô hình hóa mạng và xây ...

Upload: dieulyvt

📎 Số trang: 226
👁 Lượt xem: 364
Lượt tải: 16

Tìm hiểu về xử lý ngôn ngữ tự nhiên và viết ...

Upload: huyen_dt86

📎 Số trang: 67
👁 Lượt xem: 641
Lượt tải: 17

Tìm hiểu ngôn ngữ VRML

Upload: kun_xinh_xan

📎 Số trang: 48
👁 Lượt xem: 1861
Lượt tải: 18

Tìm hiểu ngôn ngữ VRML

Upload: hienbao1212112

📎 Số trang: 43
👁 Lượt xem: 430
Lượt tải: 18

Tìm hiểu ngôn ngữ VRML

Upload: phuongedu

📎 Số trang: 41
👁 Lượt xem: 808
Lượt tải: 16

Tìm hiểu ngôn ngữ logic mô tả EL và cài đặt ...

Upload: thinhlevinh

📎 Số trang: 74
👁 Lượt xem: 420
Lượt tải: 4

Tìm hiểu ngôn ngữ logic mô tả EL và cài đặt ...

Upload: panda11_05

📎 Số trang: 74
👁 Lượt xem: 29
Lượt tải: 5

Ngôn ngữ mô hình thống nhất UML

Upload: mayxanhxanh2406

📎 Số trang: 171
👁 Lượt xem: 495
Lượt tải: 16

Xây dựng mô hình ngôn ngữ cho tiếng việt

Upload: hqdhhh

📎 Số trang: 47
👁 Lượt xem: 428
Lượt tải: 16

Xây dựng mô hình ngôn ngữ cho tiếng việt

Upload: rantung81kr

📎 Số trang: 47
👁 Lượt xem: 585
Lượt tải: 16

QUAN TÂM

Những tài liệu bạn đã xem

Tìm hiểu mô hình ngôn ngữ sử dụng phương ...

Upload: tuannq_mops

📎 Số trang: 71
👁 Lượt xem: 645
Lượt tải: 16

CHUYÊN MỤC

Kỹ thuật - Công nghệ
Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter Tóm tắt nội dung Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô zip Đăng bởi
5 stars - 299028 reviews
Thông tin tài liệu 71 trang Đăng bởi: tuannq_mops - 22/06/2025 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by , Written on 22/06/2025 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter