Mã tài liệu: 301068
Số trang: 5
Định dạng: rar
Dung lượng file: 165 Kb
Chuyên mục: Kỹ thuật - Công nghệ
[FONT=Times New Roman]1 ĐẶT VẤN ĐỀ
1.1 Giới thiệu
Ngày nay, cùng với sự phát triển của ngành điện tử
và tin học, các hệ thống máy tự động đã dần thay
thế con người trong nhiều công đoạn của công việc.
Máy có khả năng làm việc hiệu quả và năng suất
cao hơn con người rất nhiều. Song cho đến nay, vấn
đề giao tiếp người – máy tuy đã được cải thiện
nhiều nhưng vẫn còn rất thủ công: thông qua bàn
phím và các thiết bị nhập dữ liệu khác. Giao tiếp
với thiết bị máy bằng tiếng nói sẽ là phương thức
giao tiếp văn minh và tự nhiên nhất, dấu ấn giao
tiếp người – máy sẽ mất đi mà thay vào đó là cảm
nhận của sự giao tiếp giữa người với người, nếu
hoàn thiện thì đây sẽ là một phương thức giao tiếp
tiện lợi và hiệu quả nhất.
Do có sự khác biệt về mặt ngữ âm giữa các ngôn
ngữ nên ta không thể áp dụng các chương trình
nhận dạng khác để nhận dạng tiếng Việt. Một hệ
thống nhận dạng tiếng nói ở nước ta phải được xây
dựng trên nền tảng của tiếng nói tiếng Việt.
1.2 Tình hình nghiên cứu trong và ngoài nước
Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được
quan tâm nghiên cứu trong những năm gần đây và
chưa có một chương trình nhận dạng hoàn chỉnh
nào được công bố.
Trên thế giới đã có rất nhiều hệ thống nhận dạng
tiếng nói (tiếng Anh) đã và đang được ứng dụng rất
hiệu quả như: Via Voice của IBM, Spoken Toolkit
của CSLU (Central of Spoken Laguage Understanding)…
nhưng trong tiếng Việt thì còn rất nhiều
hạn chế.
1.3 Mục tiêu của đề tài
Đề tài này nghiên cứu thử nghiệm một hướng nhận
dạng tiếng nói - tiếng Việt dựa trên việc trích đặc
trưng của tiếng nói bằng phương pháp MFCC
(MelFrequency Ceptrums Coefficients), và nhận dạng
bằng mô hình HMM (Hidden Markov Models).
Đồng thời, một mô hình điều khiển bằng tiếng nói –
tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết
lập hệ thống điều khiển bằng tiếng nói với một tập
lệnh cố định. Tập lệnh này dùng để điều khiển
Robot, và mô hình điều khiển xe bằng tiếng nói
hoàn chỉnh là một ứng dụng thực tế mang tính thử
nghiệm của đề tài.
2 xây dựng HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI
Một hệ thống nhận dạng nói chung thường bao gồm
hai phần: phần huấn luyện (training phase) và phần
nhận dạng (recognition phase). “Huấn luyện” là quá
trình hệ thống “học” những mẫu chuẩn được cung
cấp bởi những tiếng khác nhau (từ hoặc âm), để từ
đó hình thành bộ từ vựng của hệ thống. “Nhận
dạng” là quá trình quyết định xem từ nào được đọc
căn cứ vào bộ từ vựng đã được huấn luyện. Sơ đồ
tổng quát của hệ thống nhận dạng tiếng nói được
thể hiện trên hình 1.
Để thuận tiện cho việc kiểm tra và đánh giá kết quả,
từ sơ đồ trên chúng tôi chia chương trình nhận dạng
thành ba mô-đun riêng biệt:
! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng
nói, tách tiếng nói khỏi nền nhiễu và lưu vào
cơ sở dữ liệu.
! Mô-đun 2: Trích đặc trưng tín hiệu tiếng nói đã
thu ở mô-đun 1 bằng phương pháp MFCC,
đồng thời thực hiện ước lượng vector các
vector đặc trưng này.
! Mô-đun 3: xây dựng mô hình Markov ẩn với 6
trạng thái, tối ưu hóa các hệ số của HMM
tương ứng với từng từ trong bộ từ vựng, tiến
hành nhận dạng một từ được đọc vào micro.
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 14
👁 Lượt xem: 651
⬇ Lượt tải: 16
📎 Số trang: 103
👁 Lượt xem: 402
⬇ Lượt tải: 17
📎 Số trang: 50
👁 Lượt xem: 619
⬇ Lượt tải: 18
📎 Số trang: 99
👁 Lượt xem: 635
⬇ Lượt tải: 17
📎 Số trang: 5
👁 Lượt xem: 687
⬇ Lượt tải: 16
📎 Số trang: 170
👁 Lượt xem: 799
⬇ Lượt tải: 23
📎 Số trang: 67
👁 Lượt xem: 614
⬇ Lượt tải: 17
📎 Số trang: 116
👁 Lượt xem: 599
⬇ Lượt tải: 17
📎 Số trang: 104
👁 Lượt xem: 764
⬇ Lượt tải: 16
📎 Số trang: 44
👁 Lượt xem: 526
⬇ Lượt tải: 17
Những tài liệu bạn đã xem