Mã tài liệu: 256543
Số trang: 78
Định dạng: pdf
Dung lượng file: 1,410 Kb
Chuyên mục: Kỹ thuật - Công nghệ
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------------------
LUẬN VĂN THẠC SĨ KHOA HỌC
XÂY DỰNG CÔNG CỤ KHẢO SÁT ẢNH HƯỞNG CỦA CÁC
THAM SỐ CƠ BẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ
TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA
NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG
MÃ SỐ:
LÊ TRUNG DŨNG
Người hướng dẫn khoa học: TS. TRỊNH VĂN LOAN
HÀ NỘI 2006
MỤC LỤC
LỜI NÓI ĐẦU 6
CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI .8
1.1. MỞ ĐẦU 8
1.2. BỘ MÁY PHÁT ÂM .8
1.2.1. Bộ máy phát âm .8
1.2.2. Cơ chế phát âm .9
1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 9
1.3.1. Xác định tần số lấy mẫu .12
1.3.2. Lượng tử hoá 12
1.3.3. Nén tín hiệu tiếng nói .12
1.3.4. Mã hoá tín hiệu tiếng nói. 13
1.3.4.1. Mã hoá trực tiếp tín hiệu .13
1.3.4.2. Mã hoá tham số tín hiệu 14
1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI .15
1.4.1. Âm hữu thanh và âm vô thanh .15
1.4.1.1. Âm hữu thanh 15
1.4.1.2. Âm vô thanh .15
1.4.2. Âm vị 16
1.4.2.1. Nguyên âm .16
1.4.2.2. Phụ âm 16
1.4.3. Các đặc tính khác .16
1.4.3.1. Tỷ suất thời gian 16
1.4.3.2. Hàm năng lượng thời gian ngắn .16
1.4.3.3. Tần số cơ bản 17
1.4.3.4. Formant .17
1.5. MÔ HÌNH TẠO TIẾNG NÓI 18
1.6. XỬ LÝ TIẾNG NÓI 22
1.6.1. Tổng hợp tiếng nói .23
1.6.1.1. Tổng hợp tiếng nói theo cách phát âm 23
1.6.1.2. Tổng hợp đầu cuối tự nhiên 23
1.6.2. Nhận dạng tiếng nói .24
1.6.2.1. Nhận dạng ngữ nghĩa 24
1.6.2.2. Nhân dạng người nói 24
CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 25
2.1. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 25
2.1.1. Phương pháp mô phỏng hệ thống phát âm .25
2.1.2. Phương pháp tổng hợp Formant .25
2.1.2.1. Bộ tổng hợp formant nối tiếp 25
2.1.2.2. Bộ tổng hợp formant song song 26
2.1.3. Phương pháp ghép nối 26
2.1.3.1. Phương pháp tổng hợp PSOLA .27
2.1.3.2. Các phiên bản của PSOLA 27
2.2. MÔ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN .29
2.2.1. Tổng hợp mức cao 29
2.2.1.1. Xử lý văn bản 29
2.2.1.2. Phân tích cách phát âm .30
2.2.1.3. Ngôn điệu 30
2.2.2. Tổng hợp mức thấp 31
2.3. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31
CHƯƠNG 3: GIẢI THUẬT TD-PSOLA 33
3.1. GIẢI THUẬT PSOLA 33
3.1.1. Phân tích PSOLA .33
3.1.1.1. Bước 1: Tìm cực đại địa phương của hàm năng lượng. .34
3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại .34
3.1.2. Tổng hợp PSOLA .35
3.2. THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 36
3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI 38
3.4. CÁC VẤN ĐỀ LIÊN QUAN 39
3.4.1 Xác định tần số cơ bản 40
3.4.1.1. Dùng hàm tự tương quan 40
3.4.1.2. Dùng hàm vi sai biên độ trung bình 42
3.4.2. Làm trơn tín hiệu khi ghép nối .43
3.4.2.1. Phương pháp Microphonemic .43
3.4.2.2. Mô hình hình sine 43
3.4.3 Cân bằng năng lượng 46
CHƯƠNG 4: THIẾT KẾ XÂY DỰNG ỨNG DỤNG TỔNG HỢP TIẾNG
VIỆT 48
4.1. PHÂN TÍCH GIẢI THUẬT .48
4.2. DIPHONE TRONG TIẾNG VIỆT 50
4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU 53
4.3.1. Thu âm .53
4.3.1.1. Quá trình thu âm .53
4.3.1.2. Xử lý sau khi thu 53
4.3.2. Tách diphone 53
4.3.3. Lưu trữ dữ liệu .55
4.4. XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN .55
4.4.1. Phân tích văn bản tiếng Việt thành các từ 55
4.4.1.1. Xác định câu trong văn bản 56
4.4.1.2. Phân tích câu thành các từ .57
4.4.2. Xác định dấu (thanh điệu) của từ và tách từ thành diphone 58
4.4.2.1. Xác định dấu (thanh điệu) của từ 58
4.4.2.2. Tách từ thành hai diphone 59
4.5. GHÉP NỐI CÁC DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN .60
4.5.1.Ghép nối các diphone tạo thành các từ không dấu. 61
4.5.1.1. Đặt vấn đề. 61
4.5.1.2. Phân tích vấn đề 61
4.5.1.3. Giải pháp và các bước thực hiện. .61
4.5.2.Ghép nối các diphone tạo thành các từ có dấu 64
4.5.2.1. Từ tạo thành từ các diphone thông thường .64
4.5.2.2. Từ tạo thành từ các diphone đặc biệt. 68
4.6. ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 69
4.6.1. Giao diện chính 69
4.6.2. Minh hoạ một số chức năng chính của chương trình .71
TÀI LIỆU THAM KHẢO .76
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Bộ máy phát âm của con người 9
Hình 1.2: Biểu diễn tín hiệu tiếng nói 10
Hình 1.3: Thông lượng cho các phương pháp biểu diễn tiếng nói .11
Hình 1.4: Mô Hình hoá nguồn âm đối với âm hữu thanh 18
Hình 1.5: Chuỗi 5 đoạn ống âm học lý tưởng 19
Hình 1.6: Cách biểu diễn lý học và toán học .20
Hình 1.7: Mô hình số của hệ thống phát âm 21
Hình 1.8: Một vài ứng dụng xử lý tiếng nói 22
Hình 2.1: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp .26
Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant song song .26
Hình 2.3: Mô hình tổng hợp tiếng nói 29
Hình 2.4: Sự phụ thuộc của ngôn điệu vào các yếu tố .30
Hình 3.1: Xác định cực đại địa phương của hàm năng lượng 34
Hình 3.2: Cộng xếp chồng các đoạn tín hiệu .36
Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu .37
Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA 38
Hình 3.5: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c)
dùng của sổ Hamming với N=401. 41
Hình 3.6: Mô tả hàm vi sai biên độ trung bình 42
Hình 3.7: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian 44
Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian 45
Hình 3.9: Sơ đồ giải thuật cân bằng năng lượng 46
Hình 3.10: Tín hiệu diphone -cha khi chưa cân bằng năng lượng .47
Hình 3.11: Tín hiệu diphone -cha sau khi cân bằng năng lượng .47
Hình 3.12: Tín hiệu từ chao trước khi cân bằng năng lượng .47
Hình 3.13: Tín hiệu từ chao sau khi cân bằng năng lượng 47
Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 50
Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” .54
Hình 4.3: Điểm cắt bên phải của diphone “-xi” .54
Hình 4.4: Các loại dấu câu .56
Hình 4.5: Lưu đồ thuật toán xác định câu trong văn bản .57
Hình 4.6: Lưu đồ thuật toán xác định từ trong câu 58
Hình 4.7: Lưu đồ thuật toán xác định dấu của từ .59
Hình 4.8: Lưu đồ thuật toán tách từ thành 2 diphone 60
Hình 4.9: Cộng xếp chồng các tín hiệu thành phần .62
Hình 4.10: Lưu đồ ghép nối 2 diphone để tạo thành từ. 63
Hình 4.11: Ghép nối hai diphone .63
Hình 4.12: Vị trí lấy cửa sổ 64
Hình 4.13: Biểu diễn tần số cơ bản của từ theo thời gian 64
Hình 4.14: Tín hiệu âm a và đường biểu diễn Fo của thanh bằng .65
Hình 4.15: Tín hiệu âm à và đường biểu diễn Fo của thanh huyền .65
Hình 4.16: Tín hiệu âm á và đường biểu diễn Fo của thanh sắc 66
Hình 4.17: Tín hiệu âm ả và đường biểu diễn Fo của thanh hỏi 66
Hình 4.18: Tín hiệu âm ạ và đường biểu diễn Fo của thanh nặng .66
Hình 4.19: Tín hiệu âm ã và đường biểu diễn Fo của thanh ngã .67
Hình 4.20: Tính chu kỳ cơ bản F0 tại điểm i 68
Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt .68
Hình 4.22: Giao diện chính của chương trình 70
Hình 4.23: Tạo hai từ xin và chao 71
Hình 4.24: Biểu diễn tín hiệu 2 từ xin và chao 72
Hình 4.25: Thay đổi tần số cơ bản Fo để tạo thanh huyền 72
Hình 4.26: Xử dụng công cụ biến đổi cân bằng năng lượng .73
Hình 4.27: Sau khi cân bằng năng lượng .73
Hình 4.28: Cơ sở dữ liệu diphone 74
Hình 4.29: Chức năng đọc văn bản 75
LỜI NÓI ĐẦU
Máy tính đóng vai trò quan trọng và không thể thiếu trong cuộc sống hiện đại.
Ngày nay, hầu hết mọi lĩnh vực như: cơ khí, điện tử, giao thông liên lạc . đều có
sự tham gia của máy tính. Máy tính đã trở thành một công cụ hữu hiệu của con
người trong xử lý thông tin. Sự phát triển của xã hội khiến cho khối lượng công
việc cần xử lý tăng theo, nhu cầu tính toán, trao đổi thông tin cũng nằm trong sự
tăng trưởng này. Việc cải tiến, nâng cao tốc độ tính toán, bộ nhớ cho máy tính
diễn ra rất mạnh mẽ và hoàn toàn đáp ứng với nhu cầu cần thiết. Cùng với sự phát
triển nhanh chóng của máy tính, các hình thức trao đổi thông tin giữa con người
và máy tính cũng trở nên đa dạng. Hiện tại việc trao đổi thông tin phổ biến giữa
người và máy thông qua bàn phím, chuột, cảm biến, màn hình, máy in . Tuy
nhiên một phương pháp trao đổi thông tin mới được đánh giá cao và khá gần gũi
đối với con người đó là sử dụng giọng nói. Để đạt được phương pháp này đòi hỏi
sự kết hợp của nhiều ngành nghiên cứu như trí tuệ nhân tạo, ngôn ngữ học, xử lý
tiếng nói . Vấn đề tổng hợp tiếng nói trong xử lý tiếng nói là một trong những vấn
đề cần nghiên cứu và được trình bày trong luận văn này.
Tổng hợp tiếng nói đã được biết đến và nghiên cứu khá rộng rãi trên thế giới. Kết
quả thu được rất khả quan và làm tiền đề quan trọng cho sự giao tiếp người máy.
Có khá nhiều ngôn ngữ được tổng hợp thành công với chất lượng khá tốt như
tiếng Anh, tiếng Pháp . Ở Việt Nam tuy xử lý tiếng nói mới được chú trọng
nghiên cứu trong thời gian gần đây nhưng cũng đã thu được một số kết quả đáng
khích lệ.
Với mục đích góp phần vào sự phát triển của tổng hợp tiếng Việt, đề tài này
nghiên cứu phương pháp tổng hợp tiếng Việt dựa trên việc ghép nối các âm tiết cơ
bản sử dụng giải thuật TD-PSOLA. Đề tài này xây dựng một ứng dụng hoàn chỉnh
về tổng hợp tiếng việt dựa trên nghiên cứu trên. Ứng dụng này cho phép theo dõi
một cách trực quan quá trình ghép nối tín hiệu, quá tình thay đổi tần số của tín
hiệu, quá trình cân bằng năng lượng, và cuối cùng là tiếng nói được phát ra với
chất lượng chấp nhận được.
Báo cáo được chia làm 4 chương:
Chương I: Lý thuyết về tiếng nói và xử lý tiếng nói. Chương này đề cập tới
những vấn đề cơ bản nhất về các đặc trưng của tín hiệu tiếng nói và các lĩnh
vực của xử lý tiếng nói.
ã Chương II: Tổng hợp tiếng nói sẽ trình bày các phương pháp khác nhau
trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả của các phương
pháp này.
ã Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết về giải
thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA, đồng thời cũng đề
cập tới các vấn đề liên quan như vấn đề lọc nhiễu, cân bằng năng lượng .
ã Chương IV: Thiết kế xây dựng ứng dụng tổng hợp tiếng Việt. Dựa trên
nghiên cứu lý thuyết trong các chương trước, chương này sẽ trình bày cách áp
dụng thuật toán TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ
văn bản và đánh giá các kết quả thu được.
Trong quá trình viết luận văn chắc chắn không thể tránh khỏi những thiếu sót, vì
vậy mong được hội đồng châm trước.
Cuối cùng xin gửi lời cảm ơn tới toàn thể hội đồng, các thầy cô giáo trong khoa
Công nghệ thông tin, các thầy cô giáo trong bộ môn Kỹ thuật máy tính. Cảm ơn
thầy giáo Trịnh Văn Loan đã tận tình giúp đỡ, hướng dẫn tôi hoàn thành luận văn
này.
Học viên
Lê Trung Dũn
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 91
👁 Lượt xem: 614
⬇ Lượt tải: 16
📎 Số trang: 55
👁 Lượt xem: 554
⬇ Lượt tải: 17
📎 Số trang: 40
👁 Lượt xem: 534
⬇ Lượt tải: 16
📎 Số trang: 53
👁 Lượt xem: 762
⬇ Lượt tải: 16
📎 Số trang: 60
👁 Lượt xem: 825
⬇ Lượt tải: 17
📎 Số trang: 116
👁 Lượt xem: 596
⬇ Lượt tải: 17
📎 Số trang: 68
👁 Lượt xem: 590
⬇ Lượt tải: 16
📎 Số trang: 112
👁 Lượt xem: 679
⬇ Lượt tải: 16
📎 Số trang: 56
👁 Lượt xem: 464
⬇ Lượt tải: 16
📎 Số trang: 56
👁 Lượt xem: 427
⬇ Lượt tải: 16
Những tài liệu bạn đã xem
📎 Số trang: 78
👁 Lượt xem: 419
⬇ Lượt tải: 16