Mã tài liệu: 250318
Số trang: 1
Định dạng: rar
Dung lượng file: 2,624 Kb
Chuyên mục: Tổng hợp
Trang nhan đề
Lời cảm ơn
Mục lục
Danh mục
Mở đầu
Chương 1: Gioi thiệu SMART MEETING ROOM
Chương 2: Bài toán ghi nhật kí người nói cho dữ liệu hội nghị
Chương 3: Hệ thống ghi nhật kí người nói cho dữ liệu hội nghị
Chương 4: Thử nghiệm và đánh giá
Tài liệu tham khảo
Mục lục
LỜI CẢM ƠN i
Mục lục ii
Danh mục các ký hiệu, các chữ viết tắt . v
Danh mục các bảng . vi
Danh mục các hình vẽ, đồ thị vii
MỞ ĐẦU 1
Chương 1 GIỚI THIỆU SMART MEETING ROOM 4
1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? 4
1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị 4
1.2.1. Nhiều hình thức hội nghị và loại từ vựng 4
1.2.2. Tiếng nói đồng thời/tương tác cao . 5
1.2.3. Nhiều microphone . 5
1.2.4. Nhiều góc nhìn camera 5
1.2.5. Tích hợp thông tin đa phương tiện 5
1.3. Giới thiệu về Smart Meeting Room (SMR) . 5
Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7
2.1. Giới thiệu bài toán . 7
2.2. Phát biểu bài toán 9
2.3. Độ đo đánh giá . 10
2.4. Các hướng tiếp cận giải quyết bài toán . 11
2.4.1. Bài toán phân đoạn theo người nói 11
iii
2.4.2. Bài toán phân nhóm theo người nói . 13
2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR 14
2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) 15
Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17
3.1. Mô hình hệ thống xử lý đa kênh . 17
3.2. Mô hình hệ thống xử lý nhanh . 19
3.3. Các kĩ thuật tiền xử lý . 21
3.3.1. Kỹ thuật lọc nhiễu 21
3.3.2. Kỹ thuật tính TDOA 23
3.3.3. Đặc trưng ngữ âm 24
3.4. Mô hình ngữ âm . 27
3.4.1. Mô hình Markov ẩn (HMM) . 27
3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) 29
3.6. Kỹ thuật phân đoạn theo người nói . 31
3.6.1. Phân đoạn dựa trên đặc trưng 31
3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31
3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32
3.6.2. Phân đoạn dựa trên mô hình 32
3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33
3.7. Kỹ thuật phân nhóm theo người nói 34
3.7.1. Phân nhóm lượng hoá vector . 34
3.7.2. Phân nhóm tích tụ 34
iv
3.8. Kỹ thuật post-processing 37
3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh 37
3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37
3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD 38
3.9.3. Lượng giá TDOA . 39
3.9.4. Chuẩn hoá TDOA 41
3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering 42
Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 45
4.1. Dữ liệu thực nghiệm 45
4.2. Độ đo đánh giá . 46
4.3. Các kĩ thuật áp dụng và tham số 47
4.3.1. Kĩ thuật lọc nhiễu . 47
4.3.2. Kĩ thuật tính TDOA . 47
4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) 48
4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói 50
4.3.6. Kỹ thuật post-processing . 51
4.4. Kết quả thực nghiệm và thảo luận . 51
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh 51
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53
4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và Phân nhóm khác . 60
4.5. Kết luận và hướng phát triển . 62
TÀI LIỆU THAM KHẢO 65
Những tài liệu gần giống với tài liệu bạn đang xem
📎 Số trang: 10
👁 Lượt xem: 373
⬇ Lượt tải: 16
📎 Số trang: 113
👁 Lượt xem: 28
⬇ Lượt tải: 2
📎 Số trang: 113
👁 Lượt xem: 27
⬇ Lượt tải: 2
📎 Số trang: 1
👁 Lượt xem: 642
⬇ Lượt tải: 16
📎 Số trang: 2
👁 Lượt xem: 429
⬇ Lượt tải: 16
📎 Số trang: 62
👁 Lượt xem: 22
⬇ Lượt tải: 2
📎 Số trang: 62
👁 Lượt xem: 17
⬇ Lượt tải: 7
📎 Số trang: 62
👁 Lượt xem: 21
⬇ Lượt tải: 4
📎 Số trang: 62
👁 Lượt xem: 25
⬇ Lượt tải: 13
📎 Số trang: 8
👁 Lượt xem: 430
⬇ Lượt tải: 17
Những tài liệu bạn đã xem
📎 Số trang: 1
👁 Lượt xem: 462
⬇ Lượt tải: 16