Danh gia cac thuat toan phat hien tieng noi dung nguong thich nghi va mang neural trong mien wavelet

Đánh giá các thuật toán phát hiện tiếng nói dùng ngưỡng thích nghi và mạng neural trong miền wavelet

Upload bởi: dt_4everlove

Mã tài liệu: 245308

Số trang: 5

Định dạng: pdf

Dung lượng file: 437 Kb

Chuyên mục: Tổng hợp

Đến trang tải tài liệu này

Info

ĐÁNH GIÁ CÁC THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI DÙNG

NGƯỠNG THÍCH NGHI VÀ MẠNG NEURAL TRONG MIỀN WAVELET

PERFORMANCE ASSESSMENT ON VOICE ACTIVITY DETECTION

ALGORITHMS USING ADAPTIVE THRESHOLD AND NEURAL NETWORK IN

WAVELET DOMAIN

SVTH: Nguyễn Trí Phước, Trần Lê Anh Thư, Nguyễn Ngọc Như Trang

Lớp05DT2 - 05DT3 , Khoa Điện tử Viễn thông , Trường Đại học Bách Khoa

GVHD: TS. Phạm Văn Tuấn

Khoa Điện tử Viễn thông, Trường Đại học Bách Khoa

TÓM TẮT

Mục đích của bài báo là nghiên cứu các thuật toán phát hiện tiếng nói (VAD) dựa trên biến

đổi Wavelet. Các thuộc tính được trích trong miền Wavelet sẽ được đem so sánh với các mức

ngưỡng thích nghi hoặc được nhận dạng bởi mạng neural (NN) để thực hiện việc phân loại.

Những thuật toán VAD này được đánh giá và so sánh với các phương pháp VAD tiêu chuẩn khác

được đề xuất bởi ITU-T và ETSI. Kết quả mô phỏng trên cơ sở dữ liệu TIMIT đã trộn nhiễu cho

thấy các phương pháp dùng biến đổi Wavelet đạt hiệu suất phân loại cao hơn các phương pháp

khác, đồng thời cho khối lượng tính toán thấp hơn.

ABSTRACT

The objective of this paper is to study on voice activity detection (VAD) algorithms based

on Wavelet transform. The feature extracted in Wavelet domain is then compared to adaptive

thresholds or recognized by a neural network (NN) to do classification. These VAD algorithms are

evaluated with the noisy TIMIT corpus and compared to other VAD methods standardized by ITU-T

and ETSI. The experimental results show that Wavelet approaches lead to superior classification

performance and offer a much lower computational complexity than other VAD methods.

1. Giới thiệu

Kỹ thuật phát hiện tiếng nói đóng vai trò quan trọng trong các phương pháp xử lý

tiếng nói và ứng dụng trong thông tin liên lạc như mã hóa, truyền dẫn, nhận dạng . Do

đặc điểm phức tạp của các loại nhiễu trong thực tế nên rất khó xây dựng được các thuật

toán VAD bền vững đối với nhiễu môi trường. Đã có nhiều phương pháp được đề xuất

nhằm nâng cao hiệu suất của bộ VAD như sử dụng kết hợp nhiều đặc tính trong miền thời

gian, miền phổ và miền Wavelet; thiết kế các bộ quyết định thích nghi với mức nhiễu; và

huấn luyện các mô hình thống kê như mạng neural, mô hình Markov ẩn, v.v .

Hình 1. Kết quả VAD với tín hiệu tiếng nói bị nhiễu

Trong bài báo này, chúng tôi tiến hành nghiên cứu các thuật toán VAD dùng biến

đổi Wavelet rời rạc (DWT) và đánh giá hiệu suất của các thuật toán trên cơ sở dữ liệu

TIMIT đã được trộn nhiễu. Trong phần 2 trình bày các thuật toán VAD dùng DWT và các

phương pháp VAD tiêu chuẩn của ITU-T và ETSI. Mô phỏng và phân tích kết quả được

trình bày trong phần 3. Phần cuối trình bày kết luận và đưa ra hướng phát triển.

2. Các thuật toán VAD

Tín hiệu tiếng nói ban đầu được phân khung, sau đó trích các thuộc tính mang đặc

trưng cho phần tiếng nói (speech) và phần không có tiếng nói (non-speech) (hình 2). Việc

thực hiện quyết định dựa trên mức ngưỡng hay theo mô hình đã được huấn luyện.

Hình 2. Sơ đồ khối thực hiện VAD

2.1. VAD dùng biến đổi Wavelet

2.1.1. Thuộc tính khoảng cách giữa hai băng con và ngưỡng thích nghi

Thuật toán tính khoảng cách giữa hai băng con WSDM (Wavelet Subband Distance

Measure) theo dựa trên sự khác nhau về phân bố năng lượng băng con của phần speech

và phần non-speech. Thuộc tính này được xác định theo các công thức trong (1).

, (1)

Với N là số mẫu trong một khung, và là chiều dài của tập các hệ số

wavelet tại băng con tần số thấp và cao. được tính bằng cách áp dụng

DWT tại tham số tỷ lệ thứ m và lấy cửa sổ khung thứ i. Một bộ lọc percentile filter (PF)

được thiết kế dựa trên nguyên lý: thông tin tiếng nói không thường xuyên xuất hiện tại tất

cả các kênh tần số và tại cùng một thời điểm dùng để xác định ngưỡng nhiễu thích nghi.

2.1.2. Thuộc tính mức năng lượng của các hệ số chi tiết và ngưỡng quyết định thích nghi

Việc sử dụng thuộc tính mức năng lượng của các hệ số Wavelet chi tiết WDCE

(Wavelet Details Coefficients’ Energy) theo dựa trên đặc điểm: tại các thang tỷ lệ lớn

của DWT, thành phần chi tiết của tín hiệu bị nhiễu phần lớn được quyết định bởi phần

tiếng nói trong khi biên độ của nhiễu rất nhỏ. Do đó, VAD được thực hiện bằng cách so

sánh năng lượng của các thành phần chi tiết lấy từ biến đổi Wavelet trong khung đang xét

với năng lượng của các thành phần chi tiết của 4 khung nhiễu gần nhất trước đó.

2.1.3. Thuộc tính WSDM và mô hình mạng Neuron (NN)

Trong , một mô hình mạng NN có 3 lớp được huấn luyện để phân loại

speech/non-speech cho từng frame âm thanh ở ngõ vào. Mạng neural được thiết lập gồm 3

lớp: lớp nhận dữ liệu vào, lớp ẩn (phân tích dữ liệu), lớp ngõ ra. Thông qua thuật toán

Levenberg-Marquardt , NN được huấn luyện trên dữ liệu TIMIT Test đã được trộn

nhiễu. Thuộc tính WSDM và các đạo hàm bậc 1 và bậc 2 của WSDM được đưa vào lớp

ngõ vào của NN. Hai tín hiệu tại lớp ngõ ra được so sánh với nhau để thực hiện quyết định.

2.2. Các phương pháp khác

2.2.1. VAD G.729 Annex B ITU-T

Thuật toán VAD G729B trong được phát triển dành cho thông tin đa phương

tiện và điện thoại cố định. Tín hiệu tiếng nói được chia thành các khung có độ dài 10ms

Tìm tài liệu

Đánh giá các thuật toán phát hiện tiếng nói dùng ngưỡng thích nghi và mạng neural trong miền wavelet

Info

Phần bên dưới chỉ hiển thị một số trang ngẫu nhiên trong tài liệu. Bạn tải về để xem được bản đầy đủ

GỢI Ý

Nghiên cứu các thuật tóan mờ để giảm nhiễu ...

Ứng dụng kỹ thuật Wavelet trong việc phân ...

Hệ thống phát hiện khuôn mặt dựa trên mạng ...

Ứng dụng mạng neural trong nhận dạng kí tự

Ứng dụng mạng neural trong nhận dạng kí tự 1

Đánh giá về kế toán tiền lương và các khoản ...

Đánh giá về kế toán tiền lương và các khoản ...

Nén ảnh sử dụng biến đổi wavelet và ứng dụng ...

Xây dựng bộ ngữ liệu để đánh giá bằng tiếng ...

Đánh giá ảnh hưởng của jitter wander trên ...

Đánh giá thực hiện công việc trong các tổ ...

Nghiên cứu các loại thang đo sử dụng trong ...

QUAN TÂM

Đánh giá các thuật toán phát hiện tiếng nói ...

CHUYÊN MỤC

KhoTri thức số

Về chúng tôi

MENU

LIÊN HỆ

098 333 9285