Библиотеки для VAD - GolovanovSrg/VAD GitHub Wiki

Обработка звука, извлечение признаков

LibXtract

Voice activity detection

1. speex

Предназначена для сжатия звука.

Speech probability of presence for the entire frame is based on the average filterbank a priori SNR.

(Статья)

Перешла на кодек opus, т.к. он лучше по всем параметрам.

Тест

Не тестировалась.

Для каждого фрейма вычисляются уровень активности голоса, спектральный наклон и SNR. Для этого каждый фрейм разбивается на диапазоны частот 0 - Fs/16, Fs/16 - Fs/8, Fs/8 - Fs/4, and Fs/4 - Fs/2, где Fs - частота дискретизации (8, 12, 16, 24 kHz). Диапазон 0 - Fs/16 фильтруется фильтром (передаточная функция H(z) = 1-z^(-1) - Moving Average) для уменьшения энергии на самых низких частотах. На каждом диапазоне вычисляем энергию. На основе этой энергии вычисляем остальные характеристики: SNR - среднее значение диапазонов, уровень активности голоса - основан на SNR и средней взвешенной сумме энергий диапазонов, спектральный наклон - средняя взвешенная сумма SNR диапазонов (положительные веса для низких диапазонов, отрицательные - для высоких). Считается автокорреляция и на её основании и основании посчитанных ранее значений происходит классификация (Как именно все это считается? Не ясно.).

Тест

Не тестировалась. Не ясно как вытянуть файлы отвечающие за vad.

3. WebRTC VAD | реализация от Google (вроде как)

Репозеторий google | новая версия vad

Алгоритм:

Используются фреймы 10 или 20 или 30 мс. Каждый фрейм разбивается на диапазоны: 80 Hz - 250 Hz, 250 Hz - 500 Hz, 500 Hz - 1000 Hz, 1000 Hz - 2000 Hz, 2000 Hz - 3000 Hz, 3000 Hz - 4000 Hz. Для каждого диапазона считается энергия и общая энергия фрейма в дБ. Если общая энергия не мала, то для каждого диапазона применяется Gaussian mixture models (в предположении, что есть два класса - шум и голос) и находится значение log_likelihood_ratio того, что данный диапазон - голос. Все log_likelihood_ratio складываются с весами (значение весов обновляются после каждой итерации) и принимается решение по трешхолду.

Тест

Слишком зашумленную тихую речь удаляет, если установить самый жесткий режим обработки. При более легком режиме - пропускает шумы. Пропускает смех, шум вперемешку с звуком двигателя, более-менее зашумленную речь опознает.

4. bob.spear

Используется энергия по трешхолду или 4 Hz modulation energy.

Тест

Удаляет некоторую речь (в том числе и не сильно зашумленную), требуется подбор параметров трешхолда.

5. aubio

Предназначена для работы с музыкой. Алгоритм основан на простой энергии. Cсылка.

Тест

Не тестировалась.

6. baidu voice recognition

Алгоритм основан на энергии поддиапазонов и трешхолде (все как то хитро считается).

###Тест Аналогично webrtcvad.

7. VoiceBox-Matlab (vadsohn)

Алгоритм основан на статистическом подходе (Статья)

Тест

Необходимо подбирать много параметров. Пропускает некоторое чистое молчание. Удаляет звук двигателя, а также часть звуков слов.

8. Shout

Есть классификация на шум, речь и не речь.

Алгоритм основан на MFCC и их производных + ZCR + GMM (Тезисы).

Тест

Не тестировалась. Требуется тренеровка модели.

9. Minimum Mean-squared Error A Posteriori Estimation of High Variance Vehicular Noise

Реализация алгоритма из статьи

Тест

Пропускает шумы (в том числе и часть чистого молчания). Нужно подбирать трешхолд. Если установить трешхолд чуть больше, то удаляет некоторые буквы.

10. Bavieca

Тест

Не тестировалась. Требуется акустическая модель.

11. CMU Sphinx

Bent Schmidt Nielsen's algorithm. Each time audio comes in, the average signal level and the background noise level are updated, using the signal level of the current audio. If the average signal level is greater than the background noise level by a certain threshold value (configurable), then the current audio is marked as speech. Otherwise, it is marked as non-speech.

Пишут, что этот алгоритм очень прост и webrtc vad лучше.

Тест

Не тестировалась.

VAD есть, но не ясно где

FreeSWITCH

Библиотеки для VAD - GolovanovSrg/VAD GitHub Wiki

Обработка звука, извлечение признаков

Voice activity detection

1. speex

Тест

2. Opus codec

Тест

3. WebRTC VAD | реализация от Google (вроде как)

Тест

4. bob.spear

Тест

5. aubio

Тест

6. baidu voice recognition

7. VoiceBox-Matlab (vadsohn)

Тест

8. Shout

Тест

9. Minimum Mean-squared Error A Posteriori Estimation of High Variance Vehicular Noise

Тест

10. Bavieca

Тест

11. CMU Sphinx

Тест

VAD есть, но не ясно где