Спектральная форма сигнала - GolovanovSrg/VAD GitHub Wiki

#Описание

Spectral Flatness

Белый шум имеет плоский спектр, в то время как речь имеет не стационарный спектр, более насыщенный в области низких частот. Таким образом, высокая дисперсия характерна для речи, а низкая - для шума.

Достоинства

  1. Хорошо характеризует речь при низком SNR, если динамически оценивать шум.

Недостатки

  1. Значения могут зависеть от среды.

Спектральная плоскостность (Spectral Flatness Measure, tonality coefficient, Wiener entropy)

Она является мерой единообразия мощности спектра. Шум обычно продолжительный, с звуковой энергией размазанной достаточно плавно в пределах шумового диапазона, в то время как звуки животных, являются менее однородными по структуре своей частоты. Мера зашумления принимает значение 0 либо 1 - белый шум имеет значение 1 , и чистый тон имеет значение 0. Чтобы обобщить на непрерывную шкалу, SFM измеряется по логарифмической шкале, в диапазоне от 0 до минус бесконечности (белый шум: log1=0; полный порядок: log0=минус бесконечность). SFM мульти-гармонического звука зависит от распределения спектра мощности

SMF_db = 10log10(Gm / Am), где Am и Gm это соответственно среднее арифметическое и среднее геометрическое спектра речи.

Достоинства

  1. Хорошо работает при низком SNR.
  2. Хорошо различает ударные (плоский спектр) и гармонические сигналы.

Недостатки

  1. Чувствительность к малым значениям в спектре.
  2. Не все ударные сигналы являются плоскими во всем диапазоне частот (бас, барабан).

Функция изменения спектра

Характеризует похожесть соседних фреймов. Шум предполагается стационарным, а речь - нет. Можно использовать автокорреляцию или какую-либо меру сходства.

Достоинства

???

Недостатки

  1. Шум должен быть стационарным.

Доминантная частота

Частота с наибольшим значением амплитуды.

Спектральная энтропия

Спектральная энтропия (Spectral Entropy) определяется путем интерпретирования кратковременного спектра как распределение вероятности одной дискретной случайной величины X и затем вычисления энтропии распределения. Спектральное распределение определяется путем нормализации значений кратковременного спектра:

где s(f) это спектральная энергии для частоты f, а px-это спектральное распределение. Теперь мы можем рассчитать спектральную энтропию фрейма-j как

Коль скоро речь имеет гармоническую структуру, ожидается что она будет иметь относительно низкую энтропию, в то время как постоянный фоновый шум, как ожидается, будет иметь высокую энтропию.

Достоинтсва

  1. Хорошо характеризует речь при многих сильных шума (белый, коричневый, розовый, узкополосный шумы)

Недостатки

  1. Различные шумовые сигналы, такие как сигнализация, тормоза скрип, сирены также как и речь скорее всего будут иметь низкую энтропию.

#Источники Статья 1

habrahabr

Статья 2

Статья 3 (как вычислять энтропию подробно)

Статья 4