Спектральная форма сигнала - GolovanovSrg/VAD GitHub Wiki
#Описание
Spectral Flatness
Белый шум имеет плоский спектр, в то время как речь имеет не стационарный спектр, более насыщенный в области низких частот. Таким образом, высокая дисперсия характерна для речи, а низкая - для шума.
Достоинства
- Хорошо характеризует речь при низком SNR, если динамически оценивать шум.
Недостатки
- Значения могут зависеть от среды.
Спектральная плоскостность (Spectral Flatness Measure, tonality coefficient, Wiener entropy)
Она является мерой единообразия мощности спектра. Шум обычно продолжительный, с звуковой энергией размазанной достаточно плавно в пределах шумового диапазона, в то время как звуки животных, являются менее однородными по структуре своей частоты. Мера зашумления принимает значение 0 либо 1 - белый шум имеет значение 1 , и чистый тон имеет значение 0. Чтобы обобщить на непрерывную шкалу, SFM измеряется по логарифмической шкале, в диапазоне от 0 до минус бесконечности (белый шум: log1=0; полный порядок: log0=минус бесконечность). SFM мульти-гармонического звука зависит от распределения спектра мощности
SMF_db = 10log10(Gm / Am), где Am и Gm это соответственно среднее арифметическое и среднее геометрическое спектра речи.
Достоинства
- Хорошо работает при низком SNR.
- Хорошо различает ударные (плоский спектр) и гармонические сигналы.
Недостатки
- Чувствительность к малым значениям в спектре.
- Не все ударные сигналы являются плоскими во всем диапазоне частот (бас, барабан).
Функция изменения спектра
Характеризует похожесть соседних фреймов. Шум предполагается стационарным, а речь - нет. Можно использовать автокорреляцию или какую-либо меру сходства.
Достоинства
???
Недостатки
- Шум должен быть стационарным.
Доминантная частота
Частота с наибольшим значением амплитуды.
Спектральная энтропия
Спектральная энтропия (Spectral Entropy) определяется путем интерпретирования кратковременного спектра как распределение вероятности одной дискретной случайной величины X и затем вычисления энтропии распределения. Спектральное распределение определяется путем нормализации значений кратковременного спектра:
где s(f) это спектральная энергии для частоты f, а px-это спектральное распределение. Теперь мы можем рассчитать спектральную энтропию фрейма-j как
Коль скоро речь имеет гармоническую структуру, ожидается что она будет иметь относительно низкую энтропию, в то время как постоянный фоновый шум, как ожидается, будет иметь высокую энтропию.
Достоинтсва
- Хорошо характеризует речь при многих сильных шума (белый, коричневый, розовый, узкополосный шумы)
Недостатки
- Различные шумовые сигналы, такие как сигнализация, тормоза скрип, сирены также как и речь скорее всего будут иметь низкую энтропию.
#Источники Статья 1