Мел частотные кепстральные коэффициенты (MFCC) - GolovanovSrg/VAD GitHub Wiki
Описание
MFCC - представление лог мощности спектра в мел частотной области. Описывают мощность огибающей спектра, которая (огибающая) характеризует модель речевого тракта.
Вычисление:
-
Предварительная фильтрация.
-
Take the Fourier transform of (a windowed excerpt of) a signal.
-
Map the powers of the spectrum obtained above onto the mel scale, using triangular overlapping windows.
-
Take the logs of the powers at each of the mel frequencies.
-
Take the discrete cosine transform of the list of mel log powers, as if it were a signal.
-
The MFCCs are the amplitudes of the resulting spectrum.
Интерпретация коэффициентов
c0 - мощность всего частотного диапазона (возможно стоит убрать его из рассмотрения, т.к. речь и не речевые звуки могут иметь похожее значение коэффициента и он будет иметь доминирующую роль в классификации речь - шум)
с1 - баланс между низко- и высокочастотными компонентами во фрейме
все остальные коэффициенты не интерпретируемы (содержат мелкие детали спектра)
Достоинства
- Наиболее часто используемый признак.
Недостатки
- Не робастен при наличии аддитивного шума (обычно нормализуют для уменьшения влияния шума).
- Уравнивают низкие и высокие аплитуды в лог спектре.
- Учитывают индивидуальные особенности говорящего (Можно избавиться от этого. Применяем метод нормализации кепстрального среднего (CMN) с целью снижения искажений, вызванных каналом передачи. Т.е. вычисляется кепстральное среднее, которое приближенно описывает спектральные характеристики канала передачи (например, микрофона) и вычитается ("удаляется") из коэффициентов. В этом месте, происходит уменьшение чувствительности к голосу. Т.е. удаление индивидуальных особенностей речи говорящего ("обезличивание").).
Источники
Статья (рекомендуется к прочтению)
Статья (про распознавание речи; есть фильтрация и избавление от индивидуальных особенностей голоса)