Мел частотные кепстральные коэффициенты (MFCC) - GolovanovSrg/VAD GitHub Wiki

Описание

MFCC - представление лог мощности спектра в мел частотной области. Описывают мощность огибающей спектра, которая (огибающая) характеризует модель речевого тракта.

Вычисление:

  1. Предварительная фильтрация.

  2. Take the Fourier transform of (a windowed excerpt of) a signal.

  3. Map the powers of the spectrum obtained above onto the mel scale, using triangular overlapping windows.

  4. Take the logs of the powers at each of the mel frequencies.

  5. Take the discrete cosine transform of the list of mel log powers, as if it were a signal.

  6. The MFCCs are the amplitudes of the resulting spectrum.

Интерпретация коэффициентов

c0 - мощность всего частотного диапазона (возможно стоит убрать его из рассмотрения, т.к. речь и не речевые звуки могут иметь похожее значение коэффициента и он будет иметь доминирующую роль в классификации речь - шум)

с1 - баланс между низко- и высокочастотными компонентами во фрейме

все остальные коэффициенты не интерпретируемы (содержат мелкие детали спектра)

Достоинства

  1. Наиболее часто используемый признак.

Недостатки

  1. Не робастен при наличии аддитивного шума (обычно нормализуют для уменьшения влияния шума).
  2. Уравнивают низкие и высокие аплитуды в лог спектре.
  3. Учитывают индивидуальные особенности говорящего (Можно избавиться от этого. Применяем метод нормализации кепстрального среднего (CMN) с целью снижения искажений, вызванных каналом передачи. Т.е. вычисляется кепстральное среднее, которое приближенно описывает спектральные характеристики канала передачи (например, микрофона) и вычитается ("удаляется") из коэффициентов. В этом месте, происходит уменьшение чувствительности к голосу. Т.е. удаление индивидуальных особенностей речи говорящего ("обезличивание").).

Источники

Статья (рекомендуется к прочтению)

Статья (про распознавание речи; есть фильтрация и избавление от индивидуальных особенностей голоса)

habrahabr

Статья

wiki

github alejes