Теория - d-01/graduate-2021-dec GitHub Wiki
Affect / аффект -- внешнее проявление эмоций или чувств через выражение лица, голос и другие биологические сигналы.
Эмоция – это особый вид психических процессов, которые выражают переживание человеком его отношения к окружающему миру и самому себе. Эмоция позволяет быстро и экономно (без обдумывания) реагировать на внешние воздействия. Некоторые эмоции являются универсальными и могут быть поняты человеком, независимо от его культуры.
Emotion Recognition -- задача распознавания эмоций.
Facial Expression Recognition (FER) -- задача распознавания выражения лица.
Face recognition -- задача идентификации личности по фотографии (даны две фотографии, определить один и тот же человек или нет).
Face detection -- задача обнаружения лица на фотографии (алгоритм должен вернуть координаты бокса, выделяющего лицо).
Human Machine Interaction (HMI) -- задача обеспечения эффективного взаимодействия между человеком и вычислительной машиной.
Audio-Visual Emotion recognition Challenge (AVEC) -- соревнование по распознаванию эмоции по видео и аудио записи.
Sign Agreement Metric (SAGR) -- метрика, альтернатива RMSE, для оценки качества определения valence-arousal предсказаний. Например, если ground-truth (истинное значение) valence равно +0.3 то по метрике RMSE предсказание -0.1 и +0.7 соответствуют одинаковому штрафу, хотя на самом деле предсказание +0.7 гораздо лучше чем -0.1, потому что имеет корректный знак (правильное направление по оси valence). Метрика SAGR штрафует только за несовпадение знака.
где
= 1 если предсказание имеет тот же знак, что и ground-truth, и = 0 если знаки различны.
В 1971 году доктор Пол Экман (Dr. Ekman) выделил 6 базовых эмоций (категорий):
- Anger
- Surprise
- Disgust
- Enjoyment
- Fear
- Sadness
В дополнение к 6 базовым выражениям лица модели Экмана могут быть добавлены следующие выражения: презрение (contempt), нейтральное (безэмоциональное) выражение и неопределенное выражение (выражение, которое не подходит ни под одну категорию).
Полный список:
- Neutral - нейтральное выражение
- Anger - гнев
- Contempt - презрение
- Disgust - отвращение
- Fear - страх
- Happy - радость
- Sad - грусть
- Surprise - удивление
- Uncertain - неопределенное выражение
В отличии от дискретной модели Экмана, valence-arousal модель описывает эмоцию с помощью двух непрерывных шкал: valence (знак: позитивный, приятный / негативный, неприятный) и arousal (возбуждение: возбужденный / спокойный). Значения для обеих шкал задаются дробным числом из отрезка [-1, 1].
Система координат valence-arousal (знак-возбуждение) или pleasant-tense (приятный-напряженный):
FACS / Система кодирования лицевых движений / СКЛиД
Модель FACS, разработанная Полом Экманом в 1978 году, использует для описания эмоций не статическое выражение лица, а двигательные единицы (AU, Action Units).
Подробнее: https://en.wikipedia.org/wiki/Facial_Action_Coding_System
Source: http://cbcsl.ece.ohio-state.edu/enc-2020/index.html
Подробный обзор датасетов можно найти в работе AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild (https://arxiv.org/abs/1708.03985) в разделе 2.1 Existing databases.
- KDEF (1998)
- CK+ (2010)
- FER-2013 (2013)
- FER+ (2016)
- AffectNet (2017)
Continuous dimensional model (e.g., valence and arousal).
-
Release date: 2017
-
Size:
- 1M images
- 9 facial expressions + valence-arousal intensity
- 120GB
-
Links:
-
https://arxiv.org/abs/1708.03985
AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild
-
http://mohammadmahoor.com/affectnet/
Official homepage
-
Karolinska Directed Emotional Faces
Студийная съемка 70 актеров изображающих 7 эмоций. Каждая эмоция снята с 5 ракурсов. Не подходит для обучения нейросети из-за низкого разнообразия (diversity) лиц.
-
Release date: 1998
-
Size:
- 4900 pictures (
70 * 5 * 2 * 7
) - 70 actors: 35 males / 35 females
- 5 angles in 2 sessions
- 7 emotions (afraid, angry, disgusted, happy, neutral, sad, surprised)
- 500MB
- 4900 pictures (
-
Links:
-
https://link.springer.com/content/pdf/10.3758/brm.40.1.109.pdf
Facial expressions of emotion (KDEF): Identification under different display-duration conditions
-
Official homepage
-
The Facial Expression Recognition 2013
-
Release date: 2013
-
Size:
- 28,709 train / 3,589 test
- 7 categories (0=Angry, 1=Disgust, 2=Fear, 3=Happy, 4=Sad, 5=Surprise, 6=Neutral)
- 60MB
-
Links:
-
Challenges in Representation Learning: Facial Expression Recognition Challenge
Phone verified account only.
-
https://drive.google.com/file/d/1X60B-uR3NtqPd4oosdotpbDgy8KOfUdr/view
-
https://github.com/Iliescu-Dorin/FaceExpressionEnsemble/blob/main/Datasets/Fer2013/fer2013.rar
-
-
Release date: 2016
-
Links:
-
https://arxiv.org/abs/1608.01041
Training Deep Networks for Facial Expression Recognition with Crowd-Sourced Label Distribution
-
https://github.com/microsoft/FERPlus
New labels only.
-
Labels: FER top, FER+ bottom
- Release date: 2016
- Size:
- 13,718 images
- 5,600 subjects (1,628 with 2 or more photos)
- 8 emotions (anger, contempt, disgust, fear, happiness, neutral, sadness, surprise)
- 234MB
- Links:
The Extended Cohn-Kanade Dataset
-
Release date: 2010
-
Size:
- 593 video
- 123 subjects
- 7 epression classes (anger, contempt, disgust, fear, happiness, sadness, surprise)
-
Links:
-
https://www.computer.org/csdl/proceedings-article/cvprw/2010/05543262/12OmNzZ5olI
The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression
-
http://www.jeffcohn.net/Resources/
Official homepage
-
https://github.com/spenceryee/CS229
PNG frames
-
-
https://github.com/atulapra/Emotion-detection
- Release: 2019
- Task: emotion recognition
- Framework: TensorFlow
- Pretrained model:
- FER2013 (test accuracy 0.632), input size: (48, 48, 1)
- Download: https://drive.google.com/file/d/1FUn0XNOzf-nQV7QjbBPA6-8GLoHNNgv-/view?usp=sharing
- Classes (7): angry, disgusted, fearful, happy, neutral, sad, surprised
- Architecture: simple 4 layer CNN
- Web-cam feed with haar cascade detector
- 135 lines of Python code
-
https://github.com/nikhil-salodkar/facial_expression
- Release: 2018
- Task: emotion recognition
- Framework: TensorFlow
- Pretrained model:
- AffectNet (test accuracy 0.54), input shape: (200, 200, 3)
- Download: N/A
- Classes (11): {0: Neutral, 1: Happiness, 2: Sadness, 3: Surprise, 4: Fear, 5: Disgust, 6: Anger, 7: Contempt, 8: None, 9: Uncertain, 10: No-Face}
- Architecture: ResNet50
- Web-cam feed with haar cascade detector