Interpretable Deep Learning: Interpretation, Interpretability, Trustworthiness, and Beyond - Songwooseok123/Study_Space GitHub Wiki
논문링크: Interpretable Deep Learning: Interpretation, Interpretability, Trustworthiness, and Beyond (arXiv 2021)
딥러닝 모델의 성능이 여러 분야에서 좋지만
due to their over-parameterized black-box nature (측정할 수 있는 것보다 parameter가 많고 계층이 많음)
모델의 결과를 이해하기 어렵다(lack of interpretability)
-> 따라서 model의 interpretation이 필요하다.
- 혼동하기 쉬운 "Interpretation"과 "Interpretability"를 설명함 (Section 2)
- 새로운 taxonomy(3가지 dimension)를 제안하면서 여러 interpretation algorithm을 설명함(Section 3).

- Interpretation algorithms(의 trustworthiness) 을 평가하는 방법을 설명함(Section 4-1).
- Model의 interpretability를 평가하는 방법을 설명함(using “trustworthy” interpretation algorithms) (Section 4-2).
- Discuss connections between deep models’ interpretations and other factors(Section 5)
: 모델이 결정을 내리는 방법을 설명하는 방법
-
Trustworthy interpretation algorithm
"모델이 결정을 어떻게 하는지"를 잘 드러내는 interpretation algorithm이 trustworthy 한 algorithm이다. -> interpretation algorithm을 평가해서 trusty 한 algorithm으로 interpretation을 내야겠다~
: 모델의 해석 가능성, 모델의 결과를 사람이 이해할 수 있는 정도, 사람이 이해할 수 있게 설명하는 능력.
-
Interpretation algorithms 들의 trustworthiness를 평가하고 trustworthy 한 것을 뽑는다.
Trustworthy한 interpretation algorithms을 통해 interpretation results를 낸다.
사람도 interpretation results의 ground truth 라벨을 단다. (Section 4-2 그림 참조)
Interpretation results와 human labeled interpretations을 matching 함으로서 모델의 interpretability를 평가한다. -
요약 : model의 숨어있는 원리(모델이 결정을 어떻게하는지)를 trustworthy interpretation algorithm이 뱉고, human labeled와 overlap하는 정도로 모델의 interpretability를 평가한다.

위의 그림에는 알고리즘이 소개된 논문의 년도 를 이름 옆에 괄호 안에 명시했습니다. e.g. LIME(2015)
최근까지 (2020년,2021년) 관련 논문이나 응용,적용을 하는 논문이 나오는 알고리즘은 괄호를 닫지 않고 열어 놓았습니다. e.g. LIME(2015~
각 알고리즘에 대한 설명은 이 글 본문에 Ctrl + F 키로 검색해서 가는 것을 추천합니다. (본문 너무 복잡)
각 알고리즘을 검색해서 찾아가면 , 각 알고리즘을 소개한 논문과 관련된 논문을
[논문:제목 “어쩌구저쩌구”, 년도 ] 형식으로 적어놓았습니다.
각 알고리즘에 관한 설명이 부족할 수도 있습니다.
질문을 댓글로 남겨 주시면 좋은 답변을 드리겠습니다.
(1) targeting models for interpretation(해석할 모델)
-
Model-agnostic:
- 학습에 사용된 model이 무엇인지에 관계없이 독립적으로 모델을 해석하는 알고리즘(모델에 상관없이 적용가능).
모델의 내부는 사람이 알 수 없으므로, 모델을 설명하기 위해서는 모델 밖에서 근거를 찾아야 한다.
e.g. LIME, Perturbation
- 학습에 사용된 model이 무엇인지에 관계없이 독립적으로 모델을 해석하는 알고리즘(모델에 상관없이 적용가능).
-
Differentiable model(미분가능한 모델):
- interpretations of differentiable models
e.g. SmoothGrad, GradCAM, LRP , AM
- interpretations of differentiable models
-
Specific model :
- This option contains algorithms that can only be applied to certain types of models. (특정 종류의 모델만 적용할 수 있는 설명 기법)
-
CNNs,GANs,GNNs(Graph Neural Networks) 에 적용하는 기법.
e.g. CAM, TCAV
- This option contains algorithms that can only be applied to certain types of models. (특정 종류의 모델만 적용할 수 있는 설명 기법)
(2) representations of interpretations
-
Feature (Importance) : These algorithms aim at interpretations on input data (images, texts, or extracted features; or intermediate features of models, e.g. the activation of neural networks).
- LIME, Perturbation, IG, SmoothGrad, LRP
-
Model Response : Algorithms here generally propose to generate or find new examples and see the model’s responses, so as to investigate the model behaviors on certain patterns or the rationale by which the model makes decisions. 알고리즘이 generate or 새로운 examples을 생성하고 model의 response를 본다, 따라서 특정 패턴이나 모델이 결정을 하는 원리에 대한 모델의 반응을 조사할수있다.
왜 강아지 class로 분류될 확률이 80%일까 -> prototype을 생성하는 알고리즘으로서 모델이 강아지 class를 어떻게 생각하고 있는지 알수 있음.- AM, Counterfactual, ProtoPNet
-
Model Rationale Process: There are algorithms that interpret the process of model inside rationale, i.e., how the model obtains final decisions.
- proxy algorithm 3개 (BETA, via Decision tree, via Graph models) , composition algorithm 1개 (capsule)
-
Dataset : Instead of direct interpretations on models, some algorithms propose to explain the examples in the training dataset that affect the training of models. 어떤 훈련 데이터에서 가장 영향을 받는지...
- DatasetCarto, InfluenceFunction
(3) formulation of interpretation algorithms

-
Closed-form:. These algorithms derive a closed-form formula from the target model and output interpretable terms. 모델 밖에서 모델을 해석하는 알고리즘
- ex) GradCAM, CAM
-
Composition: Algorithms here can be considered as components of (interpretable) models, usually obtained during training.
- ex) Capsule
-
Dependence: These algorithms build new operations upon the target model after training, and output interpretable terms. Target 모델을 training 시킨후에 , target 모델에 새로운 operation(연산)을 생성하고, interpretation을 output한다.
- ex) SmoothGrad, LRP, AM, Integrated Gradient
-
Proxy: Different from dependence, algorithms here obtain, via learning or derivation(유도), a proxy model for explaining the behavior of models. 알고리즘이(learning과 derivation을 통해서 ) proxy model을 얻고, proxy model이 model의 behavior을 설명한다.
- ex) LIME, TCAV
분류는 위에서 정의한 3가지 dimension으로 했습니다.
x축에 해당하는 dimension(representations of interpretations)은 # 으로
targeting models for interpretation 에 해당하는 dimension은 (1)any model , (2)differentiable, (3)specific 으로 표현 하였고
y축에 해당하는 dimension(formulation of interpretation algorithms)은 알고리즘이름 옆에 () 괄호로 표시했습니다. 밑의 LIME 알고리즘을 예시로 보면 어떤 카테고리에 있는지 알 수 있을 것입니다.
-
LIME (proxy) 논문:"Why Should I Trust You?": Explaining the Predictions of Any Classifier
원래 모델 f를 해석하기 쉬운 간단한 모델 g (ex. linear model) 로 근사시켜서,
관심있는 input 데이터($x$ )와 그 주변에 대해서 해석을 할 수 있다.
1. 해석하고자 하는 관측치 (x)를 고르고 x에 대응되는
- 얻은 간단한(해석이 쉬운) 모델 g의 input으로는 pixel 단위가 아닌 super-pixel (조각이 있으면 1, 없으면 0을 원소로 가짐)을 input으로 사용한다. (사전 segmentation 전처리가 필요함).
이유는 pixel보다 super pixel이 선형 모델 g에 알맞은 형태이고 g가 한 해석 결과를 사람이 봤을 때 또한 pixel 보다 super pixel로 표현되는게 이해하기 쉬움(이 조각 때문에 강아지로 분류될 확률이 82%구나.)
2.
3.

4.
위 식을 optimize 해서
의 가중치를 구한다.
5. 가중치가 가장 큰 superpixel 3개까지 보여줘! -> interpretation을 한다
-
Anchors(proxy)
- LIME과 비슷한 model-agnostic algorithmd임 . 논문 Anchors: High precision model-agnostic explanations.
-
LIME은 local interpretation을 수행한 후에 이것들을 모아서 global interpretation을 함.
밑의 두 개의 알고리즘은 LIME과 마찬가지로 global feature importance를 얻기 위해서 local aggregation 을 모아주는 algorithm -
GALE(proxy) [논문 :Global aggregations of local explanations for black box models,2019]
-
NormLIME(proxy) [논문:Normlime: A new feature importance metric for explaining deep neural networks,2019]
-
Perturbation (dependence) : input에 perturbation(무작위로 선택한 feature에 random value를 넣는다) 을 한 후 , prediction의 변화를 봄으로서 선택된 feature의 기여도를 평가한다.
- [논문 : Understanding deep networks via extremal perturbations and smooth masks,2019]
[논문: Interpretable explanations of black boxes by meaningful perturbation,2017]
- [논문 : Understanding deep networks via extremal perturbations and smooth masks,2019]
-
SmoothGrad (dependence) : [논문:Smoothgrad: removing noise by adding noise.,2017]
- model을 training 시킨 후(dependence), input image에 Gaussian noise를 더함으로서 gradient의 noise를 없앰.
- input에 noise 추가한 후에 sensitivity map을 구하고(sensiticity map은 activation function을 input x에 대해 미분해서 구함으로서 핵심이 되는 부분을 강조함) n개의 sample에 대해서 평균을 낸다.-> 더 선명한 sensitivity map을 구하는 방법.
- model을 training 시킨 후(dependence), input image에 Gaussian noise를 더함으로서 gradient의 noise를 없앰.
-
Integrated Gradient (dependence) : Output에 대한 image pixel의 영향력을 구할 수 있다.
- [논문:Axiomatic attribution
for deep networks. In International Conference on Machine Learning (ICML),
2017.]
Integrated Gradient랑 비슷한 방법 :
[논문:Learning important features through propagating activation differences.,2017]
- [논문:Axiomatic attribution
for deep networks. In International Conference on Machine Learning (ICML),
2017.]
-
LRP (dependence)
-
[논문: On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation.,2015]
알고리즘이 소개된 것은 2015년도지만 해석을 위해서 lrp를 적용한 연구는 최근까지 끊임없음. -
(예측 결과에 대한) input 이미지의 single pixel의 기여도를 구한다.
-
각 layer의 Relevance Score의 합은 일정하다. 각 뉴런의 Relevance score은 이전 layer의 activation과 가중치를 이용해서 구하는데 방법은 다양하다 e.g.
$\alpha- \beta$ rule
-
Layer-wise relevance propagation (LRP) recursively computes a Relevance score for each neuron of layers, so as to understand the contribution of a single pixel of an image x to the prediction function f(x) in an image classification task.
-
관련 논문들
[논문:Relative attributing propagation: Interpreting the comparative contributions of individual units in deep neural networks,2020]
[논문:Explaining nonlinear classification decisions with deep taylor decomposition. Pattern Recognition, 2017.]
[논문:Explaining convolutional neural networks using softmax gradient layer-wise relevance propagation,2019]
[논문:Understanding individual decisions of cnns via contrastive backpropagation,2018] -
extension of LRP
[논문 : Layer-wise relevance propagation for neural networks with local renormalization layers.,2016]
LRP 적용해서 transformer model 해석하는 것들
[논문:Transformer interpretability beyond attention visualization,2021]
[논문:Analyzing multi-head self-attention: Specialized heads do the heavy lifting,the rest can be pruned, 2019]
-
-
GradCAM (closed-form)
[논문: Grad-cam: Visual explanations from deep networks via gradient-based localization,2017]
-
$y^{c}$ : score for class c before the softmax -
$A^{k}$ : feature map activations of the unit k in a convolutional layer -
$y^{c}$ 을$A^{k}$ 에 대하여 미분-> k 번째 channel의 feature map$A^{k}$ 가$y^{c}$ 에 주는 영향력의 평균을 구하면서 channel 별 가중치를 구할 수 있다.( CAM 에서 weight로 주었던 feature map의 가중치를 gradient로 대신 준 것임)
양수인 부분만 관심있기 때문에 ReLU를 이용해서 class activation map을 완성한다.
-
-
GradCAM++ (dependence)
- [논문:Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks, 2018]
- GradCAM에서의 global average pooling을 weighted sum을 이용하여 대체함.
-
SemanticInformation(composition)
- [논문 : Improving interpretability of deep neural networks with semantic information, 2017]
-
TCAV : Testing with Concept Activation Vector (proxy)
-
이미지 분류 모델의 예측에 대하여 어떤 concept(사람이 정함)의 영향력을 나타냄.
-> zebra일 확률을 구하는 cnn model에서 줄무늬(concept)는 얼마나 영향력있는지 점수(TCAV Score)냄.
- concept image와 random image를 분류하는 linear classifier를 만듬으로 이것은 proxy model 이다.
-
줄무늬 CAV 벡터가 변화함에 따라서 얼룩말일 확률이 얼마나 변하냐로 Score을 메긴다.
-
참고로 세미나 발표 중 CAV는 원래 있는 개념이라고 했지만 , 다시 확인해 보니 위의 논문에서 정의한 개념이었습니다.
-
CAM (closed-form) - global average pooling을 수행하는 특정종류의 CNN에만 적용가능.
[논문:Learning deep features for discriminative localization,2015]
-
c에 대한 CAM
$M_{c}(x,y)$ :(x,y)에 위치한 값이 c 라는 class로 분류되는데 미치는 중요도를 나타냄.
$f_{K}(x,y)$ : activation of unit k in the last convolutional layer at spatial location (k번째 채널의 값들 중 x,y에 위치한 값)
$w_{k}^{c}$ : k번째 채널과 class c에 대응하는 weight ,즉 이 값이 클 수록 c에서 F_k가 미치는 영향이 커지게됨.
GAP를 취하기 전에 위치한 feature map들이 f_k임. 이를 채널 단위로 합해주면 F_k가 됨(각 원 하나 ).
이를 softmax에 집어 넣기 위해 FC를 하나 추가해주고 이때의 weight들이 w_kc임. 결국 어떤 class c로 분류될 확률을 구할 때 곱해지는 각각의 weight들을 feature map에 곱해준 다음 이들을 합치면 무엇을 보고 feature map을 c라고 분류했는지 알 수 있게됨. -
GradCAM ,GradCAM++ 처럼 CAM을 기반으로 한 알고리즘들
- [논문: Score-cam: Score-weighted visual explanations for convolutional neural networks,2020]
[논문: Respondcam: Analyzing deep models for 3d imaging data by visualizations. ,2018]
[논문:Cbam: Convolutional block attention module,2018]
[논문:Full-gradient representation for neural network visualization,2019]
[논문:Ablation-cam: Visual explanations for deep convolutional network via gradient-free localization,2020]
- [논문: Score-cam: Score-weighted visual explanations for convolutional neural networks,2020]
-
-
GANs (dependence) : semantically meaningful direction을 찾음으로서 GAN 네트워크를 해석하는 알고리즘
- Comparing with labeled sematics
- [논문:Gan dissection: Visualizing and understanding generative adversarial networks.,2018]
- [논문:Gan dissection: Visualizing and understanding generative adversarial networks.,2018]
- label 없이(unsupervised) 해석하는 방법
- [논문:Unsupervised discovery of interpretable
directions in the gan latent space,2020]
- [논문:Unsupervised discovery of interpretable
directions in the gan latent space,2020]
- closed-form factiorization method
- [논문:Closed-form factorization of latent semantics in
gans.,2021]
- [논문:Closed-form factorization of latent semantics in
gans.,2021]
- 등등
- [논문:Controlling
generative models with continuous factors of variations.,2020]
[논문:Rpgan: Gans interpretability via random routing,2019]
[논문:Semantic hierarchy emerges in deep generative representations for scene synthesis,2021]
- [논문:Controlling
generative models with continuous factors of variations.,2020]
- Comparing with labeled sematics
:알고리즘이 generate or 새로운 examples을 생성하고 model의 response를 본다, 따라서 특정 패턴이나 모델이 결정을 하는 원리에 대한 모델의 반응을 조사할수있다.
-
Counterfactual(dependence): interpret model behaviors by modifying important facts from original inputs
-
참고로 Casual inference 에 포함 되는 알고리즘임( 밑에는 casual inference 관련 논문)
- [논문 : Causal inference in statistics: An overview,2009 ]
[관련논문: Causal interpretability for machine learning-problems, methods and evaluation.,2020]
[Causality learning: A new perspective for interpretable machine learning.,2020]
- [논문 : Causal inference in statistics: An overview,2009 ]
-
Counterfactual explanation 논문 : 꾸준히 연구되는 듯
- [논문:Explaining image classifiers by counterfactual generation,2018 ]
[논문:On the computation of counterfactual explanations–a survey. ,2019 ]
[논문: Counterfactual visual explanations.,2019]
[논문:Unjustified classification regions and counterfactual explanations in machine learning,2019 ]
[논문: Explaining machine learning classifiers through diverse counterfactual explanations,2020]
[논문: Counterfactual explanations for machine learning: A review,2020]
[논문: Counterfactual explanations without opening the black box: Automated decisions and the gdpr,2017]
- [논문:Explaining image classifiers by counterfactual generation,2018 ]
-
[논문: Counterfactual explanations without opening the black box: Automated decisions and the gdpr,2017] 에 나온 설명.
-
input x를 모델 f 에 넣으니 y가 나왔다.
어떤 x'를 모델 f에 넣어야 우리가 원하는 결과인 y'이 나올까?
손실함수 : y'과 가깝게 결과가 나와야하고 원래 x와의 차이도 작은 x'을 찾는 문제.
x'을 보고 해석 : 모델 f가 y'을 output으로 뱉으려면 , 인풋이 x'처럼 생겨야 하는구나.
-
-
[논문: Counterfactual Visual Explanations,2019] 설명
-
1이미지와 4이미지의 영역을 쪼개서, 1의 어떤 영역(i)을 4의 어떤 영역(j)으로 바꿔야 1이미지가 4로 분류될 확률이 가장 높아지나 exhausted search(모든 i,j에 대해 찾는 것)를 통해 찾음. -> 1 이미지의 i영역이 j였다면 1이미지는 4로 분류되었을 것이다. 모델이 생각하는 4는 이렇게 생겼네...
-
-
-
AM:Activation Maximization(dependence)
-
[논문:Visualizing Higher-Layer Features of a Deep Network, 2009]
-
클래스를 대표하는 prototype(
$x$ )을 찾는 것!
$p(y_{c}\mid x)$ 는 model에 의해 나오는 probability고, 뒤에 항은 constraint임 -
constraint를 l2-norm 말고 다른 걸로 대체하는 논문
- [논문:Understanding deep image representations by inverting them,2015]
[논문:Synthesizing the preferred inputs for neurons in neural networks via deep generator networks.,2016]
[논문:Deep inside convolutional networks: Visualising image classification models and saliency maps,2013]
- [논문:Understanding deep image representations by inverting them,2015]
-
- ProtoPNet(proxy) [논문:This looks like that: Deep learning for interpretable image recognition. ,2019]
:explains the deep model by finding prototypical parts of predicted objects and gathering evidence from the prototypes to make final decisions.
-
BETA: Black Box Explanations through Transparent Approximations(proxy)
- [논문: Interpretable & explorable approximations of black box models.,2017]
- allows learn compact decision sets(independent if-then rules)
-> 이 proxy 모델이 explains the behavior of the black box model in unambiguous, well-defined regions of feature space)
-
Decision tree(proxy)
- [논문: Interpreting cnns via decision trees.,2019]
[논문: Distilling a neural network into a soft decision tree,2017] [논문: Deep neural decision forests,2015]
- [논문: Interpreting cnns via decision trees.,2019]
-
Graph model(proxy) [논문:Interpreting cnn knowledge via an explanatory graph,2018]
-
Capsule(composition) [논문: Dynamic routing between capsules.,2017]
- self-interpretable deep model이다. (model의 output 자체가 feature의 중요도를 나타낸다. )
A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object
We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation parameters.
- self-interpretable deep model이다. (model의 output 자체가 feature의 중요도를 나타낸다. )

-
DatasetCarto(dependence) [논문 :Dataset cartography: Mapping and diagnosing datasets with training dynamics,2020]
-
:training 중에 각각의 training sample에 대하여 밑에 2가지 측정함으로서 해석.
- model's confidence(in true class)
- variability of confidendce across epochs
-
-
AUM [논문:Identifying mislabeled data using the area under the margin ranking.,2020]
- Another method for analysing the training dynamics is proposed to compute AUM.
- Another method for analysing the training dynamics is proposed to compute AUM.
-
ForgettingEvent(dependence) [논문: An empirical study of example forgetting during deep neural network learning,2019]
-
InfluenceFunction(closed-form)
- [논문: Understanding black-box predictions via influence functions,2017]
- training sample에서 sample z 를 뺐을 때, parameter의 변화량과 target sample에 대한 loss의 변화량을 계산함. (모든 sample을 하나씩 빼는 것은 힘드니까 "upweighting a sample by small value" 라는 closed-form 근사식을 써서 계산함) -> sample z의 영향력을 알 수 있음.
- InfluenceFunction 을 기반한 technique 논문 : [논문:On the accuracy of influence functions for measuring group effects.,2019]
-
HYDRA(dependence)
- [논문:Hydra: Hypergradient data relevance analysis for interpreting deep neural networks. , 2021]
- InfluenceFunction algorithm에서 연산 빠르고, 정확하게 발전시킨 방법
-
Pertubation-based Evaluations : flipping the most salient pixels should lead to high performance decay.
- [논문 : Evaluating the visualization of what a deep neural network has learned,2016]
[논문 :Evaluating explainers via perturbation. ,2019]
[논문: A benchmark for interpretability methods in deep neural networks,2019]- Remove the most important features , and retrain the model the to measure the degradation of model performance -> 성능이 낮을 수록 더 좋은 interpretation algorithm이다.
- [논문 : Evaluating the visualization of what a deep neural network has learned,2016]
-
Sanity Check for Interpretation Algorithms : 밑의 2가지 방법으로 untrustworthy한 interpretation algorithms을 식별할 수 있다.
- [논문: Sanity checks for saliency maps., 2018]
-
A Model Parameter Randomization Test
- 학습된 모델의 saliency method(Grad-CAM, SmoothGrad 등)의 결과물과 학습되지 않은 모델의 saliency method의 결과물을 비교한다.
- 만약 차이가 없다면 saliency method는 모델과 전혀 상관없다라는 뜻.
- 이런 sailency map은 모델 디버깅과 같이 모델 파라미터에 의존적인 task와는 도움이 되지않는다.
-
A Data Randomization Test
- 올바르게 labeled된 데이터로 학습된 모델의 saliency method 결과와 random하게 labeled된 데이터로 학습된 모델의 saliency method의 결과를 비교한다.
- 만약 차이가 없다면 saliency method는 이미지와 라벨의 관계에 따라 달라지는 것이 아니라고 볼 수 있습니다.
-
BAM(Benchmarking Attribution Methods)
- [논문: Benchmarking attribution methods with relative feature importance ,2019]
- quantitative evaluation of feature attribution methods remains difficult due to the lack of ground truth: we do not know which input features are in fact important to a model
- 1.produce a semi-natural dataset and models trained with known relative feature importance
- 2.three metrics for quantitatively evaluating attribution methods
-
Trojaning : subset of images are modified by giving a specific trigger(이미지 특정 부분에 네모 그리는거) to the desired target.
- [논문: What do you see? evaluation of explainable artificial intelligence (xai) interpretability through neural backdoors.,2020]

The qualified algorithm should highlight pixels around the trigger in contaminated images instead of object parts.
-
Infidelity and Sensitivity : quantitatively measure
-
[논문 : On the (in) fidelity and sensitivity for explanations.,2019]
-
Infidelity : the degree to which it captures how the predictor function itself changes in response to significant perturbations
-
Sensitivity : Change in the interpretation with small perturbation of the input
$\Phi$ : an interpretaion function
f : is a black-box model
x :is an input
r : is called input neighborhood radius -
-
Sensitivity to Hyperparameters : 하이퍼 파라미터에 민감하면 매번 다른 interpretation을 낸다.
- [논문: The sensitivity of attribution methods to hyperparameters ,2020]
- 예를들어서 SmoothGrad의 hyperparameter는 노이즈의 시그마랑 샘플 갯수인데 , hyperparameter 변하면 interpretation 결과(saliency map)도 달라지겠지. 얼마나 달라지는지 정량적으로 측정하나봅니다.
- sensitivity를 정량적으로 측정하기 위해서 structural similarity index (SSIM)를 사용함.
-
User-study Evaluations : 사람이 평가함.

: Measure the overlap between human labeled semantic items(segmentation ground truth) and interpretation results
-
Consensus
- [논문 : Democratizing evaluation of deep model interpretability through consensus,2021 ]
- [논문 : Democratizing evaluation of deep model interpretability through consensus,2021 ]
ensemble of deep models에서
모든 model에 대해서 interpretation algorithm을 이용해서 interpretation을 냄.
voting을 통해 interpretation의 Consensus(일치)를 얻음 -> approximated ground truth임
모든 model 에 대해서 matching interpretation results to Consensus -> rank the matching score
-
Network Dissection : quantifying interpretability of individual units in a deep CNN.(CNN의 individual unit에 대하여 점수를 낸다.)
- [논문 : Network dissection: Quantifying interpretability of deep visual representations. ,2017 ]

- L_{c}(x) : annotation mask for concept c
- M_{k}(x) : activation map of convolutional unit k.
It works by measuring the alignment(일치) between unit response and a set of concepts(색, 배경object 등등임) labeled segmentation data set
concept c를 dectect 하는데에 각 unit의 점수를 측정하는 것임.** threshold 보다 IoU가 크면 semantic 뉴런 -> semantic 뉴런의 갯수의 비율이 모델의 interpretability 점수
- User-study Evaluations
each participant was asked to calculate the output of a machine learning model for a given input, and then to determine the output of a perturbed input applied to the same model.
1000명의 참가자에 대해서 , 원래 input에 대한 모델의 output과 perturbed input에 대한 model의 output을 예측하라고 시킴.
e.g. PuzzleMix(2020): saliency map을 활용해서 saliency를 maximize하는 optimal transport를 찾는 방법으로 Mixup(data augmentation)기법을 향상시킨다.
- 국곤이 JCCI 주제?
e.g. [136] imposed the regularizer to encourage the alignment of saliency maps between the teacher and student networks for effective knowledge distillation.
- Adversarial examples을 만들 때(noise를 추가할 때) 입력 이미지 _x_에 대한 gradient 사용한다. 각 픽셀의 손실에 대한 기여도를 gradient를 통해 계산한 후, 그 기여도에 따라 픽셀값에 왜곡을 추가함으로써 생성할 수 있다.
- Gradient-based interpretation algorithm으로 input의 중요한 feature를 알아내는 것과 adversarial robustness(attak에 잘 견더내는지)가 관계가 있다.
- Adversarially trained models show more interpretable input gradients.
- Increase in adversarial robustness improves the alignment between input and its input gradient.