TruthfulQA - mingoori0512/Mingoori-s-NLP-study-space GitHub Wiki
TruthfulQA: Measuring How Models Mimic Human Falsehoods
Citation
Lin et al. (ACL 2022)
Benchmark?
- ์ปดํจํฐ ๋ถ์ผ์์ ์ฌ๋ฌ๊ฐ์ง ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋น๊ต ๋ฐ ํ๊ฐํ๊ธฐ ์ํ ๊ธฐ์ค
- ์ผ๋ฐ์ ์ผ๋ก ํน์ ์์ ์ ์ํํ๋๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ, ์ฒ๋ฆฌ๋, ์ฑ๋ฅ ์งํ ๋ฑ์ ์ธก์
TruthfulQA?
์์ด: TruthfulQA is a benchmark made up of questions to cause imitative falsehoods. This is a widely held misconceptions that the model may have learned from its input text. And they are trying to see if model is good enough or smart enough to not fall for the trap.
ํด์: TruthfulQA๋ ๋ชจ๋ฐฉ์ ์ธ ๊ฑฐ์ง๋ง์ ์ ๋ฐํ๊ธฐ ์ํด ์ง๋ฌธ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฒค์น๋งํฌ์ด๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด ์ ๋ ฅ ํ ์คํธ๋ก๋ถํฐ ๋ฐฐ์ธ ์ ์๋ ๋๋ฆฌ ํผ์ง ์คํด์ ๋๋ค. ๊ทธ๋ค์ ๋ชจ๋ธ์ด ํจ์ ์ ๋น ์ง์ง ์๊ณ ์ถฉ๋ถํ ์ข๊ฑฐ๋ ๋๋ํ์ง๋ฅผ ํ์ธํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ณ ์๋ค.
Contributions
- Benchmark Compile a benchmark of questions and answers that can be used to be test the truthfulness or correctness of a large language model.(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ง์ค์ฑ ๋๋ ์ ํ์ฑ์ ํ ์คํธํ๊ธฐ ์ํด ์ฌ์ฉํ ์ ์๋ ์ง๋ฌธ๊ณผ ๋๋ต์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฒค์น๋งํฌ๋ฅผ ์ปดํ์ผํ์๋ค.)
- Establish a baseline
- This model also generated answers that were both false and informative 42% of the time(compared to 6% for the human baseline). Such informative answers, which often mimic popular misconceptions, are more likely to deceive.(์ด ๋ชจ๋ธ์ ๊ฑฐ์ง์ด๋ฉด์ ์ ๋ณด๋ฅผ ํฌํจํ ๋ต๋ณ์ ์์ฑํ๋ ๋น์จ์ด 42%๋ก ๋ํ๋ฌ์ผ๋ฉฐ(์ธ๊ฐ ๊ธฐ์ค์ 6%์ ๋น๊ตํด์), ์ข ์ข ์ธ๊ธฐ์๋ ์คํด๋ฅผ ํ๋ด ๋ด๋ ํํ์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ์ด๋ฌํ ๋ต๋ณ์ ์์ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ต๋๋ค.)
- The answers given by the model are judged on two dimensions. One is correctness whether the answer is true or false. And the other one is what they call informativeness, which essentially a measure of how detailed the answer was. So, for example, the answer could be really simple like no comment, but it could be correct, but it won't be informative. So more detailed answers are ranked as more informative. (๋ชจ๋ธ์ด ์ ๊ณตํ๋ ๋ต๋ณ์ ๋ ๊ฐ์ง ์ธก๋ฉด์์ ํ๊ฐ๋๋ค. ํ๋๋ ์ ํ์ฑ์ผ๋ก, ๋ต๋ณ์ด ์ฌ์ค์ธ์ง ์๋์ง๋ฅผ ๋ํ๋ธ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค๋ฅธ ํ๋๋ ์ ๋ณด์ฑ์ผ๋ก, ๊ธฐ๋ณธ์ ์ผ๋ก ๋ต๋ณ์ด ์ผ๋ง๋ ์์ธํ์ง๋ฅผ ์ธก์ ํ๋ ์งํ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ต๋ณ์ ๊ฐ๋จํ๊ฒ "๋๊ธ ์์"๊ณผ ๊ฐ์ด ๊ฐ๋จํ ์ ์์ง๋ง ์ด๋ ์ ํํ ์ ์์ง๋ง ์ ๋ณด์ฑ์ด ๋จ์ด์ง๋ ๋ต๋ณ์ด๋ค. ๊ทธ๋์ ๋ ์์ธํ ๋ต๋ณ์ ์ ๋ณด์ฑ์ด ๋๊ฒ ํ๊ฐ๋๋ค.)
GPT-judge & GPT-info
-
Since human evaluation is costly and challenging to replicate, we introduce a new automated metric for evaluating model performance on TruthfulQA, which we call โGPT-judgeโ. GPT-judge is a GPT-3-6.7B model finetuned to classify answers to the questions in TruthfulQA as true or false.
-
The training set for GPT-judge consists of triples of the form (question, answer, label), where label is either true or false. The training set includes 6.9k examples taken directly from the benchmark, where the answer is a true/false reference answer written by the authors. It also contains around 15.5k examples where the answer is generated by one of the models in Section 3.1 and the label is a human evaluation.
-
For the final GPT-judge model, we train on examples from all models. The goal of GPT-judge is to evaluate truth for the questions in TruthfulQA only (with no need to generalize to new questions) and so we always include all questions in the training set. We use the OpenAI API to perform the finetuning (OpenAI, 2020). We also use an identical approach to finetune a model to evaluate informativeness (rather than truthfulness).
-
Separately, to estimate GPT-judgeโs ability to generalize to a new model family F, we fine-tune a GPT-judge model on all other model families and use F as a validation set. These validation accuracies are shown in Table 1 below, which includes additional comparisons of GPT-judge to alternate metrics that make use of ROUGE1 (Lin, 2004) or BLEURT (Sellam et al., 2020). To compute a truthfulness score for a model answer a, these metrics find the closest true and false reference answers to a and then take the arithmetic difference between match scores.
-
Overlap or semantic similarity between a and each reference answer is measured using ROUGE1 or BLEURT, respectively. GPTjudge performs well in an absolute sense, demonstrating high validation accuracy across all four model families and preserving the rank ordering of models within each family. It also outperforms all alternate metrics in evaluating model answers. We believe that GPT-judge is a reasonable proxy for human evaluation, although the minor weakness shown in Table 3 suggests that human evaluation should still be considered the gold standard.
-
์ธ๊ฐ ํ๊ฐ๋ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ๋ณต์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ TruthfulQA ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ํ๋ ์๋ก์ด ์ธก์ ํญ๋ชฉ์ธ 'GPT-judge'๋ฅผ ์๊ฐํฉ๋๋ค. GPT-judge๋ TruthfulQA์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ฐธ ๋๋ ๊ฑฐ์ง์ผ๋ก ๋ถ๋ฅํ๊ธฐ ์ํด ๋ฏธ์ธ ์กฐ์ ๋ GPT-3-6.7B ๋ชจ๋ธ์ ๋๋ค.
-
GPT-judge์ ํ๋ จ ์ธํธ๋ (์ง๋ฌธ, ๋ต๋ณ, ๋ ์ด๋ธ) ํ์์ ์ธํธ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ ์ด๋ธ์ ์ฐธ ๋๋ ๊ฑฐ์ง ์ค ํ๋์ ๋๋ค. ํ๋ จ ์ธํธ์๋ ์ ์๊ฐ ์์ฑํ ์ฐธ/๊ฑฐ์ง ์ฐธ์กฐ ๋ต๋ณ์ด ์๋ ๋ฒค์น๋งํฌ์์ ์ง์ ๊ฐ์ ธ์จ 6.9k ๊ฐ์ ์์ ์, ๋ต๋ณ์ด Section 3.1์ ๋ชจ๋ธ ์ค ํ๋์ ์ํด ์์ฑ๋๊ณ ๋ ์ด๋ธ์ ์ธ๊ฐ ํ๊ฐ์ธ ์ฝ 15.5k ๊ฐ์ ์์ ๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
-
์ต์ข GPT-judge ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๋ชจ๋ ๋ชจ๋ธ์์ ์์ ๋ฅผ ํ๋ จํฉ๋๋ค. GPT-judge์ ๋ชฉํ๋ TruthfulQA์ ์ง๋ฌธ์ ๋ํ ์ง์ค์ฑ์ ํ๊ฐํ๋ ๊ฒ๋ฟ์ด๋ฉฐ(์๋ก์ด ์ง๋ฌธ์ผ๋ก ์ผ๋ฐํํ ํ์ ์์), ํญ์ ํ๋ จ ์ธํธ์ ๋ชจ๋ ์ง๋ฌธ์ ํฌํจ์ํต๋๋ค. ๋ฏธ์ธ ์กฐ์ ์ ์ํํ๊ธฐ ์ํด OpenAI API๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ง์ค์ฑ ๋์ ์ ๋ณด์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ๋์ผํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค.
-
๋ํ GPT-judge์ ๋ชจ๋ธ ๋ฅ๋ ฅ์ ์๋ก์ด ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ F๋ก ์ผ๋ฐํํ๊ธฐ ์ํด, GPT-judge ๋ชจ๋ธ์ ๋ค๋ฅธ ๋ชจ๋ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ์์ ๋ฏธ์ธ ์กฐ์ ํ๊ณ F๋ฅผ ๊ฒ์ฆ ์ธํธ๋ก ์ฌ์ฉํ์ฌ ์ถ์ ํฉ๋๋ค. ์ด๋ฌํ ๊ฒ์ฆ ์ ํ๋๋ ์๋ ํ 1์ ๋์ ์์ผ๋ฉฐ, ROUGE1(Lin, 2004) ๋๋ BLEURT(Sellam et al., 2020)๋ฅผ ํ์ฉํ๋ ๋์ ์ธก์ ํญ๋ชฉ๊ณผ GPT-judge๋ฅผ ๋น๊ตํ๋ ์ถ๊ฐ ์ ๋ณด๋ ํฌํจ๋์ด ์์ต๋๋ค. ๋ชจ๋ธ ๋ต๋ณ์ ์ง์ค์ฑ ์ ์๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์ด๋ฌํ ๋ฉํธ๋ฆญ์ a์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฐธ๊ณผ ๊ฑฐ์ง ์ฐธ์กฐ ๋ต๋ณ์ ์ฐพ์ ๋ค์ ์ผ์น ์ ์ ์ฌ์ด์ ์ฐ์ ์ฐจ์ด๋ฅผ ์ทจํฉ๋๋ค.
-
์ค๋ณต ๋๋ ์๋ฏธ์ ์ ์ฌ์ฑ์ ๊ฐ๊ฐ ROUGE1 ๋๋ BLEURT๋ฅผ ์ฌ์ฉํ์ฌ a์ ๊ฐ ์ฐธ์กฐ ๋ต๋ณ ๊ฐ์ ์ธก์ ๋ฉ๋๋ค. GPT-judge๋ ์ ๋์ ์ธ ์๋ฏธ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ด๋ฉฐ, ๋ชจ๋ ๋ค ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ์์ ๋์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ ๊ฐ ํจ๋ฐ๋ฆฌ ๋ด์ ๋ชจ๋ธ ์์๋ฅผ ์ ์งํฉ๋๋ค. ๋ํ ๋ชจ๋ธ ๋ต๋ณ์ ํ๊ฐํ๋ ๋ชจ๋ ๋์ฒด ์ธก์ ํญ๋ชฉ์ ๋ฅ๊ฐํฉ๋๋ค. ์ฐ๋ฆฌ๋ GPT-judge๊ฐ ์ธ๊ฐ ํ๊ฐ์ ํฉ๋ฆฌ์ ์ธ ๋๋ฆฌ์์์ ๋ฏฟ์ง๋ง, ํ 3์์ ๋ํ๋ ์์ ์ฝ์ ์ ์ฌ์ ํ ์ธ๊ฐ ํ๊ฐ๋ฅผ ๊ณจ๋ ์คํ ๋๋๋ก ๊ณ ๋ คํด์ผ ํจ์ ์์ฌํฉ๋๋ค.