Week10 Day1 - ai-esg/our-history GitHub Wiki

팀 NLP 11조 Week10 Day1

목차

일자
팀원
피어세션

일자

2021.10.05 화

팀원

문석암_T2075
박마루찬_T2078
박아멘_T2090
우원진_T2137
윤영훈_T2142
장동건_T2185
홍현승_T2250

피어세션

토론

f1-score optimization할 경우 eval acc, micro f1, auprc 비정상적으로 동작

ONGOING

Adaptation 문석암, 장동건
- TAPT
- Domain (의료)
- Task (저희 데이터 모두)
- 우선 Adaptation train 진행중
AEDA 박마루찬
- 적당한 기호를 무작위로 넣고 훈련을 해 보는 중이다.
- 무작위 기호 생성을 띄어쓰기 전후로. 토크나이징에 크게 영향주지 않는 것으로 보인다.
EDA 박아멘
- 제작해서 구현해본 결과 성능이 오히려 하락했다.
- bert-base와 roberta-large 둘 다 하락했다. 1에폭짜리 학습에서도 마찬가지였다.
Entity embedding 윤영훈, 우원진, 홍현승
- Typed entity marker( punct ) 적용해서 학습중이다.

알아낸 것

roberta-large paper 벤치마크 성능 내는 configuration (영훈님)
f1 loss 보다는 focal loss를 사용하는 것이 더 성능이 높은 것 configuration (영훈님)
bert-base 성능 향상되는 configuration (원진님)
evaluation 기준을 test 기준과 일치할 때 리더보드와 비슷한 결과가 나옴 (micro f1)

무엇을 더 할 수 있나?

내일 12:00에 결과 논의
- 상대편을 이해시킬 수 있게 간단한 자료 준비 해요.
이후 ensemble 논의
ensemble
- bert-base, roberta-large
- Adaptation 적용, 미적용
- AEDA, EDA 적용, 미적용
- Typed entity marker 적용, 미적용
- entity 문장 구성 적용, 미적용