Home - s9891326/Fine-Tuning-BERT GitHub Wiki
Outline
需求統整
目標整理
- 依照模型需求進行
修改模型
- 原本模型的訓練集中無短文的資料導致部分短文判斷較差 --> 增加短文資料進資料集去訓練模型
情緒定義
- 標籤定義
- 正面情緒(
0
) : 指該文章表達出積極、開心、樂觀、自信、信任、感恩、愛等或雙重否定
相關內容(有所進步、成長
)
- 開心 : 螢幕真的大的很過癮!
- 感恩 : 推:感觸良多,當頭棒喝的忠告,謝謝妳。
- 信任 : 我個人是覺得蘋果的東西真的很好用,我的手機跟筆電都是蘋果的,我也很相信蘋果。
- 雙重否定 : 不要成為自己不齒的那種人
- 負面情緒(
1
) : 指該文章表達出焦慮、憤怒、自責、難過、嫉妒、歧視、嘲諷、反諷
、抱怨、血腥暴力等的相關內容(缺乏自信、害怕失敗、無法想像人生未來
)
- 憤怒文 : 光世代不會動。幹你娘中華電信
- 歧視文 : 上面還有人說誰當小七店員…就知道這歧視多可悲
- 嘲諷文 : 這咖就適合當天龍國首腦作白日夢想選總統
- 反諷文 : 天晴了雨停了你又覺得你行了
- 中立情緒(
2
) : 指該文章表達不是正面、負面的情緒或沒有意義,包含姓名文
、專有名詞
、特定產業
(Dcard刪文、Hyundai Taiwan客戶小編...)、問候文
不是正面、負面的情緒 : 所以他可以打gta5嗎?、推:哈哈賴清德哈哈
- 沒有意義 : --相差不遠呀--、只有六個月內的不用吧
姓名文
: 郭春風、黃錒逼
特定產業
: 已經刪除的內容就像Dcard一樣,錯過是無法再相見的!(Dcard)、「大庭廣眾呼喚我太害羞了,我剛訊息你了私聊吧!」BY藍白戰士(Hyundai Taiwan)
問候文
: 晚上好、大家早上好!
實驗項目
- 第一階段
- 第二階段
Summary實驗結果
- 第一階段
- 實驗範例
- 模型訓練完後,利用AS1標記過的資料當作測試集,以Accuracy當作比較基準,舊模型(
0.902
) > 新模型(0.78
)。觀看完測試資料集比對結果後,發現姓名文
、問候文
已經可以正確的猜到對應標籤了,但短文
有好有壞
- 好
- 姓名文、問候文、特定產業特殊文章,都能準確的判斷出正確的情緒標籤
- 壞
- 諧音 or 台語 --> 沒進行訓練
- 推噓文 --> 推噓文定義不夠明確,不應該只單獨看內文
- 噓:哈哈哈哈,2,1
- 噓:放心,會有更大一批支持kmt,2,1
- 推:中肯誠實,但是覺青無法接受會來噓,2,1
- 推:資進黨何時才要處理財團毒瘤?,2,1
- 字詞包含負面情緒,但被歸類再中立 --> 先前定義不明確導致
- 推:不痛不癢,1,0
- 推:不喜歡也不討厭,1,2
- 無奇不有,2,1
- 第二階段
- 放入更多的姓名訓練集,來確保姓名的廣度和深度,並用Google熱門搜尋的人物來進行驗證,獲得不錯的驗證結果
- 實驗範例
- epoch實驗
- epoch : 20
- epoch_accuracy

- epoch_loss

Feature_Work
- 增加頻道判斷(s_area_id or s_id)塞進模型訓練中 --> PopDaily波波黛莉 > 美妝 : 被燒到了(P)
參考資料
- https://docs.google.com/spreadsheets/d/1yJQZewog_okG_VpvQelW0vImwcCUc_oUoUDdqNTCrY8/edit#gid=0
- https://docs.google.com/spreadsheets/d/10-cXs3QXnLw3srPHorewPQ-5ZQZEDoG9/edit#gid=1880451266
- https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html