Home - s9891326/Fine-Tuning-BERT GitHub Wiki

Outline

需求統整

從AS1那收集到的需求
新版情緒判讀回饋收集_2019
短文判斷誤差
1. #好想去旅行 --> P
2. #歡迎光臨 --> P
3. 郭春風 --> N
4. 股票又漲了。 --> N

目標整理

依照模型需求進行修改模型
原本模型的訓練集中無短文的資料導致部分短文判斷較差 --> 增加短文資料進資料集去訓練模型

情緒定義

標籤定義
正面情緒(0) : 指該文章表達出積極、開心、樂觀、自信、信任、感恩、愛等或雙重否定相關內容(有所進步、成長)
- 開心 : 螢幕真的大的很過癮！
- 感恩 : 推:感觸良多，當頭棒喝的忠告，謝謝妳。
- 信任 : 我個人是覺得蘋果的東西真的很好用，我的手機跟筆電都是蘋果的，我也很相信蘋果。
- 雙重否定 : 不要成為自己不齒的那種人
負面情緒(1) : 指該文章表達出焦慮、憤怒、自責、難過、嫉妒、歧視、嘲諷、反諷、抱怨、血腥暴力等的相關內容(缺乏自信、害怕失敗、無法想像人生未來)
- 憤怒文 : 光世代不會動。幹你娘中華電信
- 歧視文 : 上面還有人說誰當小七店員…就知道這歧視多可悲
- 嘲諷文 : 這咖就適合當天龍國首腦作白日夢想選總統
- 反諷文 : 天晴了雨停了你又覺得你行了
中立情緒(2) : 指該文章表達不是正面、負面的情緒或沒有意義，包含姓名文、專有名詞、特定產業(Dcard刪文、Hyundai Taiwan客戶小編...)、問候文 不是正面、負面的情緒 : 所以他可以打gta5嗎？、推:哈哈賴清德哈哈
- 沒有意義 : --相差不遠呀--、只有六個月內的不用吧
- 姓名文 : 郭春風、黃錒逼
- 特定產業 : 已經刪除的內容就像Dcard一樣，錯過是無法再相見的！(Dcard)、「大庭廣眾呼喚我太害羞了，我剛訊息你了私聊吧！」BY藍白戰士(Hyundai Taiwan)
- 問候文 : 晚上好、大家早上好！

實驗項目

針對弱點進行修正

第一階段
- 短文、姓名文、問候文、特定產業特殊文章
第二階段
- 姓名文、問候文、特定產業特殊文章

Summary實驗結果

第一階段
- 實驗範例
- 模型訓練完後，利用AS1標記過的資料當作測試集，以Accuracy當作比較基準，舊模型(0.902) > 新模型(0.78)。觀看完測試資料集比對結果後，發現姓名文、問候文已經可以正確的猜到對應標籤了，但短文有好有壞
  - 好
    - 姓名文、問候文、特定產業特殊文章，都能準確的判斷出正確的情緒標籤
  - 壞
    - 諧音 or 台語 --> 沒進行訓練
    - 推噓文 --> 推噓文定義不夠明確，不應該只單獨看內文
      - 噓:哈哈哈哈,2,1
      - 噓:放心，會有更大一批支持kmt,2,1
      - 推:中肯誠實，但是覺青無法接受會來噓,2,1
      - 推:資進黨何時才要處理財團毒瘤?,2,1
    - 字詞包含負面情緒，但被歸類再中立 --> 先前定義不明確導致
      - 推:不痛不癢,1,0
      - 推:不喜歡也不討厭,1,2
      - 無奇不有,2,1
第二階段
- 放入更多的姓名訓練集，來確保姓名的廣度和深度，並用Google熱門搜尋的人物來進行驗證，獲得不錯的驗證結果
- 實驗範例
epoch實驗
- epoch : 20
- epoch_accuracy
- epoch_loss

Feature_Work

增加頻道判斷(s_area_id or s_id)塞進模型訓練中 --> PopDaily波波黛莉 > 美妝 : 被燒到了(P)
- Add feature in BERT

Home - s9891326/Fine-Tuning-BERT GitHub Wiki

Outline

需求統整

目標整理

情緒定義

實驗項目

Summary實驗結果

Feature_Work

參考資料