Home - s9891326/Fine-Tuning-BERT GitHub Wiki

Outline

需求統整

目標整理

  • 依照模型需求進行修改模型
  • 原本模型的訓練集中無短文的資料導致部分短文判斷較差 --> 增加短文資料進資料集去訓練模型

情緒定義

  • 標籤定義
  • 正面情緒(0) : 指該文章表達出積極、開心、樂觀、自信、信任、感恩、愛等或雙重否定相關內容(有所進步、成長)
    • 開心 : 螢幕真的大的很過癮!
    • 感恩 : 推:感觸良多,當頭棒喝的忠告,謝謝妳。
    • 信任 : 我個人是覺得蘋果的東西真的很好用,我的手機跟筆電都是蘋果的,我也很相信蘋果。
    • 雙重否定 : 不要成為自己不齒的那種人
  • 負面情緒(1) : 指該文章表達出焦慮、憤怒、自責、難過、嫉妒、歧視、嘲諷、反諷、抱怨、血腥暴力等的相關內容(缺乏自信、害怕失敗、無法想像人生未來)
    • 憤怒文 : 光世代不會動。幹你娘中華電信
    • 歧視文 : 上面還有人說誰當小七店員…就知道這歧視多可悲
    • 嘲諷文 : 這咖就適合當天龍國首腦作白日夢想選總統
    • 反諷文 : 天晴了雨停了你又覺得你行了
  • 中立情緒(2) : 指該文章表達不是正面、負面的情緒或沒有意義,包含姓名文專有名詞特定產業(Dcard刪文、Hyundai Taiwan客戶小編...)、問候文 不是正面、負面的情緒 : 所以他可以打gta5嗎?、推:哈哈賴清德哈哈
    • 沒有意義 : --相差不遠呀--、只有六個月內的不用吧
    • 姓名文 : 郭春風、黃錒逼
    • 特定產業 : 已經刪除的內容就像Dcard一樣,錯過是無法再相見的!(Dcard)、「大庭廣眾呼喚我太害羞了,我剛訊息你了私聊吧!」BY藍白戰士(Hyundai Taiwan)
    • 問候文 : 晚上好、大家早上好!

實驗項目

  • 針對弱點進行修正
  1. 第一階段
    • 短文、姓名文、問候文、特定產業特殊文章
  2. 第二階段
    • 姓名文、問候文、特定產業特殊文章

Summary實驗結果

  1. 第一階段
    • 實驗範例
    • 模型訓練完後,利用AS1標記過的資料當作測試集,以Accuracy當作比較基準,舊模型(0.902) > 新模型(0.78)。觀看完測試資料集比對結果後,發現姓名文問候文已經可以正確的猜到對應標籤了,但短文有好有壞
        • 姓名文、問候文、特定產業特殊文章,都能準確的判斷出正確的情緒標籤
        • 諧音 or 台語 --> 沒進行訓練
        • 推噓文 --> 推噓文定義不夠明確,不應該只單獨看內文
          • 噓:哈哈哈哈,2,1
          • 噓:放心,會有更大一批支持kmt,2,1
          • 推:中肯誠實,但是覺青無法接受會來噓,2,1
          • 推:資進黨何時才要處理財團毒瘤?,2,1
        • 字詞包含負面情緒,但被歸類再中立 --> 先前定義不明確導致
          • 推:不痛不癢,1,0
          • 推:不喜歡也不討厭,1,2
          • 無奇不有,2,1
  2. 第二階段
    • 放入更多的姓名訓練集,來確保姓名的廣度和深度,並用Google熱門搜尋的人物來進行驗證,獲得不錯的驗證結果
    • 實驗範例
  3. epoch實驗
    • epoch : 20
    • epoch_accuracy
    • image
    • epoch_loss
    • image

Feature_Work

  • 增加頻道判斷(s_area_id or s_id)塞進模型訓練中 --> PopDaily波波黛莉 > 美妝 : 被燒到了(P)
    • Add feature in BERT

參考資料

  1. https://docs.google.com/spreadsheets/d/1yJQZewog_okG_VpvQelW0vImwcCUc_oUoUDdqNTCrY8/edit#gid=0
  2. https://docs.google.com/spreadsheets/d/10-cXs3QXnLw3srPHorewPQ-5ZQZEDoG9/edit#gid=1880451266
  3. https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html