第二階段實驗 - s9891326/Fine-Tuning-BERT GitHub Wiki

Outline

針對的弱點

  • 姓名文、問候文、特定產業特殊文章

資料準備方向

  • 2019資料集準備(17529筆)
    • 訓練集(14023筆,0:4248、1:5403、2:4372)
    • 測試集(3506筆,0:1036、1:1328、2:1142)
  • 修正弱點(610筆),人工找出必須餵給模型的資料,剩下的資料再隨機80/20拆分訓練測試,再加入剛剛拆分的資料集(特定產業特殊文章、少量姓名、少量問候)
    1. (500)姓名文
    2. (100)問候文
    3. (10)特定產業特殊文章
  • 修正弱點,情緒標籤分佈
正面 負面 中立
0 1 609
  • 範例

    姓名文
    姓名文
    推: 老高,2
    阮小二,2
    阮小五,2
    桃貴粉報到!,2
    運宏大大,2
    愛恩慈,2
    
    特定產業特殊文章文
    特定產業特殊文章
    已經刪除的內容就像Dcard一樣,2
    「大庭廣眾呼喚我太害羞了,我剛訊息你了私聊吧!」BY藍白戰士,2
    Po Chu Hui Kwong Lam Mak氣炸魷魚,2
    #氣炸噴一下小磨坊蔥蒜風味油,2
    錯過是無法再相見的!,2
    已經刪除的內容就像Dcard一樣,錯過是無法再相見的!,2
    大庭廣眾呼喚我太害羞了,1
    我剛訊息你了私聊吧!,2
    氣炸魷魚,2
    Po Chu Hui Kwong Lam Mak,2
    
    問候文
    問候文
    寶貝早安❤️,2
    晚安,2
    下午安,2
    推: 早安,2
    歐嗨唷,2
    空你基哇,2
    空幫挖,2
    

實驗紀錄

  • 準備兩種測試集(2019、2019 + 修正弱點),訓練集2019、2019 + 修正弱點的資料集,驗證舊測試集的Loss/Accuracy
  • 訓練
    • (舊模型)2019資料集(14023筆,0:4248、1:5403、2:4372)
    • 2019 + 修正弱點(14513筆,0:4248、1:5404、2:4861)
      • 修正弱點(490筆, 0:0、1:1、2:489)
  • 測試
    • 2019資料集(3506筆,0:1079、1:1307、2:1120)
    • 2019 + 修正弱點(3626筆,0:1079、1:1307、2:1240)
      • 修正弱點(120筆, 0:0、1:0、2:120)
  • 實驗方向
    1. 增加修正弱點後,測試2019資料集Accuracy有沒有更高?
    2. 那對於姓名文、問候文的預測有更好嗎?
  1. 增加修正弱點後,測試2019資料集Accuracy有沒有更高?

    • 新模型 = 舊模型 + 針對弱點(姓名 + 問候 + 特定產業)
    (2019)舊模型 (修正弱點)新模型
    2019資料集 0.2865/0.9056 0.2661/0.9113
    2019 + 修正弱點 0.2843/0.9059 0.2583/0.9137
    訓練時間 372.92s 383.941s
    (舊)2019
    2019資料集
                  precision    recall  f1-score   support
    
               0     0.9569    0.9074    0.9315      1102
               1     0.9238    0.9014    0.9124      1318
               2     0.8400    0.9088    0.8731      1086
    
        accuracy                         0.9056      3506
       macro avg     0.9069    0.9059    0.9057      3506
    weighted avg     0.9083    0.9056    0.9062      3506
    
    2019 + 修正弱點
                  precision    recall  f1-score   support
    
               0     0.9488    0.9074    0.9276      1102
               1     0.9231    0.9014    0.9121      1318
               2     0.8536    0.9095    0.8807      1205
    
        accuracy                         0.9059      3625
       macro avg     0.9085    0.9061    0.9068      3625
    weighted avg     0.9078    0.9059    0.9064      3625
    
    (新)2019 + 修正弱點
        2019資料集
                  precision    recall  f1-score   support
    
               0     0.9377    0.9292    0.9335      1102
               1     0.8981    0.9431    0.9201      1318
               2     0.9010    0.8545    0.8771      1086
    
        accuracy                         0.9113      3506
       macro avg     0.9123    0.9089    0.9102      3506
    weighted avg     0.9115    0.9113    0.9110      3506
    
        2019 + 修正弱點
                  precision    recall  f1-score   support
    
               0     0.9360    0.9292    0.9326      1102
               1     0.8981    0.9431    0.9201      1318
               2     0.9111    0.8673    0.8887      1206
    
        accuracy                         0.9137      3626
       macro avg     0.9151    0.9132    0.9138      3626
    weighted avg     0.9140    0.9137    0.9134      3626
    
  2. 那對於姓名文、問候文的預測有更好嗎?

    • 實驗報告
    • 針對姓名文、問侯文進行驗證,驗證資料集(119筆)
    • 新模型 = 舊模型 + 針對弱點(姓名 + 問候 + 特定產業)
    (舊)2019 (新)2019 + 修正弱點
    弱點驗證集 0.3649/0.8917 0.0135/0.9917
    訓練時間 372.92s 383.941s

summary實驗結果

  1. 增加修正弱點後,測試2019資料集Accuracy有沒有更高?
    • 有,主要是問候文姓名文提高了Accuracy。
  2. 那對於姓名文、問候文的預測有更好嗎?
    • 有,比原本更準確了,而且也沒有讓原本的正確率降低
⚠️ **GitHub.com Fallback** ⚠️