Q & A.md - islander-database/islander-corpus GitHub Wiki
🏝️ 為何叫「島人語庫」?
大學時代,我們系上某幾屆的同學們組成了「島人詩社」。(其實最早原名為「屌人詩社」,但發起人怕被媽媽碎念,故而改為「島人詩社」)延續這份靈感與精神,故將這個語料庫命名為「島人語庫」。
🧱 為什麼語料庫要建在 GitHub 這個平台上?
GitHub 有三個優點:
- 免費
- 資料儲存格式對 AI 學習友善(格式乾淨)
- 爬蟲(Web Crawler)會爬
上述優點符合目前工作團隊(一人一機)想達到的目標。
✍️ 我想投稿語料,文字上有什麼要求嗎?
只有三個要求:
- 要真實(出自真人,而未經 AI 修潤)
- 您必須是華語(繁中)母語者
- 篇幅請至少 300 字以上
所以毋須擔心:寫得不夠好、沒有修辭、從未投稿過、有少數錯字、標點不對。在收到您的語料後,我們會全文照刊,不會做任何校稿工作。
但標點必須是全形符號,這是唯一我們可能會做的更動。
🧵 你會不會太樂觀了?做這件事真的有用嗎?
📢 所以我才沒有一個人默默建線上語料庫,而是大力邀請來自不同語境、筆觸與寫作背景的朋友加入語料建設。
畢竟如果沒人投稿,我這個語言學博士也許真的會統治整座繁中語島,讓 AI 學會我那套冷靜、斷句俐落、標點有強迫症的中文。因為,ChatGPT 不會去看你各位的 Facebook、IG 跟 Threads。
請,救救語言文字的多樣性 🧵
🧠 語言模型能容納的中文語料庫應該飽和了吧?
這是不可否認的事實。因為語言模型的進化不單純靠語料大量的堆疊,而是奠基在數學運算的強度上。也許有一天,AI 不再需要新的語料,它也能寫出一封信、寫一篇日記、模仿一次思念,甚至預測一段憂鬱。
但我們仍相信,有些語句是無法預測的:
- 那種寫給還在等的人才會出現的句子
- 那種用來安慰自己卻故作輕鬆的標點
- 那種活在教育現場或病房邊緣的語言節奏
這些語言不會自己留下來。
它們只存在某些真實的人曾經說過、寫過、願意保留下來的文字裡。
島人語庫記錄的,同時也是這座島嶼上生活的人們經驗的餘音。