Skip to content

MindongLab/cdo-corpus

This branch is up to date with Nang-muoi-sing/cdo-corpus:master.

Folders and files

NameName
Last commit message
Last commit date

Latest commit

78ba446 · Dec 5, 2023
Nov 27, 2023
Nov 27, 2023
Nov 27, 2023
Dec 2, 2023
Dec 5, 2023
Sep 29, 2021
Dec 3, 2023
Nov 27, 2023
Oct 3, 2021
Dec 2, 2023
Dec 2, 2023
Sep 29, 2021
Nov 25, 2023
Nov 26, 2023
Nov 27, 2023
Nov 26, 2023

Repository files navigation

Eastern Min corpus / 閩東語語料庫

詳見 Wiki

Visit our Wiki page for more information.

Directory tree 目錄結構

Plaintext 純文本語料

  • /plaintext 純文本語料的母目錄,下含語句、詩歌、文章、書籍等類。
    • /.../word-alignment 以XML格式標註、精度爲詞的純文本語料。

Spoken corpus 有聲語料

  • /essay 朗讀文章。
  • /music 歌曲。
  • /opera 戲曲。請參閱相關工作流
    • /.../Min opera 閩劇(包括其選段)。
  • /poem 詩歌、謠讖。
  • /video 影片。請參閱相關工作流
  • /sentences 語句。請參閱句料分類規範
    • /.../info.tsv 語料信息表。查閱、編輯前應看此表,以瞭解語料的整理、標註狀態。
    • /.../template.etf ELAN模板。

純文本、有聲語料目錄,除/sentences以外,會以語料狀態各設不同的子文件夾:

文件夾名 含義
Machine-unreadable 暫未整理出機器可讀的文本。
Working on sentence alignment (cdo) 正在整理句對齊的閩東語文本。
Sentence-aligned (cdo) 具備已經句對齊的閩東語文本。
Sentence-aligned (cdo, cmn) 具備已經句對齊的原語爲閩東語、譯語爲官話的文本。
Sentence-aligned (cmn, cdo) 具備已經句對齊的原語爲官話、譯語爲閩東語的文本。

Other 其他材料

  • /audio 擬用於榕典的音頻文件。請參閱相關工作流
    • /.../audio contrib 用戶貢獻詞彙的音頻文件。
      • /.../Audio Source.tsv 音頻信息。
    • /.../audio contrib sentences 用戶貢獻詞彙的例句音頻文件。
    • /.../audio feng 具備Zingzeu ID的馮愛珍版《福州方言詞典》詞彙音頻。
      • /.../Audio Prepared for Yng Dieng 音頻信息。
    • /.../audio li 具備Zingzeu ID的李如龍版《福州方言詞典》詞彙音頻。
      • /.../Audio Prepared for Yng Dieng 音頻信息。
  • /timing 記錄志願者的標記工作時長,以資安排任務之參考。

About

Eastern Min corpus / 閩東語語料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 97.6%
  • Python 2.4%