NER-Trs-Vol1
MM 0418/2018
Fig.1 webpage NER-Trs-Vol1 cover.
README.md
NER-Trs-Vol1 (beta)
by 廖元甫 臺北科技大學
NER Manual Transcription 語料庫第一集( NER-Trs-Vol1),為臺北科技大學和國立教育廣播電台合作產製之語料庫,主要目標是要大量轉寫教育電台節目,產生節目音檔逐字稿,以建置大規模台灣腔語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音辨認研究需巨量資料之要求。語料庫節目內容大部分是談話性節目,多為自發性語音,只有少部分是新聞報導的朗讀式語音。
語料庫內容
語料庫分成乾淨語料(Clean,約19.4小時、共5106個檔案),與其他語料(Other,約107.4小時、共15983個檔案)。合計總共約126.8小時、共21089個檔案數。
音檔格式
取樣格式 : mono, 16kHz,16 bits PCM
音檔格式: *.wav
處理程序
由教育電台數位典藏中選出之節目音檔,先根據下列二項條件將節目語料區分為「乾淨語料」及「其他語料」:
為錄音室內或為錄音室以外之場所錄製
有無任何背景襯樂或非人聲之噪音
以上二項分類要點在於語料之純淨度,乾淨語料之要求較高,其他語料則較不要求。
然後經由NTUT雙語大字彙語音辨認器(LSTM+RNNLM)轉寫成音檔逐字稿,再經人工校正、切割與移除有版權疑慮的音樂段落後產生語料庫。
語料列表
Clean
節目名稱 | 代碼 | 總時數 | 檔案數 |
---|---|---|---|
創設市集 | CS | 14.4 | 4208 |
技職最前線 | JZ | 1.8 | 438 |
國際教育動線 | GZ | 3.2 | 640 |
合計 | 19.4 | 5106 |
other
節目名稱 | 代碼 | 總時數 | 檔案數 |
---|---|---|---|
多愛自己一點點 | DA | 13.6 | 2347 |
科學SoEasy | KX | 1.8 | 208 |
青年故事館 | QG | 17.3 | 3202 |
不太乖學堂 | BG | 9.5 | 1586 |
星期講座 | WK | 8.4 | 1102 |
遇見幸褔幼稚園 | YX | 5.6 | 826 |
收藏人生 | SR | 16.5 | 2670 |
雙語新聞 | SY | 34.5 | 4015 |
合計 | 107.4 | 15983 |