NER-Trs-Vol1

MM 0418/2018


Fig.1 webpage NER-Trs-Vol1 cover.

README.md

NER-Trs-Vol1 (beta)

by 廖元甫 臺北科技大學

NER Manual Transcription 語料庫第一集( NER-Trs-Vol1),為臺北科技大學和國立教育廣播電台合作產製之語料庫,主要目標是要大量轉寫教育電台節目,產生節目音檔逐字稿,以建置大規模台灣腔語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音辨認研究需巨量資料之要求。語料庫節目內容大部分是談話性節目,多為自發性語音,只有少部分是新聞報導的朗讀式語音。

語料庫內容

語料庫分成乾淨語料(Clean,約19.4小時、共5106個檔案),與其他語料(Other,約107.4小時、共15983個檔案)。合計總共約126.8小時、共21089個檔案數。

音檔格式

取樣格式 : mono, 16kHz,16 bits PCM

音檔格式: *.wav

處理程序

由教育電台數位典藏中選出之節目音檔,先根據下列二項條件將節目語料區分為「乾淨語料」及「其他語料」:

為錄音室內或為錄音室以外之場所錄製

有無任何背景襯樂或非人聲之噪音

以上二項分類要點在於語料之純淨度,乾淨語料之要求較高,其他語料則較不要求。

然後經由NTUT雙語大字彙語音辨認器(LSTM+RNNLM)轉寫成音檔逐字稿,再經人工校正、切割與移除有版權疑慮的音樂段落後產生語料庫。

語料列表

Clean

節目名稱 代碼 總時數 檔案數
創設市集 CS 14.4 4208
技職最前線 JZ 1.8 438
國際教育動線 GZ 3.2 640
合計 19.4 5106

other

節目名稱 代碼 總時數 檔案數
多愛自己一點點 DA 13.6 2347
科學SoEasy KX 1.8 208
青年故事館 QG 17.3 3202
不太乖學堂 BG 9.5 1586
星期講座 WK 8.4 1102
遇見幸褔幼稚園 YX 5.6 826
收藏人生 SR 16.5 2670
雙語新聞 SY 34.5 4015
合計 107.4 15983

results matching ""

    No results matching ""