NER-PhA-Vol1

MM 0418/2018


Fig.1 webpage NER-PhA-Vol1 cover.

README.md

NER-PhA-Vol1 (beta)

by 張詠翔、廖元甫 臺北科技大學

NER Phonetic Annotation 語料庫第一集( NER-PhA-Vol1),為臺北科技大學和國立教育廣播電台合作產製之語料庫,主要目標是要符合語言學研究需精細標記語音特徵之需求。語料庫選用近三年教育電台製作之節目(內容大部分是談話性節目,因此多為自發性語音,只有少部分是新聞類朗讀語音),並挑選其中以wav格式儲存、是在錄音室錄製、且無背景噪音或襯樂等條件之語料,進行人工標註。目前從約20小時節目中,經人工標註,萃取出約6小時之精華語料(標記到phone邊界)。包括有50位成人語者(27位男性,23位女性)。

處理程序

所有語料皆先經過臺北科技大學製作之大字彙語音辨認器(LSTM+RNNLM),自動進行語音辨識,產生音檔逐字稿、然後請具語言學背景,訓練有素之學生進行檢驗、校正語音標記。再使用 Yuan & Liberman (2008) 的Mandarin Forced Aligner,自動產生音段、音節標記,最後再由受過語音學訓練之專任研究助理進一步進行檢驗與校正。

標記以Praat軟體進行,儲存格式為TextGrid,目前共標記四層資訊,包括:

第一層:音段資訊,標注音素種類

第二層:音節資訊,標記為語音對應之文字

第三層:語者資訊,標記語者編號(可已透過speaker.xlsx進行語者背景比對)

第四層:語碼轉換 (code switching; 如:中台夾雜、中英夾雜)。無法轉寫文字之感嘆詞標記,包括:

<S>:完全聽不懂說話者所言 (Skip)

<O>:說話者字詞重疊 (Overlap)

<L>:笑聲 (Laugh)

<N>:非語言之雜音;有背景雜音干擾 (Noise)

<E>:英語 (English)

<T>:臺語 (Taiwanese)

<I>:感嘆詞 (Interjection)。遇到「嗯」、「呃」、「吼」等表示贊同、遲疑或無明確意義的感嘆詞

results matching ""

    No results matching ""