NER-Auto-Vol1

MM 0418/2018


Fig.1 NER-Auto-Vol1 cover

README.md

NER-Auto-Vol1 (beta)

by 廖元甫 臺北科技大學

NER Automatic Transcription 語料庫第一集(NER-Auto-Vol1),是以臺北科技大學的雙語大字彙語音辨認器(LSTM+RNNLM),自動將教育電台節目音檔轉寫成音檔逐字稿。雖還未經人工校正,但已經是挑過的,並附上的辨認錯誤率與信心值估算。應可作為以semi-supervised,甚至是 unsupervised learning,訓練語音辨認器之材料。

語料庫內容

語料庫選自教育電台數位典藏,節目內容大部分是談話性節目,多為自發性語音。目前已處理9個不同節目。合計總共抽出約309.6小時語音、共83,323個檔案數。

音檔格式

取樣格式 : mono, 16kHz,16 bits PCM

音檔格式: *.wav

處理程序

此由教育電台數位典藏中選出之節目音檔,利用NTUT雙語大字彙語音辨認器,自動轉寫成音檔逐字稿。未經人工校正,但已移除有版權疑慮的音樂段落,再依據靜音位置切割音檔而成,並附上:

DNN語音品質估算器產生的錯誤率估算 (Recognition Error Rate Estimation)

LSTM+RNNLM語音辨認器產生的信心值估算(Confidence Measure)

目錄/檔案&內容

.

├── Train

│ ├── Text Transcription

│ ├── Wav Waveform

│ └── *.xlsx [program].xlsx: "program, filename, transcription, Quality Estimation (QE, predicted recognition error rate), Confidence Measure (CM), Duration"

├── LICENSE.md

└── README.md

語料列表

節目名稱 時數 語句數 remark
創設市集on-air 46.8 10237 已上傳
從心歸零 5.8 1497
技職最前線 2.9 636
技職星光大道 0.8 150
星期講座 199.7 58711
生活in Design 21.5 4429
教育talk bar 12.1 2477
今天不看書 14.1 2858
特別的愛 5.9 1164
Total 309.6 83323

results matching ""

    No results matching ""