中文語音Sentence Boundary Detection
Fig.0 schematic of inference of AI NLP great challenge.
Fig0呈現AI NLP Great Challenge的inference流程圖。
acoustic signal(聲音訊號)將由speech recognition轉成文字檔。
acoustic signal包含paragraph (), query (), choices (),他們都將轉換成文字。
;
;
Choice中文語音Sentence Boundary Detection
Fig. 1 Flowchart of choice 中文語音Sentence Boundary Detection
圖1呈現將選項聲音訊號 () 轉成四個文字檔 ()的示意圖。
更細的來說,除了要將做speech recognition,同時還需做的sentence boundary detection。
Fig. 2 Flowchart of three different domain of Sentence Boundary Detection
圖2呈現三種Sentence Boundary Detection的做法。Sentence Boundary Detection分成三個domain考慮:text domain, signal domain, acoustic domain,4個音頻依序透過Speech Recognition轉譯成文字辨識結果, , , 。
圖2(a)是Text-domain的做法,Choice Audio() 先透過Speech Recognition產生辨識結果,在文字空間上做句子段落偵測(Sentence Boundary Detection),輸出4個選項, , , 的辨識結果。
圖2(b)是Signal-domain的做法,Choice Audio ()先透過Sentence Boundary Detection分成4個選項音頻, , , ,4個音頻依序透過Speech Recognition轉譯成文字辨識結果, , , 。
圖2(c)是Acoustic-Domain的做法,Choice Audio ()先透過音節辨識(Syllables Recognition)轉成音節辨識結果()。、輸入Sentence Boundary Detection,輸出4個選項音頻, , , 。
Fig. 3 Schematic of Choice 中文語音Sentence Segmentation.
圖3呈現一個例子
輸入choice acoustic signal :C0000001.wav
四個Choices為:: 一 1.5公里、 : 二 1.4公里、 : 三 1.3公里 、: 四 1.6公里