PTS-MSub-Vol1

MM 0418/2018


Fig.1 PTS-MSub-Vol1 webpage cover

README.md

PTS-MSub-Vol1 (beta)

by 廖元甫 臺北科技大學

PTS Manual Subtitle Vol.1 語料庫(PTS-MSub-Vol1)是由公共電視實際播出節目中,選取帶有人工字幕與時間碼資料的節目,從播出帶中擷取音軌,依據時間碼配上對應的字幕而得。

為保持完整資訊,語料以一集節目為一個音檔,並搭配具時間碼之字幕檔,包括txt, pts, srt, texrgrid and trs等格式(可自由轉換,但建議以transcriber軟體開啟),因此可供進行多種項目的研究題目。

請注意,此語料庫已可使用,但因公視以人工上字幕時,有一些習慣作法,與做語音辨認需完全正確的逐字稿不同,所以目前仍為beta版,使用時需避開一些已知問題(記錄在known_bugs.txt中)。預計將繼續進行人工校正,並進一步標註人、語言與其他音訊事件。

Dataset

總共包含 386 集 PTS TV Shows with audio and subtitles (mono, 16 kHz sampling rate, 16 bits PCM encoding, in total about 264.0 hours),包括:

聽聽看 56 集

誰來晚餐 96 集

下課花路米 104 集

流言追追追 36 集

公視藝文大道 94 集

Folder Structure

Train

├── README.md

├── LICENSE.md

├── known_bugs.txt

├── data

│ ├── 聽聽看

│ ├── 誰來晚餐

│ ├── 下課花路米

│ ├── 流言追追追

│ └── 公視藝文大道

└── script # programs to automatically convert handmade *.txt to *.srt, *pts, *.textgrid and finally *.trs

├── pts2srt.py

├── srt2pts.py

├── srt2pts.sh

├── srt2seg.py

├── srt2seg.sh

├── srt2textgrid.py

├── srt2textgrid.sh

├── textgrid2trs.pl

├── textgrid2trs.sh

└── txt2srt.sh  

data structure

data

├── Show 1 # speech *.wav and transcriptions *.txt, *.srt, *.textgrid, *.pts and *.trs

│ ├── G00001590771.srt

│ ├── G00001590771.textgrid

│ ├── G00001590771.trs

│ ├── G00001590771.txt

│ ├── G00001590771.wav

│ ├── ...

│ ├── ...

│ └── ...

├── Show 2

...

...

...

results matching ""

    No results matching ""