PTS-MSub-Vol1
MM 0418/2018
Fig.1 PTS-MSub-Vol1 webpage cover
README.md
PTS-MSub-Vol1 (beta)
by 廖元甫 臺北科技大學
PTS Manual Subtitle Vol.1 語料庫(PTS-MSub-Vol1)是由公共電視實際播出節目中,選取帶有人工字幕與時間碼資料的節目,從播出帶中擷取音軌,依據時間碼配上對應的字幕而得。
為保持完整資訊,語料以一集節目為一個音檔,並搭配具時間碼之字幕檔,包括txt, pts, srt, texrgrid and trs等格式(可自由轉換,但建議以transcriber軟體開啟),因此可供進行多種項目的研究題目。
請注意,此語料庫已可使用,但因公視以人工上字幕時,有一些習慣作法,與做語音辨認需完全正確的逐字稿不同,所以目前仍為beta版,使用時需避開一些已知問題(記錄在known_bugs.txt中)。預計將繼續進行人工校正,並進一步標註人、語言與其他音訊事件。
Dataset
總共包含 386 集 PTS TV Shows with audio and subtitles (mono, 16 kHz sampling rate, 16 bits PCM encoding, in total about 264.0 hours),包括:
聽聽看 56 集
誰來晚餐 96 集
下課花路米 104 集
流言追追追 36 集
公視藝文大道 94 集
Folder Structure
Train
├── README.md
├── LICENSE.md
├── known_bugs.txt
├── data
│ ├── 聽聽看
│ ├── 誰來晚餐
│ ├── 下課花路米
│ ├── 流言追追追
│ └── 公視藝文大道
└── script # programs to automatically convert handmade *.txt to *.srt, *pts, *.textgrid and finally *.trs
├── pts2srt.py
├── srt2pts.py
├── srt2pts.sh
├── srt2seg.py
├── srt2seg.sh
├── srt2textgrid.py
├── srt2textgrid.sh
├── textgrid2trs.pl
├── textgrid2trs.sh
└── txt2srt.sh
data structure
data
├── Show 1 # speech *.wav and transcriptions *.txt, *.srt, *.textgrid, *.pts and *.trs
│ ├── G00001590771.srt
│ ├── G00001590771.textgrid
│ ├── G00001590771.trs
│ ├── G00001590771.txt
│ ├── G00001590771.wav
│ ├── ...
│ ├── ...
│ └── ...
├── Show 2
...
...
...