三、八十七年口語資料庫


()本資料庫蒐集口語語詞資料。

()本資料庫資料來源:
1.書面資料:包括演講稿、新聞稿、劇本、廣告詞等。
2.錄音資料:從各電視、電臺節目對話直接錄音下來的資料。
3.口語問卷:透過問卷設計,廣收全國各級學校學生口頭用語資料。
4.BBS討論站文章:以中華電信Hinet討論區為主要採集對象,選取口語程度較高、看版人數較多、討論公共事務及流行話題之資料。

()本資料庫包含時間:民國87年7月至民國87年12月。

()本資料庫包含字頻資料庫、詞頻資料庫、非中文詞資料庫(英文詞、中英略語及數字詞)三部分。

  每單筆資料包括以下欄位:

  欄位名
   NO 序號
   PHRASE 詞目
   DPIWN 頻次
   PERSENT 百分比
   TPERSENT 累計百分比

◎字頻資料庫
例如:
三、八十七年口語資料庫
NO   PHRASE  DPIWN    PERSENT    TPERSENT
1                的         9807    2.84914107   2.84914107
2                我         4495    1.30589264   4.15503371
3                是         4222    1.22658036   5.38161408
4                不         4072    1.18300219   6.56461627
5                人         3806    1.10572356   7.67033982

◎詞頻資料庫
例如:
詞頻資料庫
NO   PHRASE   DPIWN   PERSENT    TPERSENT
43    喜歡     468   0.22333679   25.24755546
44    沒有     434   0.20711146   25.45466693
45    和      429   0.20472539   25.65939231
46    只      426   0.20329374   25.86268605
47    什麼     425   0.20281653   26.06550258

 ◎非中文詞資料庫

  每單筆資料包括以下欄位:
  欄位名
   PHRASE 詞目
   DPIWN 頻率

例如:
非中文詞資料庫
PHRASE                     DPIWN
CD                           33
E-mail                         29
VCD                         28
MTV                         25
KTV                         21

()因資料龐大,故採以資料庫(.dbf)型態儲存,字頻資料庫請由此下載,詞頻資料庫請由此下載,非中文詞資料庫請由此下載
 
 

 [回前頁]