(一)本資料庫蒐集口語語詞資料。
(二)本資料庫資料來源:
1.書面資料:包括演講稿、新聞稿、劇本、廣告詞等。
2.錄音資料:從各電視、電臺節目對話直接錄音下來的資料。
3.口語問卷:透過問卷設計,廣收全國各級學校學生口頭用語資料。
4.BBS討論站文章:以中華電信Hinet討論區為主要採集對象,選取口語程度較高、看版人數較多、討論公共事務及流行話題之資料。
(三)本資料庫包含時間:民國87年7月至民國87年12月。
(四)本資料庫包含字頻資料庫、詞頻資料庫、非中文詞資料庫(英文詞、中英略語及數字詞)三部分。
每單筆資料包括以下欄位:
欄位名
NO 序號
PHRASE 詞目
DPIWN 頻次
PERSENT 百分比
TPERSENT 累計百分比
◎字頻資料庫
例如:
NO PHRASE DPIWN PERSENT TPERSENT
1 的 9807 2.84914107 2.84914107 2 我 4495 1.30589264 4.15503371 3 是 4222 1.22658036 5.38161408 4 不 4072 1.18300219 6.56461627 5 人 3806 1.10572356 7.67033982 |
---|
◎詞頻資料庫
例如:
NO PHRASE DPIWN PERSENT TPERSENT
43 喜歡 468 0.22333679 25.24755546 44 沒有 434 0.20711146 25.45466693 45 和 429 0.20472539 25.65939231 46 只 426 0.20329374 25.86268605 47 什麼 425 0.20281653 26.06550258 |
---|
◎非中文詞資料庫
每單筆資料包括以下欄位:
欄位名
PHRASE 詞目
DPIWN 頻率
例如:
PHRASE
DPIWN
CD 33 E-mail 29 VCD 28 MTV 25 KTV 21 |
---|
(四)因資料龐大,故採以資料庫(.dbf)型態儲存,字頻資料庫請由此下載,詞頻資料庫請由此下載,非中文詞資料庫請由此下載。
[回前頁]