(一)本資料庫蒐集網際網路語詞資料。
(二)本資料庫資料來源:
1.參考奇摩站分類索引。
2.各類型主題網站共一百六十個。
(三)本資料庫包含時間:民國87年7月至民國87年9月。
(四)本資料庫包含字頻資料庫、詞頻資料庫二部份。
每單筆資料包括以下欄位:
欄位名
NO 序號
PHRASE 詞目
DPIWN 頻次
PERSENT 百分比
TPERSENT 累計百分比
◎字頻資料庫
例如:
NO PHRASE DPIWN PERSENT TPERSENT
1 的 6226 2.93055811 2.93055811 2 一 2370 1.11555135 4.04610946 3 是 1841 0.86655276 4.91266221 4 人 1733 0.81571751 5.72837972 5 有 1594 0.75029066 6.47867038 |
---|
◎詞頻資料庫
例如:
NO
PHRASE DPIWN PERSENT TPERSENT
150 頁 106 0.08359028 36.76000915 151 專輯 106 0.08280619 36.84359943 152 沒有 105 0.08280169 36.92640112 153 則 104 0.08201311 37.00841423 154 音樂 104 0.08201311 37.09042734 |
---|
(四)因資料龐大,故採以資料庫(.dbf)型態儲存,字頻資料庫請由此下載,詞頻資料庫請由此下載。
[回前頁]