(一)本資料庫蒐集網頁資料。
(二)本資料庫資料來源:蕃薯藤網際網路蒐尋引擎分類索引。
(三)本資料庫包含字頻資料庫、詞頻資料庫、非中文詞資料庫(英文詞、中英略語及數字詞)三部分。
每單筆資料包括以下欄位:
欄位名
NO 序號
PHRASE 詞目
DPIWN 頻次
PERSENT 百分比
TPERSENT 累計百分比
◎字頻資料庫
例如:
NO PHRASE DPIWN PERSENT TPERSENT
1 網 2441 1.71849370 1.71849370 2 的 1894 1.33339904 3.05189274 3 電 1826 1.28552621 4.33741895 4 資 1800 1.26722190 5.60464085 5 有 1560 1.09825898 6.70289983 |
---|
◎詞頻資料庫
例如:
NO PHRASE DPIWN PERSENT TPERSENT
1 的 1974 3.06117702 3.06117702 2 及 1043 1.61743041 4.67860743 3 網路 816 1.26541056 5.94401799 4 等 813 1.26075832 7.20477630 5 提供 774 1.20027913 8.40505544 |
---|
每單筆資料包括以下欄位:
欄位名
PHRASE 詞目
DPIWN 頻率
例如:
PHRASE DPIWN
Homepage 84 homepage 83 Internet 49 WWW 48 CD 47 |
---|
(四)因資料龐大,故採以資料庫(.dbf)型態儲存,字頻資料庫請由此下載,詞頻資料庫請由此下載,非中文詞資料庫請由此下載。
[回前頁]