(一) 統計方法
1.詞頻依分詞原則,從資料加以選錄,而後累計頻次。
2.字頻統計語料字數約二百萬字,其中約一百二十二萬字由詞頻轉換而來,
約七十七萬字據輸入全文進行統計。
3.語料中若為異體字,一律視為正體字,不另呈現頻率。
4.工作流程如下:
(二) 分詞原則
本統計為了工作需要,詞素中有異體字者,除人名、地名等專科語詞外,一
律改用正字,且在從資料選詞時,除一般具有肯定性質的複詞外,其餘收錄
單位依下列原則進行判斷:
1.專有名詞
ヾ人名、地名、國名、公司行號、機關學校、行政區域、房地產名、產品
名、品牌名等專有名稱予以保留。
如:
梁啟超、九份、美利堅合眾國、大同公司、北京大學、臺北市、文
心貴族、日清杯麵
*?@陳 太太?A、?@王 太?A、?@陳 家?A、?@余 家?A予以切分
ゝ專科語詞一律保留完整單位。
如:
光學式自動識別計測系統、卡波西氏肉瘤
ゞ書籍雜誌名稱、電影名稱予以保留。
如:
天下雜誌、鋼琴師的情人、亂世佳人
々器官名稱,若左右器官的功能有所不同,一律保留。
如:
左腦、右腦
2.外來音譯語詞
外來音譯語詞視為一完整單位,不予切分,譯字不同,視為不同語詞。
如:
奧戴麗赫本、瑪麗蓮夢露、克拉克蓋博、坦克車
3.成語:具有文獻典故來源,且具多層表義效果的固定語。
如:
對牛談琴、人去樓空、水中撈月、矛盾
4.慣用語:
ヾ一般口語習用,表示特定語義的固定語。
如:
敲竹槓、吃豆腐、灌水、翹辮子、吹牛、拉警報、冷戰、老掉牙、
話匣子、捉大頭、落湯雞、壓根兒、大小眼
ゝ正反問慣用語。
如:
好不好、要不要、可不可
ゞ四字格慣用語。慣用語的一類,但結構為四個音節的固定語,形式多類
似成語,但不具文獻典源,又無多層表義效果。
如:
寶裡寶氣、馬馬虎虎、嘰哩呱啦
5.歇後語:形式為前提加說明的固定語,表達時前提可作停頓,再作說明的
提示。歇後語予以切分,另外將完整的語句置於詞頻的附錄。
如:
八仙 過 海 各顯神通
啞子 吃 黃蓮 有 苦 說 不 出
6.諺語、俗語、名言:已習用成俗或一種節錄自詩文的語句,是經驗教訓,
具有智慧啟示意義的固定語,句子簡短,音調和諧,
內容包含食衣住行,各行各業,人情世態等。予以切
分,另外將完整的語句置於報告來作為附錄。
如:
一 動 還 不如 一 靜
多 一 事 不如 少 一 事
早 知 今日 何必 當初
人 算 不如 天 算
路 遙 知 馬力 日 久 見 人心
皇天 不 負 苦心 人
小廟 請 不 到 和尚
人 在 江湖 身不由己
天 有 不 測 風雲 人 有 旦夕 禍福
一 枝 紅杏 出 牆 來
沒 什麼 兩 樣
官兵 捉 強盜
放 諸 四海 皆 準
看 山 還是 山
夏日 炎炎 正 好 眠
幾 家 歡樂 幾 家 愁
7.標語、口號可分出者,則予以切分。
如:
保密 防諜 人人 有 責
8.縮語:就原詞抽取關鍵詞重組的節縮語。
如:
文大、中小企銀、證交稅、捷運局、消基會、軍公教
9.略語:就原詞截取部分詞素而成。
如:
公賣局、文化大學
10.簡稱:某詞的簡稱。
如:
大學、公賣局、青年會、臺、閩
**以上三類視為獨立概念,不切分。
11.結合語:由兩個或兩個以上的詞併合並加以節縮而成的詞,視為獨立的命
題概念,不切分。
如:
出入境、中小學、中小型、內外銷、國內外、工商業
12.正反義詞素結合詞,不切分。
如:
大小、長短、正邪、好壞、內外、男女、輕重、新舊、前後、真假、
上下
13.詞與詞連用程度強的單位,比照固定語不予切分。
如:
必會、已具、實應、貴在、正當、都是、只有、也是、仍然、還好、
再三
14.有重疊成分的詞語
詞素重疊是語言的一種習慣用法,往往具有語義擴大、時間延伸的效果,
不切分。
如:
一些些、快快樂樂、嘻嘻哈哈、綠油油、嚐嚐看、想想、想想看、看
看、走走
15.方位、位置
表示方向和位置的方位詞,可和介詞結合以表示方向或構成方位結構的詞
,予以保留,不切分。
如:
前面、後面、前頭、後頭、上面、下面
16.詞素中有統一用字者,因二字皆可通用,不予統一,各自視為獨立單位。
如:
部分、部份、鞭炮、鞭砲、分布、分佈