四、統計方法

(一)收詞分類原則

為了均衡收詞,反映多元化的社會的實況,詞目蒐錄分為九大領域:

1.政治

2.法律

3.經濟/產業/經營

4.社會/生活

5.科技

6.資訊

7.醫藥衛生

8.文化/藝術/風俗

9.體育/娛樂

 

(二)分詞的原則

收錄單位依下列原則進行判斷:

1.專有名詞:人名、地名、國名、公司行號、機關學校、行政區名、房地產名、產品名、品牌名等專有名稱,予以保留。

如:梁啟超、九份、美利堅合眾國、大同公司、北京大學、臺北市、文心貴族、日清杯麵。

*非特指某一人或物的詞,如:「陳 太太」、「王 家」予以切分。

2.專科語詞一律保留完整單位。

如:光學式自動識別計測系統、卡波西氏肉瘤

3.書籍雜誌名稱、電影名稱予以保留。

如:天下雜誌、鋼琴師的情人、亂世佳人

4.器官名稱,若左右器官的功能有所不同,一律保留。

如:左腦、右腦

5.外來音譯語詞:外來音譯語詞視為一完整單位,不予切分,譯字不同,視為不同語詞。

如:奧戴麗赫本、瑪麗蓮夢露、克拉克蓋博、坦克車

6.成語:具有文獻典故來源,且具多層表義效果的固定語。

如:對牛彈琴、人去樓空、水中撈月、矛盾

7.慣用語:一般口語習用,表示特定語義的固定語。

如:敲竹槓、吃豆腐、灌水、翹辮子、吹牛、拉警報、冷戰、老掉牙、話匣子、捉大頭、落湯雞、壓根兒、大小眼

8.反問慣用語。

如:好不好、要不要、可不可

9.四字格慣用語:慣用語的一類,但結構為四個音節的固定語,形式多類似成語,但不具文獻典源,又無多層表義效果。

如:寶裡寶氣、馬馬虎虎、嘰哩呱啦

10.歇後語:形式為前提加說明的固定語,表達時前提可作停頓,再作說明的提示,歇後語予以切分。

如:八仙 過 海 各顯神通

啞子 吃 黃連 有 苦 說 不 出

11.諺語、俗語、名言:已習用成俗或一種節錄自詩文的語句,是經驗教訓,具有智慧啟示意義的固定語,句子簡短,音調和諧,內容包含食衣住行,各行各業,人情世態等。此類予以切分。

如:一 動 還 不如 一 靜

多 一 事 不如 少 一 事

早 知 今日 何必 當初

人 算 不如 天 算

路 遙 知 馬力 日 久 見 人心

皇天 不 負 苦心 人

小廟 請 不 到 和尚

人 在 江湖 身不由己

天 有 不 測 風雲 人 有 旦夕 禍福

一 枝 紅杏 出 牆 來

官兵 捉 強盜

放 諸 四海 皆 準

看 山 還是 山

夏日 炎炎 正 好 眠

幾 家 歡樂 幾 家 愁

12.標語、口號可分出者,則予以切分。

如:保密 防諜 人人 有 責

13.縮語:就原詞抽取關鍵詞重組的節縮語。視為獨立概念,不切分。

如:文大、中小企銀、證交稅、捷運局、消基會、軍公教

14.略語:就原詞截取部分詞素而成。視為獨立概念,不切分。

如:「公賣局」是「臺灣煙酒公賣局」的略語,不切分。

「文化大學」是「中國文化大學」的略語,不切分。

15.簡稱:某詞的簡稱。視為獨立概念,不切分。

如:大學、公賣局、青年會、臺、閩

16.結合語:由兩個或兩個以上的詞併合並加以節縮而成的詞,視為獨立的命題概念,不切分。

如:出入境、中小學、中小型、內外銷、國內外、工商業、青少棒

17.正反義詞素結合詞,不切分。

如:大小、長短、正邪、好壞、內外、男女、輕重、新舊、前後、真假、上下

18.詞與詞連用程度強的單位,比照固定語不予切分。

如:必會、已具、實應、貴在、正當、都是、只有、也是、仍然、還好、再三

19.有重疊成分的詞語:詞素重疊是語言的一種習慣用法,往往具有語義擴大、時間延伸的效果,不切分。

如:一些些、快快樂樂、嘻嘻哈哈、綠油油、嚐嚐看、想想、想想看、看看、走走

20.方位、位置:表示方向和位置的方位詞,可和介詞結合以表示方向或構成方位結構的詞,予以保留,不切分。

如:前面、後面、前頭、後頭、上面、下面

21.詞素中有統一用字者,因二字皆可通用,不予統一,各自視為獨立單位。

如:部分、部份、鞭炮、鞭砲、分布、分佈

 

(三)資料統計方法

本統計利用下列方法進行統計:

1.字頻統計法:以累計方式求得單字數及每字的出現頻次。

2.詞頻統計法:以累計方式求的詞目數及每詞的出現頻次。

3.文字屬性使用頻次統計法:以單字的各種屬性為準,配合出現頻次求其分配情形。

4.單字構詞率統計法:以單字資料庫與與詞目資料庫作比較,藉以求得單字構詞能力。

5.字頻與構詞率比較法:以單字頻次與詞目頻次比較,藉以了解二者分布情形的不同。

6.不同字頻庫比較法:以不同年代的字頻庫作比較,藉以了解二者分布層次的同異。

 

[回前頁]