民國八十五年及八十六年語詞調查統計實例析介

曾榮汾

一、前言

  教育部從民國八十六年開始逐年對國內使用語詞的狀況作調查,除已公布的《八十四年常用語詞調查報告》外,陸續又完成八十五年及八十六年的調查。這兩年的調查方法參考了八十四年的成果,作了部分的修訂,如樣本數從一百五十萬字降為一百萬字,詞目分類原則規劃得較為仔細,分詞原則也重新召開委員會檢討修訂等。而在成果呈現方面,因為已經累積三年成果,所以也進行了一些跨年的比較。為了讓各界對此工作有一簡要的認識,本文即就這兩年的調查報告作一介紹,重點包括樣本採錄、統計方法、統計結果、比較分析等。

二、樣本採錄

  本統計的樣本數八十五年以一百萬字為範疇,八十六年以一百零五萬字為範疇,採樣的文獻目錄如下:

2.1雜誌部分:
八十五年度
2.1雜誌部分
雜 誌 名 稱
雜   誌   月   份
財訊雜誌 1、5、7、9
錢雜誌 2、6、10、12
商業周刊 2、5、6、8、10(每月各抽一本)
天下雜誌 1、7、9
汽車購買指南 5、11
美人誌 3、9、12
儂儂 2、6、10
博覽家 2、9
嬰兒與母親 6、8
美食天下 3、11
牛頓雜誌 2、10
尖端科技雜誌 1、7、11
RUN!PC 3、9
PC微電腦 7、11
軟體世界雜誌 4、8
健康世界 5、7、9、11
講義 6、8、10
表演藝術雜誌 5、11
藝術家雜誌 2、8
音樂與音響 2、8、12
世界電影 7、11
廣告雜誌 6、8、10
職業棒球 3、9
攝影天地雜誌 2、8、12
張老師月刊 1、5、9
IMAGE影像雜誌 3、7、11

八十六年度
2.1雜誌部分
雜 誌 名 稱
雜   誌   月   份
新新聞周刊 514、516、523、525、526、528、534、538、540、542、549、551、552、554、560、562(雜誌期數)
天下雜誌 2、5、8、11
遠見 1、4、7、10
財訊 7、9、11
錢雜誌 10、11、12
PC HOME 3、6、9、12
光碟月刊 2、4、8、12
尖端科技 1、4、7、10
牛頓雜誌 3、6、9、12
健康世界 1、4、7、10
嬰兒與母親 2、5、8、11
美食天下 3、6、9、12
美人誌 12、13、14、15(雜誌期數)
柯夢波丹 2、5、8、11
儂儂 3、6、10、12
房屋與生活 3、7、9、12
空間雜誌 1、4、11
汽車購買指南 1、5、8、12
張老師月刊 2、5、8、11
廣告雜誌 1、4、7、10
博覽家 9、12
表演藝術 2、5、8、11
藝術家 1、7
世界電影 8、9、10
職業棒球 3、6、9、12
NBA美國職籃聯盟雜誌 2、5、8、11
台灣釣魚 2、5、8、11
廣播月刊 3、6、9、12
講義 2、5、8、11
讀者文摘 1、4、7、10

2.2書籍部分:
八十五年度
2.2書籍部分
書 名
出 版 社
作 者
超級成功學 平安文化有限公司 陳安之
西藏生死書 張老師文化事業股份有限公司 索甲仁波切
心靈雞湯 晨星出版社 馬克•韓森著
楊淳茵譯
我不是教你詐 水雲齋文化事業有限公司 劉墉
我不是教你詐ゝ 水雲齋文化事業有限公司 劉墉
如何成功致富 遠流出版社 陳安之
國中優等作文 文國書局 張美雯編
國中模範作文 文國書局 張美雯編
新擁抱未來 遠流出版社 比爾•蓋茲
人生以快樂為目的 方智出版社 吳淡如
星座愛情 聯經出版事業公司 陳靖怡
幽浮撞毀事件 九儀出版社 Kevin D.Randle著
高汀樟
覃筱安譯
EQ 時報文化出版企業股份有限公司 丹尼爾•高曼著
張美惠譯
心靈雞湯Ⅱ 晨星出版社 馬克•韓森著 吳淡如
林志豪譯
理財聖經 商業周刊出版股份有限公司 黃培源
健康減肥秘笈 尚宇出版社 趙美芳
你是說話高手嗎 時報文化出版企業股份有限公司 戴晨志

八十六年度
2.2書籍部分
書 名 出 版 社 作 者
誰來教我愛 圓神出版社 光禹
北港香爐人人插 麥田出版社 李昂
台灣念真情 麥田出版社 吳念真
聖經密碼 大塊出版社 邁可卓寧著、杜默譯
股票投資的第一本書 希代出版社 黃培源、楊偉凱
張榮發回憶錄 遠流出版社 張榮發
共同基金Q & A 商周出版社 官大宣
給愛一條活路 方智出版社 吳淡如
創造雙贏的溝通 水雲齋 劉墉、劉軒
人生一定要精采 圓神出版社 曹又方
菅芒花的春天-白冰冰的前半生 圓神出版社 白冰冰
愛要認真又好玩 圓神出版社 褚士瑩
李敖回憶錄 商周文化 李敖
心靈雞湯3 晨星出版社 傑克坎菲爾、馬克韓森著
陳茗芬譯
我還有一隻腳 遠流出版社 周大觀
火宅之貓 皇冠出版社 張曼娟
ENJOY善待自己 希代出版社 DONNA WATSON
哪個男人不偷心 皇冠出版社 吳若權
命運的同學會 皇冠出版社 吳淡如
塔羅魔法書 商周出版社 塔羅公主
殺手正傳 水雲齋 劉墉
心靈簡單就是美 新路出版社 黃漢耀
腦內革命 創意力 春山茂雄
星座EQ 聯經出版社 陳靖怡
千山獨行(蔣緯國人生之旅) 天下文化 汪士淳
心靈地圖 天下文化 張定綺
大自然的獵人 天下文化 威爾森
惡夜追緝令 遠流出版社 JOHN BALL著
王祥芸譯
說不又怎樣 精美出版社 曲筱麗
文明衝突與世界秩序的重建 聯經出版社 杭亭頓
在靈魂居住的地方 水雲齋 劉墉
雪豹 季節風 宋碧雲
理財EQ-輕鬆玫富的投資心理學 商周出版 黃培源
愛的教育 希代出版社 艾得蒙多
挪威的森林 時報出版社 村上春樹

2.3報紙部分:
八十五年度
2.3報紙部分
報 紙 名 稱
收 錄 月 份
聯合報 3、4、5、6
民生報 3、4、5、6
經濟日報 3、4、5、6
聯合晚報 3、4、5、6
自立早報 7、8
※備註:本次抽樣採用報紙的電子檔,因受限於報社提供的樣本範圍,因此聯合報、民生報、經濟日報、聯合晚報僅採樣三月、四月、五月、六月共四個月份,自立早報僅採樣七月、八月共兩個月份。

八十六年度
2.3報紙部分
報 紙 名 稱
收 錄 月 份
聯合報 4、5、6、7、8、9、10、11、12
民生報 4、5、6、7、8、9、10、11、12
經濟日報 4、5、6、7、8、9、10、11、12
聯合晚報 4、5、6、7、8、9、10、11、12
中央日報 10、11、12
※備註:報紙樣本依上列各報社86年4月起提供者為主。

2.4網頁部分:八十六年蕃薯藤網際網路蒐尋引擎分類索引。

2.5詞目分類原則

  為求均衡收詞,及能反映多元化社會的實況,製作常用語詞分類表,作為收詞之依據。表中分為政治、財經、科學、生活、文化等五大領域,並細分至第三層。

◎常用語詞分類表

凡例:

1.本表據當前社會諸領域分類,為教育部逐年調查常用語詞之依據。

2.本表類別不僅參考既有文獻的分類,亦兼顧語詞調查的實際需求。

3.本表為求廣收,各大類皆細分至第三層,常用語詞調查即以第三層所分之類別為標準。

4.本表分類參考書目為:
   1)重編國語辭典專科學術名詞編審分類
   2)全國圖書分類目錄
   3)圖解英漢百科辭典目次
   4)中華兒童百科全書分類索引
   5)當代中國社會科學手冊目錄
   6)新世紀彩色圖解百科全書分類目錄
   7)1995現代用語百科目錄
   8)中研院詞頻統計樣本分類表
   9)尖端科技事典目錄
   10)奇摩站分類索引
   11)國語辭典簡編本圖片分類
   12)雲五社會科學大辭典

5.本表於每年調查報告完成後,檢討修訂。
☆分類表:
image
image
image
image
image
 

三、統計方法
本統計利用下列方法進行統計:

1.字頻統計法:以累計方式求得單字數及每字的出現頻次。

2.詞頻統計法:以累計方式求得詞目數及每詞的出現頻次。

3.文字屬性使用頻次統計法:以單字的各種屬性為準,配合出現頻次求其分配情形。

4.單字構詞率統計法:以單字資料庫與詞目資料庫作比較,藉以求得單字構詞能力。

5.字頻與構詞率比較法:以單字頻次與詞目頻次比較,藉以了解二者分布情形的不同。

6.不同字頻庫比較法:以不同年代的字頻庫作比較,藉以了解二者分布層次的同異。
 
 

四、 統計結果
  八十五年統計總樣本數為1005856字,八十六年統計總樣本數為1051159字,各種統計結果以圖表呈現,簡述於下列:

4.1字頻總表
*八十五年度
單字數為4650字。
出現頻次最高者為「的」字,頻次為39632,佔總數3.94%。
累積百分比90%時,累積字數為1016字。
累積百分比99%時,累積字數為2540字。
參見下圖:
image
image
*八十六年度
單字數為4667字。
出現頻次最高者為「的」字,頻次為36053,佔總數3.42%。
累積百分比90%時,累積字數為1027字。
累積百分比99%時,累積字數為2566字。
參見下圖:
image
image

4.2詞頻總表
*八十五年度
單音節詞與多音節詞混編,總詞數為46721,排序前十詞為:
4.2詞頻總表
詞               目 詞     頻
39282
8522
7684
6820
6692
4719
3970
3965
3835
3615

若以多音節詞為準,則排序前十詞為:
4.2詞頻總表
詞               目 詞      頻
可以
1605
我們
1140
他們
1016
台灣
990
自己
967
沒有
934
因為
917
如果
809
可能
780
表示
775

*八十六年度
單音節詞與多音節詞混編,總詞數為47909,排序前十詞為:
4.2詞頻總表
詞               目 詞     頻
35730
8108
6235
5783
4581
4278
4176
3669
3561
3367

若以多音節詞為準,則排序前十詞為:
4.2詞頻總表
詞               目 詞     頻
可以
1227
我們
1169
台灣
1053
沒有
1032
他們
967
自己
960
提供
880
公司
877
因為
858
服務
760

4.3本字彙表部首出現情形說明表:
八十五年度
出現頻次最多的部首為「人部」,依序前十部為:
4.3本字彙表部首出現情形說明表
部 首
出現字數
累積字數
出現頻次
累積頻次
累積百分比
人 02
183
183
70217 
70217
6.98082
白 05
9
192
41516 
111733
11.10825
口 03
230
422
40458 
152191
15.13049
一 01
18
440
37193 
189384
18.82814
水 04
257
697
27741 
217125
21.58609
木 04
191
888
27349 
244474
24.30507
ひ 07
90
978
26255 
270729
26.91528
手 04
229
1207
25183 
295912
29.41892
日 04
67
1274
24838 
320750
31.88826
土 03
90
1364
23876 
344626
34.26196

*八十六年度
出現頻次最多的部首為「人部」,依序前十部為:
4.3本字彙表部首出現情形說明表
部 首
出現字數
累積字數
出現頻次
累積頻次
累積百分比
人 02
188
188
69884 
69884
6.6482 
口 03
239
427
42495 
112379
10.6909 
白 05
10
437
38012 
150391
14.3071 
一 01
18
455
35842 
186233
17.7169 
水 04
270
725
29921 
216154
20.5633 
木 04
204
929
29336 
245490
23.3542 
言 07
125
1054
27335 
272825
25.9546 
手 04
225
1279
26193 
299018
28.4465 
ひ 07
85
1364
26162 
325180
30.9353 
日 04
74
1438
25198 
350378
33.3325 

4.4 本字彙表筆畫出現情形說明表:
*八十五年度
出現頻次最高的筆畫是「八畫」,以出現筆畫數推算筆畫平均數為12.36畫,標準差為4.53。以出現頻次推算筆畫平均數為9.28畫,標準差為4.38。依序前十畫為:
4.4 本字彙表筆畫出現情形說明表
筆畫
出現字數
累積字數
出現頻次
累積頻次
百分比
08 
348 
348 
132025 
132025
16.937
06 
147 
495 
89262 
221287
11.451
11 
430 
925 
85830 
307117
11.01
09 
330 
1255 
83795 
390912
10.749
05 
118 
1373 
75795 
466707
9.723
12 
412 
1785 
67820 
534527
8.7
10 
389 
2174 
64502 
599029
8.274
04 
86 
2260 
64307 
663336
8.249
13 
397 
2657 
59836 
723172
7.676
07 
260 
2917 
56333 
779505
7.226

image

*八十六年度
出現頻次最高的筆畫是「八畫」,以出現筆畫數推算筆畫平均數為12.36畫,標準差為4.53。以出現頻次推算筆畫平均數為9.28畫,標準差為4.38。依序前十畫為:
4.4 本字彙表筆畫出現情形說明表
筆畫
出現字數
累積字數 
出現頻次
累積頻次
百分比
08 
338 
338 
133250 
133250
16.423
11 
438 
776
93539 
226789
11.529
06 
154 
930
91247 
318036
11.246
09 
345 
1275
88149 
406185
10.864
05 
120 
1395
77919 
484104
9.603
12 
411 
1806
68954 
553058
8.498
10 
393 
2199
67035 
620093
8.262
13 
384 
2583
66998 
687091
8.257
04 
88 
2671
66961 
754052
8.253
07 
254 
2925
57274 
811326
7.059

image

4.5本字彙表音節統計表:

*八十五年度
單音號:計20個音節,佔總音節數    5.02%
           出現頻次佔總頻次13.37%
雙音號:計219個音節,佔總音節數  55.02%
           出現頻次佔總頻次57.67%
三音號:計159個音節,佔總音節數  39.96%
           出現頻次佔總頻次30.96%

*八十六年度
單音號:計20個音節,佔總音節數    5.00%
           出現頻次佔總頻次13.59%
雙音號:計220個音節,佔總音節數  55.00%
           出現頻次佔總頻次56.74%
三音號:計160個音節,佔總音節數  40.00%
           出現頻次佔總頻次29.67%

4.6本字彙表聲母符號出現情形說明表:
*八十五年度
聲母符號除ㄅ至ㄙ二十一聲號外,含零聲母,共二十二個。零聲母以「○」代表之。依出現頻次為序,前十個聲號如下:
4.6本字彙表聲母符號出現情形說明表
聲母

符號

出 現 字 數
出 現 頻 次
累 積
字 數
百分比
百分比
頻 次
百分比
頻 次
1 ○ 
624 
14.962
13.413 
150492 
14.962 
150492
2 ㄉ 
215 
25.329
4.6233 
104274 
10.367 
254766
3 ㄕ 
215 
32.764
4.6230 
74781 
7.4346 
329547
4 ㄐ 
370 
39.990
7.9573 
72692 
7.2269 
402239
5 ㄓ 
280 
45.982
6.0215 
60263 
5.9912 
462502
6 ㄒ 
284 
51.551
6.1076 
56018 
5.5692 
518520
7 ㄌ 
327 
56.320
7.0327 
47972 
4.7693 
566492
8 ㄍ 
192 
61.030
4.1295 
47376 
4.7100 
613868
9 ㄅ 
216 
65.622
4.6453 
46188 
4.5919 
660056
10 ㄏ 
222 
69.841
4.7748 
42440 
4.2193 
702496

image

*八十六年度
聲母符號除ㄅ至ㄙ二十一聲號外,含零聲母,共二十二個。零聲母以「○」代表之。依出現頻次為序,前十個聲號如下:
4.6本字彙表聲母符號出現情形說明表
聲母
符號

 

出 現 字 數
出 現 頻 次
累 積
字 數
百分比
百分比
頻 次
百分比
頻 次
1 ○ 
643 
14.916
13.778 
156787 
14.916 
156787
2 ㄉ 
215 
24.700
4.6068 
102844 
9.7839 
259631
3 ㄕ 
224 
32.181
4.7997 
78633 
7.4806 
338264
4 ㄐ 
367 
39.613
7.8637 
78122 
7.4320 
416386
5 ㄓ 
288 
45.651
6.1710 
63474 
6.0385 
479860
6 ㄒ 
302 
51.601
6.4710 
62545 
5.9501 
542405
7 ㄍ 
185 
56.540
3.9640 
51916 
4.9389 
594321
8 ㄌ 
311 
61.382
6.6638 
50898 
4.8421 
645219
9 ㄅ 
218 
65.713
4.6711 
45519 
4.3304 
690738
10 ㄏ 
230 
69.837
4.9282 
43351 
4.1241 
734089

image

4.7本字彙表韻母符號出現情形說明表:
*八十五年度
本表所列韻母符號除單韻十六個外,含結合韻母二十二個及空韻一個,共三十九個。空韻以「◎」代表之。排名前十個的韻母為:
4.7本字彙表韻母符號出現情形說明表
韻母

符號

出 現 字 數
出 現 頻 次
累 積
字數
百分比
頻次
百分比
頻次
百分比
1  ㄧ 
426 
9.1613 
93131 
9.2589 
93131
9.2589
2  ㄜ 
139 
2.9892 
89072 
8.8553 
182203
18.114
3  ◎ 
187 
4.0215 
75722 
7.5281 
257925
25.642
4  ㄨ 
373 
8.0215 
67319 
6.6927 
325244
32.335
5  ㄧㄢ
238 
5.1183 
43819 
4.3564 
369063
36.691
6  ㄞ 
136 
2.9247 
40978 
4.0739 
410041
40.765
7  ㄧㄥ
174 
3.7419 
37578 
3.7359 
447619
44.501
8  ㄢ 
265 
5.6989 
36339 
3.6127 
483958
48.114
9  ㄨㄥ
137 
2.9462 
35945 
3.5736 
519903
51.688
10 ㄨㄛ
129 
2.7742 
35226 
3.5021 
555129
55.190

image

*八十六年度
本表所列韻母符號除單韻十六個外,含結合韻母二十二個及空韻一個,共三十九個。空韻以「◎」代表之。排名前十個的韻母為:
4.7本字彙表韻母符號出現情形說明表
韻母
符號
出 現 字 數
出 現 頻 次
累 積
字數
百分比
頻 次
百 分 比
頻 次
百 分 比
1  ㄧ
425 
9.1065 
97072 
9.2348 
97072
9.2348
2  ㄜ
140 
2.9998 
85374 
8.1219 
182446
17.357
3  ◎ 
187 
4.0069 
81537 
7.7569 
263983
25.114
4  ㄨ
387 
8.2923 
69901 
6.6499 
333884
31.763
5  ㄧㄢ
245 
5.2496 
47125 
4.4831 
381009
36.247
6  ㄞ
133 
2.8498 
42051 
4.0004 
423060
40.247
7  ㄧㄥ
163 
3.4926 
39894 
3.7952 
462954
44.042
8  ㄨㄥ
150 
3.2141 
38850 
3.6959 
501804
47.738
9  ㄢ
263 
5.6353 
38228 
3.6367 
540032
51.375
10 ㄨㄛ
116 
2.4855 
37476 
3.5652 
577508
54.940

image

4.8本字彙表聲調符號出現情形說明表:
*八十五年度本表所列聲調符號含陰平、陽平、上聲、去聲、輕聲五調,分別以「ㄧ」、「ˊ」、「ˇ」、「ˋ」、「˙」等符號表示之。
4.8本字彙表聲調符號出現情形說明表
聲調符號
出 現 字 數
出 現 頻 次
累 積
字數
百分比
頻次
百分比
頻 次
百分比
1 ˋ 
1538
33.075
361279
35.918
361279
35.918
2 ˊ 
1219
26.215
205890
20.469
567169
56.387
3 ㄧ 
1082
23.269
201758
20.058
768927
76.445
4 ˇ 
796
17.118
181043
17.999
949970
94.444
5 ˙ 
15
0.3226
55886
5.5561
1005856
100.000

*八十六年度
本表所列聲調符號含陰平、陽平、上聲、去聲、輕聲五調,分別以「ㄧ」、「ˊ」、「ˇ」、「ˋ」、「˙」等符號表示之。
4.8本字彙表聲調符號出現情形說明表
聲調符號
出 現 字 數
出 現 頻 次
累 積
字數
百分比
頻次
百分比
頻 次
百分比
1 ˋ 
1546
33.126
376518
35.819
376518
35.819
2 ㄧ 
1095
23.463
219177
20.851
595695
56.670
3 ˊ 
1229
26.334
216772
20.622
812467
77.292
4 ˇ 
782
16.756
185794
17.675
998261
94.967
5 ˙ 
15
0.3214
52898
5.0324
1051159
100.000

4.9本字彙表構詞率統計表:依總構詞率排列
*八十五年度
構詞率是指單字作為詞素,於複詞中的組詞能力。舉構詞率最高的十字為代表:
4.9本字彙表構詞率統計表:依總構詞率排列
構 詞 頻 次
字 頻
序號
出現
頻次
累積
頻次
累 積
百分比
序號
出現
頻次
1026 
1026
0.9992
7
8004 
835 
1861
1.8124
12
5239 
792 
2653
2.5837
112
1798 
689 
3342
3.2548
158
1430 
600 
3942
3.8391
81
2173 
565 
4507
4.3894
68
2387 
565 
5072
4.9396
10
5884 
550 
5622
5.4753
77
2229 
543 
6165
6.0041
11
5854 
10 
538 
6703
6.5281
59
2612 

image

*八十六年度
4.9本字彙表構詞率統計表:依總構詞率排列
構 詞 頻 次
字 頻
序號
出現
頻次
累積
頻次
累 積
百分比
序號
出現
頻次
875 
875
0.9697
85
2289 
671 
1546
1.7134
13
5551 
586 
2132
2.3629
9
6011 
586 
2718
3.0124
6
8499 
567 
3285
3.6408
35
3435 
533 
3818
4.2316
8
6019 
437 
4255
4.7159
7
8058 
429 
4684
5.1914
71
2524 
407 
5091
5.6425
123
1821 
10 
398 
5489
6.0836
12
5759 

image

4.10兩個字頻統計結果比較:

4.10.1共有與未共有情形比較
將八十五及八十六年兩個統計結果作一比較,兩年共有字為4157字,未共有字為510字:
image
二者共有比率達百分之八十九,正表示語言本身的穩定性質。

4.10.2 字頻出現情形比較
將八十五與八十六兩年字頻表作一比較,並結合八十四年結果,其分布曲線如下:
image
由上圖可知三個年度的分布曲線十分相似。

4.10.3筆畫出現情形比較
八十五與八十六兩年筆畫出現情形比較曲線如下:
image
兩年的筆畫出現情形也是十分相似。
 

4.11兩個詞頻統計結果
八十五年詞頻表共收46721詞,八十六年共收47909詞。以八十六年為主,二者共有與未共有情形如下:
image

二者共有在50%左右。如果進一步將八十五年與八十四年比較,八十四年收詞49407詞,以八十五年為主,二者共有與未共有情形如下:
image
二者共有也接近50%。這也許反映出國內語言環境相當具有活力,詞的滋長與更替十分快速。
 
 

五、結語
  年度語詞的觀察十分重要,它的結果不但與語言、教育有關,也是了解社會演變的重要資訊。若連《國語辭典簡編本》的字詞頻統計,國語會已有四個年度的成果。不同年度的持續進行,累積的成果將可以提供語言研究、教科書編輯、字辭典編輯、成人教育、文盲教育、社會研究、中文資訊等更有豐富的參考訊息。教育部國語會在有限條件下將不斷努力,並秉持一貫立場,將資料庫公開給各界使用,也希望各界不吝提供使用意見。我們的電子信箱為:mandr@mail.moe.gov.tw,成果刊載於國語會網站,網址為:http://ws.moe.edu.tw/mandr/index.htm

 

作者簡介:曾榮汾,男,民國四十年生,臺灣省雲林人,教育部國家文學博士。中央警大專任教授,教育部國語會異體字典總編輯。
 
 

[回目次]