民國八十七年常用語詞調查報告析介
總編輯曾榮汾
一、前言
二、樣本採錄
三、統計方法
四、統計結果
五、結語
民國八十七年常用語詞調查是以八十七年一至十二月國內語言環境為調查對象。今年總收樣本為1579771 字。累計單字數為5063字,詞數含單音詞為62058詞,不含單音詞為58810詞。從八十四年的調查開始,我們一直利用字頻來作各種文字屬性的分析, 希望這些的分析結果對於各級教育具參考價值。如今累積了四年的成果,可以發現逐漸接近原先規劃的目標。根據多年的分析結果比對,慢慢可以從其中的異同,建 立起層次。有些部分如原先預估般,我們的語言當有一部分穩固不變,這一部分顯然從四年共有字彙與詞彙得到了答案。我們原先也預估以國內自由開放的環境特 質,語詞的創造與消失應當很快,果然,在共有詞的比較中,我們發現,四年共有才只有14469詞左右。這是個核心。核心以外的,大多屬於周邊變化的部分。 因此,如果要說明我們語言的基本特色,當注意這個核心部分,但是如果想要藉語詞來觀察社會環境的演變,則周邊部分不容忽視。下文是本年度調查報告析介。
本次調查的資料來源有五:
(一)八十七年度出版之雜誌。
(二)八十七年度暢銷之書籍。
(三)八十七年度印行之報紙。
(四)八十七年奇摩站分類索引中之各類網站。
(五)八十七年口語調查之資料。
資料蒐輯細目如下:
(一)八十七年度出版之雜誌
雜 誌 名 稱 |
雜 誌 月 份 |
---|---|
新新聞 |
1-12 |
財訊月刊 |
1-12 |
錢雜誌 |
1-12 |
廣告雜誌 |
1-12 |
天下雜誌 |
1-12 |
遠見雜誌 |
1-12 |
汽車購買指南 |
1-12 |
柯夢波丹 |
1-12 |
解讀時代美語 |
1-12 |
博覽家 |
1-12 |
張老師月刊 |
1-12 |
科學月刊 |
1-12 |
跳蚤月刊 |
1-12 |
新女性 |
1-12 |
當代設計 |
1-12 |
家庭月刊 |
1-12 |
城市情報 |
1-12 |
風尚 |
1-12 |
GQ瀟灑 |
1-12 |
VOGUE時尚 |
1-12 |
大地 |
1-12 |
吃在中國 |
1-12 |
茉莉雜誌 |
1-12 |
哈潑時尚中文版 |
1-12 |
就業情報 |
1-12 |
健康世界 |
1-12 |
育兒生活 |
1-12 |
嬰兒與母親 |
1-12 |
美食天下 |
1-12 |
牛頓雜誌 |
1-12 |
尖端科技雜誌 |
1-12 |
光碟月刊 |
1-12 |
電腦繪圖與設計 |
1-12 |
新遊戲時代雜誌 |
1-12 |
PC HOME電腦家庭 |
1-12 |
管理雜誌 |
1-12 |
讀者文摘 |
1-12 |
講義 |
1-12 |
傳記文學 |
1-12 |
藝術家雜誌 |
1-12 |
職業棒球 |
1-12 |
NBA美國職籃 |
1-12 |
釣魚人 |
1-12 |
D&D裝飾設計 |
1-12 |
雅砌ARCH |
1-12 |
媽媽寶寶 |
1-12 |
國際網球雜誌 |
1-12 |
中央月刊 |
1-12 |
世界電影 |
1-12 |
二手車訊 |
1-12 |
PC WORD電腦世界 |
1-12 |
一手車訊 |
1-12 |
超越車訊 |
1-12 |
汽車百科 |
1-12 |
0與1 BYTE科技 |
1-12 |
網路生活雜誌 |
1-12 |
麥客情報雜誌 |
1-12 |
電腦玩家 |
1-12 |
新電子科技 |
1-12 |
普門 |
1-12 |
聯合文學 |
1-12 |
光華雜誌 |
1-12 |
推理 |
1-12 |
皇冠 |
1-12 |
高手模型雜誌 |
1-12 |
今周刊 |
1-12 |
儂儂 |
1-12 |
電台雜誌 |
1-12 |
景秋高爾夫雜誌 |
1-12 |
中古車購買指南 |
1-12 |
車主汽車專業雜誌 |
1-12 |
世界民航 |
1-12 |
薇薇雜誌 |
1-12 |
(二)八十七年度暢銷之書籍
書 名 |
出 版 社 |
作 者 |
---|---|---|
IC教父張忠謀的策略傳奇 |
天下雜誌 |
楊艾俐 |
Go,Go,Go健康飲食 |
天下遠見出版有限公司 |
郝龍斌 |
傷心咖啡店之歌 |
九歌出版社 |
朱少麟 |
善待自己Ⅱ |
精美出版有限公司 |
賴志松 |
投資股票的第一本書 |
商業周刊出版有限公司 |
黃培源、楊偉凱 |
痛快日記 |
皇冠文化出版有限公司 |
蔡康永 |
鐵達尼號沉沒記 |
九歌出版社 |
華特勞德原著 |
溫柔雙城記 |
大田出版有限公司 |
張曼娟 |
第三謊言 |
小知堂文化事業有限公司 |
雅歌塔.克里斯多1夫著 |
全球資本主義危機 |
聯經出版事業公司 |
索羅斯著 |
鹹魚的滋味 |
圓神出版社有限公司 |
陳昇 |
攀上心中的巔峰 |
水雲齋文化事業有限公司 |
劉墉 |
觀念許文龍和他的奇美王國 |
商業周刊出版股份有限公司 |
黃越宏 |
品牌行銷法則 |
商業周刊出版股份有限公司 |
大衛.愛格著 |
幽默高手 |
時報文化出版企業股份有限公司 |
戴晨志 |
失樂園(上、下) |
麥田出版股份有限公司 |
渡邊淳一著 |
夏先生的故事 |
小知堂文化事業有限公司 |
徐四金著 |
別跟豬打架 |
臉譜文化事業股份有限公司 |
BOB WOUNDED著 |
人子 |
遠景出版事業公司 |
鹿橋 |
心靈會說話 |
商業周刊出版股份有限公司 |
南西.奧哈拉著 |
桃子罐頭 |
尖端出版有限公司 |
櫻桃子著 |
101次求婚 |
台灣東販股份有限公司 |
野島伸司著 |
醫生也瘋狂 |
麥田出版股份有限公司 |
歐陽林著 |
第一次的親密接觸 |
紅色文化事股份有限公司 |
蔡智恆 |
對錯都是為了愛 |
水雲齋文化事業有限公司 |
劉墉 |
李光耀回憶錄 |
世界書局 |
李光耀 |
綠化心靈 |
高寶國際有限公司 |
潘台成 |
昨日的叛逆 |
圓神出版社股份有限公司 |
光禹 |
總裁獅子心 |
平安文化有限公司 |
嚴長壽 |
呆伯特法則 |
經典傳訊文化股份有限公司 |
史考特.亞當斯
著 |
我坐在琵卓河畔,哭泣 |
天下遠見出版股份有限公司 |
保羅.科賀著 |
張忠謀自傳(上冊) |
天下遠見出版股份有限公司 |
張忠謀 |
海德堡之吻 |
圓神出版社有限公司 |
鄭華娟 |
最後14堂星期二的課 |
大塊文化出版股份有限公司 |
Mitch Albom著 |
失戀雜誌 |
元尊文化企業股份有限公司 |
水瓶鯨魚 |
暗夜倖存者 |
平安文化有限公司 |
徐璐 |
湖濱散記 |
高寶國際有限公司 |
亨利.梭羅著 |
突圍 |
商智文化事業股份有限公司 |
沈慶京 |
蒼天有淚人間有天堂 |
皇冠文化出版有限公司 |
瓊瑤 |
Easy談效率 |
精美出版股份有限公司 |
朱凱蕾 |
鮮活思維 |
聯經出版事業公司 |
施振榮 |
控股公司與股權規劃 |
知道出版有限公司 |
楊聰權 |
別為小事抓狂 |
時報文化出版企業股份有限公司 |
理察.卡爾森著 |
非常誠實有點毒 |
方智出版社股份有限公司 |
吳淡如 |
香水婚紀念日 |
圓神出版社有限公司 |
鄭華娟 |
讓我躺在你身邊 |
麥田出版股份有限公司 |
小野 |
快樂是自找的 |
水晶圖書股份有限公司 |
朱凱蕾 |
還珠格格水深火熱 |
皇冠文化出版有限公司 |
瓊瑤 |
我不是教你詐3 |
水雲齋文化事業有限公司 |
劉墉 |
轉個念頭,人生會更好 |
高寶國際有限公司 |
王尚智 |
讓自己變生活高手 |
圓神出版社有限公司 |
曹又方 |
別為小事抓狂得意人生100招 |
時報文化出版企業股份有限公司 |
理察.卡爾森著 |
潛水鐘與蝴蝶 |
大塊文化出版股份有限公司 |
Jean-Dominique Bauby著 |
自戀總比自卑好 |
方智出版社股份有限公司 |
吳淡如 |
你是EQ高手嗎 |
時報文化出版企業股份有限公司 |
戴晨志 |
陌生人 |
聯經出版事業公司 |
李家同 |
橄欖樹 |
聯經出版事業公司 |
蔡素芬 |
二人證據 |
小知堂文化事業有限公司 |
雅歌塔.克里斯多1夫著 |
還珠格格陰錯陽差 |
皇冠文化出版有限公司 |
瓊瑤 |
唐安麒瘦身健美湯方 |
圓神出版社有限公司 |
唐安麒 |
在勇氣邊緣 |
圓神出版社有限公司 |
光禹 |
共同基金聖經 |
商業周刊出版股份有限公司 |
蔣國樑、林一銘、未宋文琪、陳蟬虹著 |
男女溝通高手 |
時報文化出版企業股份有限公司 |
戴晨志 |
活得更聰明 |
方智出版社股份有限公司 |
吳淡如 |
你只要負責笑就好 |
皇冠文化出版有限公司 |
小野 |
牧羊少年奇幻之旅 |
時報文化出版企業股份有限公司 |
保羅.科爾賀著 |
連戰風雲 |
時報文化出版企業股份有限公司 |
李建榮 |
李敖快意恩仇錄 |
李敖出版社 |
李敖 |
台灣念真情之這 些地方這些人 |
麥田出版股份有限公司 |
吳念真 |
(三)八十七年度印行之報紙
報 紙 名 稱 |
收 錄 月 份 |
---|---|
聯合報 |
1-12 |
民生報 |
1-12 |
經濟日報 |
1-12 |
聯合晚報 |
1-12 |
中央日報 |
1-12 |
(四)八十七年奇摩站分類索引中之各類網站:參考奇摩站之分類索引,共蒐錄一百 六十個各類型網站的文字用語。
(五)八十七年口語調查之資料,所包含的調查項目如下:
1.書面資料:包括演講稿、
新聞稿、劇本、廣告詞等。
2.錄音資料:從各電視、電臺節目對話直接錄音取樣的資料。
3.口語問卷:透過問卷設計,廣收全國各級學校學生口頭用語資料。
4.BBS討論站文章:以中華電信Hinet討論區為主要採集對象,選取口語程度較高、看版人數較多、討論公共事務及流行話題之資料。
本統計利用下列方法進行統計:
1.字頻統計法:以累計方式求得單字數及每
字的出現頻次。
2.詞頻統計法:以累計方式求的詞目數及每詞的出現頻次。
3.文字屬性使用頻次統計法:以單字的各種屬性為準,配合出現頻次求其分配情形。
4.單字構詞率統計法:以單字資料庫與詞目資料庫作比較,藉以求得單字構詞能力。
5.字頻與構詞率比較法:以單字頻次與詞目頻次比較,藉以了解二者分布情形的不同。
6.不同字頻庫比較法:以不同年代的字頻庫作比較,藉以了解二者分布層次的同異。
八十七年統計總樣本數為1579771字, 各種統計結果以圖表呈現,簡述於下列:
4.1字頻總表
單字數為5063字。
出現頻次最高者為「的」字,頻次為54861,佔總數3.47%。
累積百分比90%時,累積字數為1070字。
累積百分比99%時,累積字數為2669字。
參見下圖﹝圖中所標圖序為原報告書所列,下同。﹞:
(圖一)
(圖二)
4.2詞頻總表
單音節詞與多音節詞混編,總詞數為62058,排序前十詞為:
詞 目 |
詞 頻 |
---|---|
這 |
54434 |
在 |
11979 |
一 |
11614 |
有 |
9686 |
是 |
9113 |
了 |
8427 |
這 |
7307 |
我 |
7243 |
個 |
6192 |
也 |
4983 |
若以多音節詞為準,總詞數為58810,排 序前十詞為:
詞 目 |
詞 頻 |
---|---|
我們 |
2159 |
可以 |
2114 |
自己 |
1603 |
沒有 |
1532 |
他們 |
1308 |
公司 |
1260 |
因為 |
1250 |
就是 |
1189 |
工作 |
1142 |
如果 |
1075 |
4.3本字彙表部首出現情形說明表:
出現頻次最多的部首為「人部」,依序前十部 為:
部 首 |
出現字數 |
累積字數 |
出現頻次 |
累積頻次 |
累積百分比 |
---|---|---|---|---|---|
人 02 |
191 |
191 |
106698 |
106698 |
6.75401 |
口 03 |
265 |
456 |
65101 |
171799 |
10.87493 |
白 05 |
11 |
467 |
58001 |
229800 |
14.54641 |
一 01 |
18 |
485 |
57435 |
287235 |
18.18206 |
水 04 |
280 |
765 |
44165 |
331400 |
20.97772 |
木 04 |
210 |
975 |
43993 |
375393 |
23.76249 |
辵 07 |
92 |
1067 |
40687 |
416080 |
26.33799 |
言 07 |
127 |
1194 |
39535 |
455615 |
28.84057 |
日 04 |
77 |
1271 |
39502 |
495117 |
31.34106 |
手 04 |
243 |
1514 |
38850 |
533967 |
33.80027 |
4.4 本字彙表筆畫出現情形說明表:
出現頻次最高的筆畫是「八畫」,以出現筆畫 數推算筆畫平均數為12.26畫,標準差為4.46。以出現頻次推算筆畫平均數為9.25畫,標準差為4.38。依序前十畫為:
筆畫 |
出現字數 |
累積字數 |
出現頻次 |
累積頻次 |
百分比 |
---|---|---|---|---|---|
08 |
364 |
364 |
195246 |
195246 |
12.3590 |
06 |
160 |
524 |
137485 |
332731 |
21.0618 |
11 |
465 |
989 |
137159 |
469890 |
29.7440 |
09 |
364 |
1353 |
131866 |
601756 |
38.0912 |
05 |
122 |
1475 |
112090 |
713846 |
45.1865 |
10 |
434 |
1909 |
103326 |
817172 |
51.7271 |
12 |
443 |
2352 |
103188 |
920360 |
58.2589 |
04 |
87 |
2439 |
101672 |
1022032 |
64.6948 |
13 |
429 |
2868 |
98682 |
1120714 |
70.9414 |
07 |
272 |
3140 |
92426 |
1213140 |
76.7920 |
*4.5本字彙表音節統計表:
單音號:計20個音節,佔總音節數 5.01%
出現頻次佔總頻次 13.33%
雙音號:計220個音節,佔總音節數 55.14%
出現頻次佔總頻次 57.2%
三音號:計159個音節,佔總音節數 39.85%
出現頻次佔總頻次 29.47%
4.6本字彙表聲母符號出現情形說明表:
聲母符號除ㄅ至ㄙ二十一聲號外,含零聲母, 共二十二個。零聲母以「○」代表之。依出現頻次為序,前十個聲號如下:
聲母 符號 |
出 現 字 數 |
出 現 頻 次 |
累 積 |
|||
---|---|---|---|---|---|---|
字 數 |
百分比 |
百分比 |
頻 次 |
百分比 |
頻 次 |
|
1 ○ |
703 |
13.885 |
238894 |
15.122 |
238894 |
15.122 |
2 ㄉ |
222 |
4.3848 |
154543 |
9.7826 |
393437 |
24.905 |
3 ㄕ |
238 |
4.7008 |
116049 |
7.3459 |
509486 |
32.251 |
4 ㄐ |
396 |
7.8214 |
113410 |
7.1789 |
622896 |
39.429 |
5 ㄓ |
304 |
6.0043 |
92361 |
5.8465 |
715257 |
45.276 |
6 ㄒ |
320 |
6.3204 |
91506 |
5.7924 |
806763 |
51.068 |
7 ㄌ |
344 |
6.7944 |
77442 |
4.9021 |
884205 |
55.970 |
8 ㄍ |
200 |
3.9502 |
74674 |
4.7269 |
958879 |
60.697 |
9 ㄅ |
238 |
4.7008 |
71831 |
4.5469 |
1030710 |
65.244 |
10 ㄏ |
247 |
4.8785 |
70308 |
4.4505 |
1101018 |
69.695 |
4.7本字彙表韻母符號出現情形說明表:
*八十五年度
本表所列韻母符號除單韻十六個外,含結合韻 母二十二個及空韻一個,共三十九個。空韻以「凢」代表之。排名前十個的韻母為:
韻母 符號 |
出 現 字 數 |
出 現 頻 次 |
累 積 |
|||
---|---|---|---|---|---|---|
字數 |
百分比 |
頻次 |
百分比 |
頻次 |
百分比 |
|
1 ㄧ |
471 |
9.3028 |
143919 |
9.1101 |
143919 |
9.1101 |
2 ㄜ |
161 |
3.1799 |
133149 |
8.4284 |
277068 |
17.538 |
3 凢 |
196 |
3.8712 |
117223 |
7.4203 |
394291 |
24.959 |
4 ㄨ |
420 |
8.2955 |
103674 |
6.5626 |
497965 |
31.521 |
5 ㄧㄢ |
253 |
4.9970 |
68723 |
4.3502 |
566688 |
35.872 |
6 ㄞ |
153 |
3.0219 |
62626 |
3.9642 |
629314 |
39.836 |
7 ㄧㄥ |
178 |
3.5157 |
59795 |
3.7850 |
689109 |
43.621 |
8 ㄨㄛ |
141 |
2.7849 |
58835 |
3.7243 |
747944 |
47.345 |
9 ㄢ |
275 |
5.4316 |
57718 |
3.6536 |
805662 |
50.999 |
10 ㄨㄥ |
151 |
2.9824 |
55876 |
3.5370 |
861538 |
54.536 |
4.8本字彙表聲調符號出現情形說明表:
本表所列聲調符號含陰平、陽平、上聲、去 聲、輕聲五調,分別以「ㄧ」、「ˊ」、「ˇ」、「ˋ」、「˙」等符號表示之。
聲調符號 |
出 現 字 數 |
出 現 頻 次 |
累 積 |
|||
---|---|---|---|---|---|---|
字數 |
百分比 |
頻次 |
百分比 |
頻 次 |
百分比 |
|
1 ˋ |
1673 |
33.044 |
559931 |
35.444 |
559931 |
35.444 |
2 ㄧ |
1212 |
23.938 |
379785 |
24.041 |
939716 |
59.485 |
3 ˊ |
1321 |
26.091 |
329724 |
20.872 |
1269440 |
80.357 |
4 ˇ |
843 |
16.650 |
288768 |
18.279 |
1558208 |
98.636 |
5 ˙ |
14 |
0.2765 |
21563 |
1.3649 |
1579771 |
100.000 |
4.9本字彙表構詞率統計表:依總構詞率排 列
構詞率是指單字作為詞素,於複詞中的組詞能 力。舉構詞率最高的十字為代表:
構 詞 頻 次 |
字 頻 |
|||||
---|---|---|---|---|---|---|
序號 |
字 |
出現 頻次 |
累積 頻次 |
累 積 百分比 |
序號 |
出現 頻次 |
1 |
大 |
657 |
91 |
101 |
9 |
9170 |
2 |
中 |
536 |
99 |
95 |
11 |
8664 |
3 |
不 |
501 |
1954 |
4 |
4 |
15099 |
4 |
陳 |
361 |
1957 |
4 |
392 |
1006 |
5 |
國 |
352 |
47 |
142 |
16 |
7487 |
6 |
一 |
328 |
255 |
50 |
2 |
20204 |
7 |
高 |
320 |
427 |
34 |
88 |
3242 |
8 |
台 |
302 |
64 |
124 |
72 |
3679 |
9 |
小 |
300 |
116 |
85 |
64 |
3791 |
10 |
李 |
280 |
1770 |
5 |
421 |
935 |
4.10兩個字頻統計結果比較:
4.10.1共有與未共有情形比較
將八十七及八十六年兩個統計結果作一比較, 兩年共有字為4359字,未共有字為704字:
二者共有比率達百分之八十六,正表示語言本 身的穩定性質。
4.10.2 字頻出現情形比較
將八十七與八十四至八十六四年字頻表作一比 較,其分布曲線如下:
由上圖可知四個年度的分布曲線十分相似。
4.10.3筆畫出現情形比較
八十七與八十六兩年筆畫出現情形比較曲線如 下:
兩年的筆畫出現情形也是十分相似。
4.11兩個詞頻統計結果
八十七年詞頻表共收62061詞,八十六年 共收47909詞。以八十七年為主,二者共有與未共有情形如下:
二者共有在40%左右。如果進一步將八十七 年與八十四至八十六年收詞比較,以八十七年為主,四者共有與未共有情形如下:
四年共有詞為14469詞,百分比為 23.32%。這一部分當是國內語言結構相當穩定的部分。未共有部分的比例越大,當表示出國內語詞周邊部分新陳代謝的快速現象。
年度語詞的觀察十分重要,它的結果不但 與語言、教育有關,也是了解社會演變的重要資訊。自八十四年以來,教育部國語會已進行過四個年度的統計。不同年度的持續進行,累積的成果將可以提供語言研 究、教科書編輯、字辭典編輯、成人教育、文盲教育、社會環境研究、中文資訊等更有豐富的參考訊息。所有的成果都刊載於國語會網站,網址為:http://www.edu.tw/MANDR/index.aspx, 歡迎各界利用。
八十七年成果列為國語文教育叢書第三十八種,書面版於八十九年六月發行。
[回目次]