民國八十五年及八十六年語詞調 查統計實例析介

曾榮汾

一、前言

  教育部從民國八十六年開始逐年對國內使用語詞的 狀況作調查,除已公布的《八十四年常用語詞調查報告》外,陸續又完成八十五年 及八十六年的調查。這兩年的調查方法參考了八十四年的成果,作了部分的修訂,如樣本數從一百五十萬字降為一百萬字,詞目分類原則規劃得較為仔細,分詞原則 也重新召開委員會檢討修訂等。而在成果呈現方面,因為已經累積三年成果,所以也進行了一些跨年的比較。為了讓各界對此工作有一簡要的認識,本文即就這兩年 的調查報告作一介紹,重點包括樣本採錄、統計方法、統計結果、比較分析等。


二、樣本採錄

  本統計的樣本數八十五年以一百萬字為範疇,八十 六年以一百零五萬字為範疇,採樣的文獻目錄如下:

2.1雜誌部分:

八十五年度
2.1雜誌部分

雜 誌 名 稱

雜   誌   月   份

財訊雜誌

1、5、7、9

錢雜誌

2、6、10、12

商業周刊

2、5、6、8、10(每月各抽一本)

天下雜誌

1、7、9

汽車購買指南

5、11

美人誌

3、9、12

儂儂

2、6、10

博覽家

2、9

嬰兒與母親

6、8

美食天下

3、11

牛頓雜誌

2、10

尖端科技雜誌

1、7、11

RUN!PC

3、9

PC微電腦

7、11

軟體世界雜誌

4、8

健康世界

5、7、9、11

講義

6、8、10

表演藝術雜誌

5、11

藝術家雜誌

2、8

音樂與音響

2、8、12

世界電影

7、11

廣告雜誌

6、8、10

職業棒球

3、9

攝影天地雜誌

2、8、12

張老師月刊

1、5、9

IMAGE影像雜誌

3、7、11


八十六年度
2.1雜誌部分

雜 誌 名 稱

雜   誌   月   份

新新聞周刊

514、516、523、525、526、528、534、538、540、542、549、 551、552、554、560、562(雜誌期數)

天下雜誌

2、5、8、11

遠見

1、4、7、10

財訊

7、9、11

錢雜誌

10、11、12

PC HOME

3、6、9、12

光碟月刊

2、4、8、12

尖端科技

1、4、7、10

牛頓雜誌

3、6、9、12

健康世界

1、4、7、10

嬰兒與母親

2、5、8、11

美食天下

3、6、9、12

美人誌

12、13、14、15(雜誌期數)

柯夢波丹

2、5、8、11

儂儂

3、6、10、12

房屋與生活

3、7、9、12

空間雜誌

1、4、11

汽車購買指南

1、5、8、12

張老師月刊

2、5、8、11

廣告雜誌

1、4、7、10

博覽家

9、12

表演藝術

2、5、8、11

藝術家

1、7

世界電影

8、9、10

職業棒球

3、6、9、12

NBA美國職籃聯盟雜誌

2、5、8、11

台灣釣魚

2、5、8、11

廣播月刊

3、6、9、12

講義

2、5、8、11

讀者文摘

1、4、7、10

2.2書籍部分:

八十五年度
2.2書籍部分

書 名

版 社

作 者

超級成功學

平安文化有限公司

陳安之

西藏生死書

張老師文化事業股份有限公司

索甲仁波切

心靈雞湯

晨星出版社

馬克•韓森著
楊淳茵譯

我不是教你詐

水雲齋文化事業有限公司

劉墉

我不是教你詐②

水雲齋文化事業有限公司

劉墉

如何成功致富

遠流出版社

陳安之

國中優等作文

文國書局

張美雯編

國中模範作文

文國書局

張美雯編

新擁抱未來

遠流出版社

比爾•蓋茲

人生以快樂為目的

方智出版社

吳淡如

星座愛情

聯經出版事業公司

陳靖怡

幽浮撞毀事件

九儀出版社

Kevin D.Randle著
高汀樟
覃筱安譯

EQ

時報文化出版企業股份有限公司

丹尼爾•高曼著
張美惠譯

心靈雞湯Ⅱ

晨星出版社

馬克•韓森著 吳淡如
林志豪譯

理財聖經

商業周刊出版股份有限公司

黃培源

健康減肥秘笈

尚宇出版社

趙美芳

你是說話高手嗎

時報文化出版企業股份有限公司

戴晨志


八十六年度
2.2書籍部分

書 名

出 版 社

作 者

誰來教我愛

圓神出版社

光禹

北港香爐人人插

麥田出版社

李昂

台灣念真情

麥田出版社

吳念真

聖經密碼

大塊出版社

邁可卓寧著、杜默譯

股票投資的第一本書

希代出版社

黃培源、楊偉凱

張榮發回憶錄

遠流出版社

張榮發

共同基金Q & A

商周出版社

官大宣

給愛一條活路

方智出版社

吳淡如

創造雙贏的溝通

水雲齋

劉墉、劉軒

人生一定要精采

圓神出版社

曹又方

菅芒花的春天-白冰冰的前半生

圓神出版社

白冰冰

愛要認真又好玩

圓神出版社

褚士瑩

李敖回憶錄

商周文化

李敖

心靈雞湯3

晨星出版社

傑克坎菲爾、馬克韓森著
陳茗芬譯

我還有一隻腳

遠流出版社

周大觀

火宅之貓

皇冠出版社

張曼娟

ENJOY善待自己

希代出版社

DONNA WATSON

哪個男人不偷心

皇冠出版社

吳若權

命運的同學會

皇冠出版社

吳淡如

塔羅魔法書

商周出版社

塔羅公主

殺手正傳

水雲齋

劉墉

心靈簡單就是美

新路出版社

黃漢耀

腦內革命

創意力

春山茂雄

星座EQ

聯經出版社

陳靖怡

千山獨行(蔣緯國人生之旅)

天下文化

汪士淳

心靈地圖

天下文化

張定綺

大自然的獵人

天下文化

威爾森

惡夜追緝令

遠流出版社

JOHN BALL著
王祥芸譯

說不又怎樣

精美出版社

曲筱麗

文明衝突與世界秩序的重建

聯經出版社

杭亭頓

在靈魂居住的地方

水雲齋

劉墉

雪豹

季節風

宋碧雲

理財EQ-輕鬆玫富的投資心理學

商周出版

黃培源

愛的教育

希代出版社

艾得蒙多

挪威的森林

時報出版社

村上春樹

2.3報紙部分:

八十五年度
2.3報紙部分

報 紙 名 稱

錄 月 份

聯合報

3、4、5、6

民生報

3、4、5、6

經濟日報

3、4、5、6

聯合晚報

3、4、5、6

自立早報

7、8

※備註:本次抽樣採用報紙的電子檔,因受限於報社提供的樣本範圍,因此聯合報、民生報、經濟日報、聯合晚報僅採樣三月、四月、五月、六月共四個月份,自立 早報僅採樣七月、八月共兩個月份。

八十六年度
2.3報紙部分

報 紙 名 稱

錄 月 份

聯合報

4、5、6、7、8、9、10、11、12

民生報

4、5、6、7、8、9、10、11、12

經濟日報

4、5、6、7、8、9、10、11、12

聯合晚報

4、5、6、7、8、9、10、11、12

中央日報

10、11、12

※備註:報紙樣本依上列各報社86年4月起提供者為主。

2.4網頁部分:八十六年蕃薯藤網際網路蒐尋引擎分 類索引。

2.5詞目分類原則

  為求均衡收詞,及能反映多元化社會的實況,製作 常用語詞分類表,作為收詞之依據。表中分為政治、財經、科學、生活、文化等五大領域,並細分至第三層。

◎常用語詞分類表

凡例:

1.本表據當前社會諸領域分類,為教育部逐年調查常用語詞之依據。

2.本表類別不僅參考既有文獻的分類,亦兼顧語詞調查的實際需求。

3.本表為求廣收,各大類皆細分至第三層,常用語詞調查即以第三層所分之類別為標準。

4.本表分類參考書目為:

   1)重編國語辭典專科學術名詞編審分類
   2)全國圖書分類目錄
   3)圖解英漢百科辭典目次
   4)中華兒童百科全書分類索引
   5)當代中國社會科學手冊目錄
   6)新世紀彩色圖解百科全書分類目錄
   7)1995現代用語百科目錄
   8)中研院詞頻統計樣本分類表
   9)尖端科技事典目錄
   10)奇摩站分類索引
   11)國語辭典簡編本圖片分類
   12)雲五社會科學大辭典

5.本表於每年調查報告完成後,檢討修訂。

☆分類表:
picture
picture
picture
picture
picture

三、統計方法

本統計利用下列方法進行統計:

1.字頻統計法:以累計方式求得單字數及每字的出現頻次。

2.詞頻統計法:以累計方式求得詞目數及每詞的出現頻次。

3.文字屬性使用頻次統計法:以單字的各種屬性為準,配合出現頻次求其分配情形。

4.單字構詞率統計法:以單字資料庫與詞目資料庫作比較,藉以求得單字構詞能力。

5.字頻與構詞率比較法:以單字頻次與詞目頻次比較,藉以了解二者分布情形的不同。

6.不同字頻庫比較法:以不同年代的字頻庫作比較,藉以了解二者分布層次的同異。


四、 統計結果

  八十五年統計總樣本數為1005856字,八十六年統計總樣本數為1051159字,各 種統計結果以圖表呈現,簡述於下列:

4.1字頻總表

*八十五年度
單字數為4650字。
出現頻次最高者為「的」字,頻次為39632,佔總數3.94%。
累積百分比90%時,累積字數為1016字。
累積百分比99%時,累積字數為2540字。
參見下圖:
picture

picture
*八十六年度
單字數為4667字。
出現頻次最高者為「的」字,頻次為36053,佔總數3.42%。
累積百分比90%時,累積字數為1027字。
累積百分比99%時,累積字數為2566字。
參見下圖:
picture

picture

4.2詞頻總表

*八十五年度
單音節詞與多音節詞混編,總詞數為46721,排序前十詞為:
4.2詞頻總表

詞               目

詞     頻

39282

8522

7684

6820

6692

4719

3970

3965

3835

3615


若以多音節詞為準,則排序前十詞為:
以多音節詞為準,則排序前十詞

詞               目

詞     頻

可以

1605

我們

1140

他們

1016

台灣

990

自己

967

沒有

934

因為

917

如果

809

可能

780

表示

775


*八十六年度
單音節詞與多音節詞混編,總詞數為47909,排序前十詞為:
單音節詞與多音節詞混編,總詞數為47909,排序前十詞

詞               目

詞     頻

35730

8108

6235

5783

4581

4278

4176

3669

3561

3367


若以多音節詞為準,則排序前十詞為:
多音節詞為準,則排序前十詞

詞               目

詞     頻

可以

1227

我們

1169

台灣

1053

沒有

1032

他們

967

自己

960

提供

880

公司

877

因為

858

服務

760



4.3本字彙表部首出現情形說明表:

八十五年度
出現頻次最多的部首為「人部」,依序前十部為:
4.3本字彙表部首出現情形說明表

部 首

出現字數

累積字數

出現頻次

累積頻次

累積百分比

人 02

183

183

70217

70217

6.98082

白 05

9

192

41516

111733

11.10825

口 03

230

422

40458

152191

15.13049

一 01

18

440

37193

189384

18.82814

水 04

257

697

27741

217125

21.58609

木 04

191

888

27349

244474

24.30507

辵 07

90

978

26255

270729

26.91528

手 04

229

1207

25183

295912

29.41892

日 04

67

1274

24838

320750

31.88826

土 03

90

1364

23876

344626

34.26196


*八十六年度
出現頻次最多的部首為「人部」,依序前十部為:
4.3本字彙表部首出現情形說明表

部 首

出現字數

累積字數

出現頻次

累積頻次

累積百分比

人 02

188

188

69884

69884

6.6482

口 03

239

427

42495

112379

10.6909

白 05

10

437

38012

150391

14.3071

一 01

18

455

35842

186233

17.7169

水 04

270

725

29921

216154

20.5633

木 04

204

929

29336

245490

23.3542

言 07

125

1054

27335

272825

25.9546

手 04

225

1279

26193

299018

28.4465

辵 07

85

1364

26162

325180

30.9353

日 04

74

1438

25198

350378

33.3325



4.4 本字彙表筆畫出現情形說明表:

*八十五年度
出現頻次最高的筆畫是「八畫」,以出現筆畫數推算筆畫平均數為12.36畫,標準差為4.53。以出現頻次推算筆畫平均數為9.28畫,標準差為 4.38。依序前十畫為:
4.4 本字彙表筆畫出現情形說明表

筆畫

出現字數

累積字數

出現頻次

累積頻次

百分比

08

348

348

132025

132025

16.937

06

147

495

89262

221287

11.451

11

430

925

85830

307117

11.01

09

330

1255

83795

390912

10.749

05

118

1373

75795

466707

9.723

12

412

1785

67820

534527

8.7

10

389

2174

64502

599029

8.274

04

86

2260

64307

663336

8.249

13

397

2657

59836

723172

7.676

07

260

2917

56333

779505

7.226

picture

*八十六年度
出現頻次最高的筆畫是「八畫」,以出現筆畫數推算筆畫平均數為12.36畫,標準差為4.53。以出現頻次推算筆畫平均數為9.28畫,標準差為 4.38。依序前十畫為:
4.4 本字彙表筆畫出現情形說明表

筆畫

出現字數

累積字數

出現頻次

累積頻次

百分比

08

338

338

133250

133250

16.423

11

438

776

93539

226789

11.529

06

154

930

91247

318036

11.246

09

345

1275

88149

406185

10.864

05

120

1395

77919

484104

9.603

12

411

1806

68954

553058

8.498

10

393

2199

67035

620093

8.262

13

384

2583

66998

687091

8.257

04

88

2671

66961

754052

8.253

07

254

2925

57274

811326

7.059


picture


4.5本字彙表音節統計表:

*八十五年度
單音號:計20個音節,佔總音節數    5.02%
           出現頻次佔總頻次13.37%
雙音號:計219個音節,佔總音節數  55.02%
           出現頻次佔總頻次57.67%
三音號:計159個音節,佔總音節數  39.96%
           出現頻次佔總頻次30.96%

*八十六年度
單音號:計20個音節,佔總音節數    5.00%
           出現頻次佔總頻次13.59%
雙音號:計220個音節,佔總音節數  55.00%
           出現頻次佔總頻次56.74%
三音號:計160個音節,佔總音節數  40.00%
           出現頻次佔總頻次29.67%


4.6本字彙表聲母符號出現情形說明表:

*八十五年度
聲母符號除ㄅ至ㄙ二十一聲號外,含零聲母,共二十二個。零聲母以「○」代表之。依出現頻次為序,前十個聲號如下:
4.6本字彙表聲母符號出現情形說明表

聲母

符號

出 現 字 數

出 現 頻 次

累 積

字 數

百分比

百分比

頻 次

百分比

頻 次

1 ○

624

14.962

13.413

150492

14.962

150492

2 ㄉ

215

25.329

4.6233

104274

10.367

254766

3 ㄕ

215

32.764

4.6230

74781

7.4346

329547

4 ㄐ

370

39.990

7.9573

72692

7.2269

402239

5 ㄓ

280

45.982

6.0215

60263

5.9912

462502

6 ㄒ

284

51.551

6.1076

56018

5.5692

518520

7 ㄌ

327

56.320

7.0327

47972

4.7693

566492

8 ㄍ

192

61.030

4.1295

47376

4.7100

613868

9 ㄅ

216

65.622

4.6453

46188

4.5919

660056

10 ㄏ

222

69.841

4.7748

42440

4.2193

702496


picture

*八十六年度
聲母符號除ㄅ至ㄙ二十一聲號外,含零聲母,共二十二個。零聲母以「○」代表之。依出現頻次為序,前十個聲號如下:
4.6本字彙表聲母符號出現情形說明表

聲母
符號

 

出 現 字 數

出 現 頻 次

累 積

字 數

百分比

百分比

頻 次

百分比

頻 次

1 ○

643

14.916

13.778

156787

14.916

156787

2 ㄉ

215

24.700

4.6068

102844

9.7839

259631

3 ㄕ

224

32.181

4.7997

78633

7.4806

338264

4 ㄐ

367

39.613

7.8637

78122

7.4320

416386

5 ㄓ

288

45.651

6.1710

63474

6.0385

479860

6 ㄒ

302

51.601

6.4710

62545

5.9501

542405

7 ㄍ

185

56.540

3.9640

51916

4.9389

594321

8 ㄌ

311

61.382

6.6638

50898

4.8421

645219

9 ㄅ

218

65.713

4.6711

45519

4.3304

690738

10 ㄏ

230

69.837

4.9282

43351

4.1241

734089


picture

 

4.7本字彙表韻母符號出現情形說明表:

*八十五年度
本表所列韻母符號除單韻十六個外,含結合韻母二十二個及空韻一個,共三十九個。空韻以「◎」代表之。排名前十個的韻母為:
4.7本字彙表韻母符號出現情形說明表

韻母

符號

出 現 字 數

出 現 頻 次

累 積

字數

百分比

頻次

百分比

頻次

百分比

1  ㄧ

426

9.1613

93131

9.2589

93131

9.2589

2  ㄜ

139

2.9892

89072

8.8553

182203

18.114

3  ◎

187

4.0215

75722

7.5281

257925

25.642

4  ㄨ

373

8.0215

67319

6.6927

325244

32.335

5  ㄧㄢ

238

5.1183

43819

4.3564

369063

36.691

6  ㄞ

136

2.9247

40978

4.0739

410041

40.765

7  ㄧㄥ

174

3.7419

37578

3.7359

447619

44.501

8  ㄢ

265

5.6989

36339

3.6127

483958

48.114

9  ㄨㄥ

137

2.9462

35945

3.5736

519903

51.688

10 ㄨㄛ

129

2.7742

35226

3.5021

555129

55.190


picture
*八十六年度

本表所列韻母符號除單韻十六個外,含結合韻母二十二個及空韻一個,共三十九個。空韻以「◎」代表之。排名前十個的韻母為:
4.7本字彙表韻母符號出現情形說明表

韻母
符號

出 現 字 數

出 現 頻 次

累 積

字數

百分比

頻 次

百 分 比

頻 次

百 分 比

1  ㄧ

425

9.1065

97072

9.2348

97072

9.2348

2  ㄜ

140

2.9998

85374

8.1219

182446

17.357

3  ◎

187

4.0069

81537

7.7569

263983

25.114

4  ㄨ

387

8.2923

69901

6.6499

333884

31.763

5  ㄧㄢ

245

5.2496

47125

4.4831

381009

36.247

6  ㄞ

133

2.8498

42051

4.0004

423060

40.247

7  ㄧㄥ

163

3.4926

39894

3.7952

462954

44.042

8  ㄨㄥ

150

3.2141

38850

3.6959

501804

47.738

9  ㄢ

263

5.6353

38228

3.6367

540032

51.375

10 ㄨㄛ

116

2.4855

37476

3.5652

577508

54.940


picture

4.8本字彙表聲調符號出現情形說明表:

*八十五年度 本表所列聲調符號含陰平、陽平、上聲、去聲、輕聲五調,分別以「ㄧ」、「ˊ」、「ˇ」、 「ˋ」、「˙」等符號表示之。
4.8本字彙表聲調符號出現情形說明表

聲調符號

出 現 字 數

出 現 頻 次

累 積

字數

百分比

頻次

百分比

頻 次

百分比

1 ˋ

1538

33.075

361279

35.918

361279

35.918

2 ˊ

1219

26.215

205890

20.469

567169

56.387

3 ㄧ

1082

23.269

201758

20.058

768927

76.445

4 ˇ

796

17.118

181043

17.999

949970

94.444

5 ˙

15

0.3226

55886

5.5561

1005856

100.000


*八十六年度
本表所列聲調符號含陰平、陽平、上聲、去聲、輕聲五調,分別以「ㄧ」、「ˊ」、「ˇ」、「ˋ」、「˙」等符號表示之。
4.8本字彙表聲調符號出現情形說明表

聲調符號

出 現 字 數

出 現 頻 次

累 積

字數

百分比

頻次

百分比

頻 次

百分比

1 ˋ

1546

33.126

376518

35.819

376518

35.819

2 ㄧ

1095

23.463

219177

20.851

595695

56.670

3 ˊ

1229

26.334

216772

20.622

812467

77.292

4 ˇ

782

16.756

185794

17.675

998261

94.967

5 ˙

15

0.3214

52898

5.0324

1051159

100.000



4.9本字彙表構詞率統計表:依總構詞率排列

*八十五年度
構詞率是指單字作為詞素,於複詞中的組詞能力。舉構詞率最高的十字為代表:
4.9本字彙表構詞率統計表

構 詞 頻 次

字 頻

序號

出現
頻次

累積
頻次

累 積
百分比

序號

出現
頻次

1

1026

1026

0.9992

7

8004

2

835

1861

1.8124

12

5239

3

792

2653

2.5837

112

1798

4

689

3342

3.2548

158

1430

5

600

3942

3.8391

81

2173

6

565

4507

4.3894

68

2387

7

565

5072

4.9396

10

5884

8

550

5622

5.4753

77

2229

9

543

6165

6.0041

11

5854

10

538

6703

6.5281

59

2612


picture

*八十六年度
4.9本字彙表構詞率統計表

構 詞 頻 次

字 頻

序號

出現
頻次

累積
頻次

累 積
百分比

序號

出現
頻次

1

875

875

0.9697

85

2289

2

671

1546

1.7134

13

5551

3

586

2132

2.3629

9

6011

4

586

2718

3.0124

6

8499

5

567

3285

3.6408

35

3435

6

533

3818

4.2316

8

6019

7

437

4255

4.7159

7

8058

8

429

4684

5.1914

71

2524

9

407

5091

5.6425

123

1821

10

398

5489

6.0836

12

5759


picture

4.10兩個字頻統計結果比較:

4.10.1共有與未共有情形比較

將八十五及八十六年兩個統計結果作一比較,兩年共有字為4157字,未共有字為510字:
picture
二者共有比率達百分之八十九,正表示語言本身的穩定性質。

4.10.2 字頻出現情形比較

將八十五與八十六兩年字頻表作一比較,並結合八十四年結果,其分布曲線如下:
picture
由上圖可知三個年度的分布曲線十分相似。

4.10.3筆畫出現情形比較

八十五與八十六兩年筆畫出現情形比較曲線如下:
picture 兩年的筆畫出現情形也是十分相似。

4.11兩個詞頻統計結果

八十五年詞頻表共收46721詞,八十六年共收47909詞。以八十六年為主,二者共有與未 共有情形如下:
picture

二者共有在50%左右。如果進一步將八十五年與八十四年比較,八十四年收詞49407詞,以八十五年為主,二者共有與未共有情形如下:
picture
二者共有也接近50%。這也許反映出國內語言環境相當具有活力,詞的滋長與更替十分快速。


五、結語

  年度語詞的觀察十分重要,它的結果不但與語言、教育有關,也是了解社會演變的重要資訊。 若連《國語辭典簡編本》的字詞頻統計,國語會已有四個年度的成果。不同年度的持續進行,累積的成果將可以提供語言研究、教科書編輯、字辭典編輯、成人教 育、文盲教育、社會研究、中文資訊等更有豐富的參考訊息。教育部國語會在有限條件下將不斷努力,並秉持一貫立場,將資料庫公開給各界使用,也希望各界不吝 提供使用意見。我們的電子信箱為:mandr@mail.moe.gov.tw, 成果刊載於國語會網站,網址為:http://www.edu.tw/EDU_WEB/Web/MANDR/index.htm

 

作者簡介:曾榮汾,男,民國四十年生,臺灣省雲林 人,教育部國家文學博士。中央警大專任教授,教育部國語會異體字典總編輯。


[回目次]