統  計  方  法
圖

(一) 統計方法

  1.詞頻依分詞原則,從資料加以選錄,而後累計頻次。
  2.字頻統計語料字數約二百萬字,其中約一百二十二萬字由詞頻轉換而來,
   約七十七萬字據輸入全文進行統計。
  3.語料中若為異體字,一律視為正體字,不另呈現頻率。
  4.工作流程如下:
圖


(二) 分詞原則

    本統計為了工作需要,詞素中有異體字者,除人名、地名等專科語詞外,一
    律改用正字,且在從資料選詞時,除一般具有肯定性質的複詞外,其餘收錄
    單位依下列原則進行判斷:

    1.專有名詞
      ヾ人名、地名、國名、公司行號、機關學校、行政區域、房地產名、產品
        名、品牌名等專有名稱予以保留。
        如:
            梁啟超、九份、美利堅合眾國、大同公司、北京大學、臺北市、文
            心貴族、日清杯麵

        *?@陳  太太?A、?@王  太?A、?@陳  家?A、?@余  家?A予以切分

      ゝ專科語詞一律保留完整單位。
        如:
            光學式自動識別計測系統、卡波西氏肉瘤

      ゞ書籍雜誌名稱、電影名稱予以保留。
        如:
            天下雜誌、鋼琴師的情人、亂世佳人

      々器官名稱,若左右器官的功能有所不同,一律保留。
        如:
            左腦、右腦

    2.外來音譯語詞
      外來音譯語詞視為一完整單位,不予切分,譯字不同,視為不同語詞。
      如:
          奧戴麗赫本、瑪麗蓮夢露、克拉克蓋博、坦克車

    3.成語:具有文獻典故來源,且具多層表義效果的固定語。
      如:
          對牛談琴、人去樓空、水中撈月、矛盾

    4.慣用語:
      ヾ一般口語習用,表示特定語義的固定語。
        如:
            敲竹槓、吃豆腐、灌水、翹辮子、吹牛、拉警報、冷戰、老掉牙、
            話匣子、捉大頭、落湯雞、壓根兒、大小眼

      ゝ正反問慣用語。
        如:
            好不好、要不要、可不可

      ゞ四字格慣用語。慣用語的一類,但結構為四個音節的固定語,形式多類
        似成語,但不具文獻典源,又無多層表義效果。
        如:
            寶裡寶氣、馬馬虎虎、嘰哩呱啦 

    5.歇後語:形式為前提加說明的固定語,表達時前提可作停頓,再作說明的
              提示。歇後語予以切分,另外將完整的語句置於詞頻的附錄。
      如:
          八仙 過  海  各顯神通
          啞子 吃 黃蓮  有  苦  說  不  出

    6.諺語、俗語、名言:已習用成俗或一種節錄自詩文的語句,是經驗教訓,
                        具有智慧啟示意義的固定語,句子簡短,音調和諧,
                        內容包含食衣住行,各行各業,人情世態等。予以切
                        分,另外將完整的語句置於報告來作為附錄。
      如:
          一 動 還 不如  一 靜
          多 一 事 不如 少 一 事
          早 知 今日 何必 當初
          人 算 不如 天 算
          路 遙 知 馬力 日 久 見 人心
          皇天 不  負 苦心 人
          小廟  請 不 到  和尚
          人  在  江湖  身不由己
          天  有  不  測  風雲  人  有  旦夕  禍福
          一  枝  紅杏  出  牆  來
          沒  什麼  兩  樣
          官兵  捉  強盜
          放  諸  四海  皆  準
          看  山  還是  山
          夏日 炎炎 正 好  眠
          幾 家  歡樂  幾  家  愁

    7.標語、口號可分出者,則予以切分。
      如:
          保密 防諜 人人 有 責

    8.縮語:就原詞抽取關鍵詞重組的節縮語。
      如:
          文大、中小企銀、證交稅、捷運局、消基會、軍公教

    9.略語:就原詞截取部分詞素而成。
      如:
          公賣局、文化大學

   10.簡稱:某詞的簡稱。
      如:
          大學、公賣局、青年會、臺、閩

      **以上三類視為獨立概念,不切分。

   11.結合語:由兩個或兩個以上的詞併合並加以節縮而成的詞,視為獨立的命
              題概念,不切分。
      如:
          出入境、中小學、中小型、內外銷、國內外、工商業

   12.正反義詞素結合詞,不切分。
      如:
          大小、長短、正邪、好壞、內外、男女、輕重、新舊、前後、真假、
          上下

   13.詞與詞連用程度強的單位,比照固定語不予切分。
      如:
          必會、已具、實應、貴在、正當、都是、只有、也是、仍然、還好、
          再三

   14.有重疊成分的詞語
      詞素重疊是語言的一種習慣用法,往往具有語義擴大、時間延伸的效果,
      不切分。
      如:
          一些些、快快樂樂、嘻嘻哈哈、綠油油、嚐嚐看、想想、想想看、看
          看、走走

   15.方位、位置
      表示方向和位置的方位詞,可和介詞結合以表示方向或構成方位結構的詞
      ,予以保留,不切分。
      如:
          前面、後面、前頭、後頭、上面、下面

   16.詞素中有統一用字者,因二字皆可通用,不予統一,各自視為獨立單位。
      如:
          部分、部份、鞭炮、鞭砲、分布、分佈

[回前頁]