跳到主要內容

國立公共資訊圖書館

Menu

讀者服務

本館出版品

文字碼萬「碼」奔騰,圖書館資訊系統適合用那一種碼?

文:賴忠勤(國立臺中圖書館幹事)

考量字碼之未來發展性

  圖書館因蒐集各種圖書資料,在書目建檔及建置資料庫時,需要一個大型字集字碼始能滿足資料庫建置的需求。既使是一般性質的公共圖書館,雖然館藏資料不如大型學術圖書館般廣泛深入,但也很難預料所收藏的圖書資料中沒有罕用字或異體字出現,另外以圖書館自動化系統流通作業之讀者檔,所收錄的讀者姓名用字,可能碰到的字碼不足問題,不亞於戶政機關之戶政系統。因此字集字碼不足,應該是不分圖書館規模大小都必須面對的問題。

  目前國內圖書館界資訊系統普遍使用的中字碼為Big-5碼及CCCII碼:CCCII碼主要使用於圖書館自動化系統之內碼,或作為書目資料交換使用之交換碼;Big-5碼除中小型圖書館自動化系統使用外,業界或圖書館建置的資料庫,幾乎普遍採用此碼。Big-5碼可用字碼僅有13,051字,完全無法滿足圖書館之特殊需要,但因為此碼為國內個人電腦普遍使用之中文碼,在國際上也視此碼為台灣地區通用字碼,所以圖書館大部分的資料庫建置採用Big-5為內碼,有不得不如此的苦衷。

  CCCII碼目前僅限於國內中大型以上圖書館自動化系統使用,雖然此碼之字集定義嚴謹完善,但可能受到行政干預(註1)之影響,以致無法成為國家標準用碼。CCCII碼目前已收錄至75,684字,其特點除採用教育部公布之各級字彙外,另外也採集大陸使用的簡體字、日韓漢字、古籍用字等,字集收錄完整;字集中之正體字、簡體字、異體字之間,運用字面對照之架構,可以程式控制馬上作同義的繁簡字轉換;另外提供屬性資料庫,整理每字的部首、注音、筆劃、Big-5、四角號碼……等屬性,都可以讓系統廠商直接利用。

  CCCII碼事實上也遭遇不少問題及困難,例如:

  1. 主要使用者僅為圖書館界,使用層面不廣,以致投入實用化產品發展之廠商過少,目前甚至僅剩一家廠商持續發展。也因為廠商投入不多,以致當電腦普遍使用Windows界面時,CCCII碼至今仍無法在純Windows環境中使用,僅有在視窗上以終端模擬之CCCII產品出現。所以目前以Windows作業環境設計的圖書館自動化系統,即無法以CCCII做為內碼。
  2. CCCII以3bytes組碼,國內採用CCCII為內碼之系統廠商,為程式處理及資料顯示之方便性考量,以另外加1byte為前導碼,湊成4碼使用。但因為不同系統所使用的前導碼又不盡相同,造成「碼中有碼」、互不相容的問題。
  3. 因CCCII碼非國家標準,政府單位不會主動採用,資訊業界也不會特別支援。CNS 11643「中文標準交換碼」不論在字碼數量、架構及字集的整理上都不優於CCCII碼,但可獲得政府單位及業者之推廣及支援(註2)。

  目前資訊界對字碼所關注的焦點為ISO 10646標準:廣用多八位元組編碼字元集(與Unicode Consortium所定的Universal Code,簡稱為Unicode之編碼相同,故通稱ISO 10646為Unicode),其制定的目的是希望能容納世界上各種文字,集合成資訊處理不同語言所共用的字集。尤其在不久之後Windows 2000可能以Unicode為系統運作之內碼,更加速推動Unicode之實用化與普遍化。Unicode以2bytes或4bytes構成字碼,理論上可編碼之數量為:128(群組)x256(面)x256(行)x256(單元)字元,但為了系統處理方便,以第00群組之00字面為「基本文種字面(Basic Multilingual Plane, BMP)」(可定義256x256=65,536個字碼),在此字面僅需以2bytes處理即可,因此BMP成為各國必爭之區域。

  若圖書館採用Unicode做為資訊系統之內碼,以ISO 10646在1998年所收錄的漢字僅有27,814(台灣地區、大陸、日、韓所整理之表意文字),其中採用CNS 11643字集的有24,203個,因此可能仍無法完全滿足圖書館的需求。不過將於本年底(1999年)完成的Unicode第3版,在第2字面增加包括<康熙字典>、<漢語大辭典>等字集(40,749個字碼),其中採CNS 11643的字碼約三萬字,總計屆時Unicode所收錄的漢字為68,563個,已接近CCCII所收錄的字數。

  若以未來資訊技術發展著眼,圖書館資訊系統及資料庫內容,採用Unicode做為內碼是較好的選擇。原先漢字不足的問題,不久即可獲得解決,而且有更多非漢字的各國文字可以利用。不過Unicode的缺點為缺乏類似CCCII或CNS 11643為字元所整理的屬性資料庫,也缺乏CCCII對正體字、簡體字及異體字的對映關係。但可預見國內系統不論現在採用何種字碼,即可能都會朝Unicode的方向靠攏。

  未來圖書館界使用的CCCII是否就壽終正寢呢?或許我們可以將CCCII碼回歸成為「交換碼」而非「內碼」的方向思考,而CCCII碼也應發展與Unicode對映之字碼表,使不同系統以CCCII交換資料時,不會產生字碼無法轉換的問題。未來Unicode修訂時也應該參考目前字集最大的CCCII碼,補充CNS 11643所不足的字碼,使中文文字在資訊處理、儲存中不致有所遺漏。

【附註】

  • 註1:謝清俊,黃克東著,<國字整理小組十年>,台北市:資訊應用國字整理小組,民78,頁15-17。
  • 註2:可參考行政院主計處特別為CNS 11643所設置的網站:http://www.cns11643.gov.tw
讀者登入
回頂部