跳到主要內容

國立公共資訊圖書館

Menu

讀者服務

本館出版品

索引典及其於資訊檢索上之探討

文:張嘉彬(臺大圖書館學研究所研究生)

【摘要】

  近年來是一個讀者至上的時代,因此在資料庫中允許用自然語言檢索已經成為一個未來系統設計的重要趨勢。但是利用自然語言檢索仍然有一些缺失存在,因此在控制詞彙上是相當重要的一環,但是圖書資訊界人士對於它似乎既熟悉又陌生。因此,本文首先先對索引典做一簡單介紹,而後探討它在資訊檢索上之應用,最後說明索引典在資訊檢索上之發展趨勢。

關鍵詞:索引典、資訊檢索

一、前言

  近年來是一個讀者至上的時代,因此在資料庫中允許用自然語言(Natural Language)檢索已經成為未來一個系統設計的重要趨勢。讀者只要將心中所想要找的資料鍵入資料庫中,就能夠找尋到所需要的資訊,而不用再去找一些像標題表或者是索引典這樣的規範工具,因為這是最符合讀者資訊需求的方式。但是利用自然語言進行檢索仍然有一些缺失存在,諸如:沒有辦法控制同義詞、類同義詞、同形異義詞,再加上詞彙本身的模糊性以及不確定性,因此控制詞彙(Controlled Vocabulary)檢索在資訊檢索上仍有它不可磨滅的重要性。

  索引典在控制詞彙上是相當重要的一環,並且它在資訊檢索中是扮演著檢索系統與讀者在溝通上的一個橋樑。索引典在圖書資訊界是一個普遍使用的名詞,但是圖書資訊界人士對於它好像既熟悉又陌生,因此,本文首先就索引典做一簡單的介紹,而後探討它在資訊檢索上之應用,最後說明索引典在資訊檢索中之發展趨勢。

二、索引典簡介

 (一)索引典之定義

  索引典的英文是“thesaurus”本意是倉庫、寶藏或金庫的意思,後來被認為是一種專門蒐集同義詞與反義詞的詞典。應用於資訊檢索方面最早是由穆爾期(Mooers)於1947年到1950年間所提出的描述語、資訊檢索與資訊檢索系統等專門術語。1957年布郎森(Brownson)第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典。(註1)所以,索引典自1950年代開始逐漸發展,而至今已廣泛應用於資訊檢索系統,但是究竟什麼是索引典呢﹖關於索引典的定義,以下引用幾個常見的定義以資參考:

    1. 索引典可以以其功能或結構定義之。就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、索引人員或系統使用者所使用的自然語言,轉譯成更為規範的「系統語言」(文獻工作語言、資訊語言)。就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。(註2)
    2. 索引典是索引者和檢索者選擇術語的依據,可供索引者和檢索者對索引用語做有系統的指示與控制,再利用這些字彙做概念的組合,它除了引導使用者自行選用術語之外,並對其相關字和同義字做詳細的互見參考,所以它是字彙控制最有效的工具。(註3)
    3. 索引典可以當成人類思路歷程的類比……索引典的結構最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。(註4)

  綜合上面定義所言,就資訊儲存與檢索的範疇而言,索引典乃收集足以表示知識概念的字或詞,並將之以特定的結構加以排列,這些詞彙控制了同義詞,區別了同形異義詞,並顯現各相關詞彙間階層及語意互屬上的各種關係,以做為索引者在分析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙。換言之,即提供資訊儲存與檢索標準化的用語。(註5)

 (二)索引典之目的

  索引典之目的主要有如下幾個,分別說明之。(註6)(註7)

    1. 在特定的知識領域,提供概念之間的關係指引,幫助索引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵意。
    2. 在特定的知識領域,提供索引人員一套標準化詞彙,確保資料索引的一致性。
    3. 為了確保資料處理的一致性,索引典為一概念一詞彙,而其他同義詞則以用代關係指引。
    4. 詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在詞義網架構中的功能,可做為使用選擇正確詞彙的指引。
    5. 當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小檢索主題旳詞彙範圍。
    6. 最好能成為該學科的標準用語。

 (三)索引典之功能

  不論是索引人員分析資料或是檢索人員查找資料,都先分析出主題概念,找出主題詞,而索引典則幫助他們將主題詞由自然語言轉為系統語言,因此索引典就是建立一套使用者(包括索引人員、檢索人員、讀者)彼此了解可藉以溝通的系統語言,為資訊的儲存與檢索提供標準化的詞彙,以確保對同一主題,在分析及檢索資料時所用的詞彙一致。

  D.Soergel則認為索引典的概念結構(conceptual structure)在索引及檢索時能將主題概念表現得恰到好處,而索引典將同義詞聚集亦有詞彙控制(terminological control)的功能。(註8)

 (四)索引典之編製

  索引典編製的基本程序有以下幾個步驟,分別述說如下:(註9)

    1. 準備工作
      (1)學科範圍確定:該系統包含的學科範圍為何,那些為核心學科,那些為邊緣學科,各學科彼此間的關係等須事先考慮清楚。
      (2)資料量及類型:圖書居多或資料量少的系統,需要的詞少且多為概念寬泛之詞;反之,若以連續性刊物或單本為主的系統,則需概念詳細且詞量多的索引典。
      (3)詳盡性(exhaustivity)與專指度(specificity):設計該系統所預期的索引之詳盡與專指度的高低亦影響詞彙量的多寡。
      (4)作業表格內容設計:製作單位依系統要求設計作業表格。
    2. 詞彙蒐集
      一般常用的方法有經驗法(empirical approach)與小組匯編法(committee approach)兩種,前者是蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。
    3. 定詞
      定詞程序有二:
      (1)按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定詞(qualifiers)加以說明。
      (2)用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選抈詞(preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作。此步驟即是建立等同關係。
    4. 建立詞間的關係
      詞間的關係包括等同(equivalence)、層級(hierarchical)和聯想(associative)三種關係。
      (1)等同關係
      又稱用代關係,參照符號是「USE」及「UF」。凡具有這類關係的詞,彼此在概念/用法上是相同或視為相同,包括同義(指意義完全相同,可互相取代的詞)、類同義(指意義相近或意義不同,但為了索引的目的視為同義的詞)和組代關係(索引時以數詞組合代表另一概念)三種。為了保證一概念對應一詞的原則,必須選擇其中之一作為描述語,而其餘的作為非描述語。描述語在索引典中具有〝法定〞地位,可用於索引和檢索,而非描述語僅僅是作為索引和檢索的入口詞(lead-in term)。
      (2)層級關係
      又稱上下或等級關係,參照符號是「BT」及「NT」。凡具有這類關係的詞,彼此是上位與下位概念的關係,相當於分類表中相鄰的上位類與下位類。包括屬種(genus-species)、集元(set-element)、整部(whole-part)及多層級(polyhierarchical)四種關係。以下分別加以說明之。(註10)
       a.屬種關係:說明普通概念與特殊概念之間的關係,如:「飛機」與「軍事飛機」。
       b.集合關係:集合概念與其所包含的專指概念(元素)之間的關係,如「河流」與「長江」。
       c.整部關係:說明整體概念與部分概念之間的關係,如「臺灣」與「臺北縣」。
       d.多層級關係:有些概念從邏輯上看可以同時屬於一個以上的範疇,被稱為具有多層級關係。如「顱骨」和「骨骼」、「頭」的關係,「顱骨」和「骨骼」是屬種關係,而「顱骨」與「頭」是整部關係。
      (3)聯想關係:
      又稱親緣、類緣或相關關係,參照符號是「RT」。是指兩個描述語之間雖無等同或層級關係,但從索引或檢索角度而言,有相互參照,提醒使用者有另一詞存在的關係。可分為兩部分來加以探討。
       a.同一範疇:指涵義有部分重疊但非同義的詞可互為「RT」。如「ship」和「boat」、「圖書館學」和「資訊學」等。
       b.不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係。如:「林學」和「森林」、「建築」和「建築物」等。
    5. 編排與展示
      索引典的基本展示有字順、分類與圖形三種。
      (1)字順:拼音語系依字母序或字序排列所有的主題詞;表意文字如漢語可用「四角號碼」、「注音符號」、「羅馬拼音」或「其他拼音」排列,若首字同音可配合筆劃區分排列次序。
      (2)分類:除分類表外,還配合引領到分類部分的字順索引。在分類部分,每個描述語都有一個分類代碼,詞群結構只有主題詞、注釋或定義、同義詞及聯想詞,層級關係則由分類碼和縮行空格表示。
      (3)圖形:包括圖形與字順兩部分,圖形只有描述語,其他詞間關係在字順部分表示,一般分為樹形結構及箭頭關係兩種。
    6. 測試與修正
      (1)從最近出版的相關刊物上隨機取樣。
      (2)列一雙欄平行的索引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述語。
      (3)索引人員和編製人員根據 的資料,評斷索引典的詳盡度及專指度。除上述方法外,還要檢測詞群結構及詞間關係。
    7. 維護與更新
      索引典除了顯現知識概念結構外,並顯示詞彙之間層次及語意上的各種關係,而知識與語言都會隨時間而有所改變,所以世上沒有完美的索引典,而定期的維護更新是維持品質的不二法門。
      索引及檢索人員須記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係。

三、索引典於資訊檢索上之探討

 (一)利用索引典檢索資料之過程

  這一部分的內容可從使用者的提問(query)開始,簡單扼要地介紹一下如何利用索引典檢索資料。但是探討此部分時,筆者將不探討將詞彙輸入資料庫之後的後續動作。(註11)

    1. 檢索晤談
      檢索策略的制定可分為兩個步驟:
      (1)對提問進行分析,確定讀者的真正需求
      (2)分析的結果轉成索引典詞彙。但在檢索策略制定之前,必須先與使用者進行溝通。
      雖然檢索系統與索引水準都可以正確的表達讀者問題的概念,然而讀者表達出來的要求,往往不一定是他們的真正需求,所以晤談的目的就是找出讀者需求的性質與範圍。
      檢索人員在晤談中要了解:
      (1)讀者需要的資訊為何?
      (2)需要的目的
      (3)需要量
      (4)讀者的背景等資料。
      由這些資料可決定資料年代、語文限制、資料類型等。一般在晤談前最好讓讀者填寫檢索申請表,此一步驟不但可讓讀者仔細考慮所需資料為何,檢索人員可依申請表之項目進行晤談,避免資料的遺漏。
      由於每個讀者的表達能力與方式都不一樣,晤談者除了由申請表的內容了解其需求外,亦要注意非言語文字的表達。
    2. 提問主題分析
      主題分析步驟:
      (1)分析提問內容的基本概念,並明確概念間的相互關係,同時歸納出主題為何,寫下不同的自然語言形式。分析出的主題必須確切反映提問,顯、隱性主題都要明確,不能以大代小或以偏蓋全。
      (2)抓住主題中心,進行概念分析,找出內涵與外延,上下層級的關係,展開全部主題。對於專業性較強的索引典而言,可以從專業角度選擇主題要素,屬綜合性的索引典則力求考慮從各個角度選擇主題要素。
      主題分析後將概念轉換成索引典中的描述語而後進行檢索,如果概念與詞彙直接對應,則直接選取詞彙進行檢索,但並不是所有的檢索概念都能在索引典中找到與概念完全相合之描述語,所以必須利用組配、廣義詞、狹義詞或近義詞檢索。
      (1)組配:如果索引典中查不到與檢索概念相對應的詞,可以用兩個或多個描述語按一定的規則組合起來檢索。
      (2)廣義詞檢索:如果索引典中查不到與檢索概念相對應的詞,而且又無法用組配方式檢索,可採用最近一級的廣義詞檢索。
      (3)狹義詞檢索:如果索引典中查不到與檢索概念相對應的詞,則可使用表達該概念外延的描述語之集合進行檢索。
      (4)近義詞檢索:如果索引典中查不到與該概念相對應的詞,而且又無法用組配方式或最近一級的廣義詞檢索可採用近義詞檢索。
      資訊檢索以滿足使用者要求為第一要務,所以回現率或精確率並無一定標準;如果使用者希望不遺漏任何有關該主題的資料,則檢索人員應以高檢出為主,除利用索引典的詞間關係擴大概念增加檢索詞彙外,應多用概括性的詞彙,以達回現率(recall ratio)的目的。反之,若使用者要求精確切題的資料,檢索人員必須使用專指的檢索詞彙,以達精確率(precision ratio)之目的。
    3. 索引典的詞間關係檢索
      利用索引典中的用、代、上、下及聯等詞間關係作集合運算,可以發揮族性檢索的功能。農資中心的索引典,當其用於檢索文獻時,有擴檢、縮檢、聯檢、族檢及群檢等運算,分別說明如下:
      (1)擴檢(Broader Term Search,即廣義詞檢索):可以檢出某一主題詞及其一層或一層以上的上位詞之所有文獻集合。
      (2)縮檢(Narrower Term Search,即狹義詞檢索):可以檢出某一主題詞及其一層或一層以上的下位詞之所有文獻集合。
      (3)聯檢(Related Term Search,即關係詞檢索):可以檢出與某一主題詞有聯想關係的所有文獻集合。
      (4)族檢(Term Family Search):可以檢出族首詞、所有下位詞及聯想詞的所有文獻集合。
      (5)群檢(Narrower Block Search):可以檢出詞頭、詞頭之上位詞、下位詞及聯想詞之所有文獻集合。
    4. 檢索的邏輯運算
      在計算機檔案結構中,每一個被索引的主題詞都有一個或一個以上的文獻編號與之串接在一起(Posted Together),因此每一主題詞就是一個集合,集合中之元素則是一篇篇的文獻編號。如果一個主題詞不曾被索引,表示檔案中沒有任何文獻含有此一主題詞,則此主題詞是一個空集合。文獻檢索的邏輯運算就是將主題詞當作集合來運算,基本的邏輯運算包括AND、OR及NOT,在此不多作介紹。

 (二)索引典應用於資訊檢索上之優缺點

  索引典固然可以解決自然語言索引法的許多問題,然而這並不意味著索引典本身是無缺,事實上它也存在著許多的缺點,以下就索引典的優缺點分別說明。(註12)

    1. 優點:
      (1)使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。
      (2)採用前組合的方式編製索引,解決概念錯誤的連結的問題。
      (3)控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索回現率(recall ratio)與精確率(precision ratio)。
      (4)容易從事有階層附屬關係的檢索。
      (5)用語明確一致、清楚固定。
      (6)可利用參互見結構,得知相關的詞彙。
      (7)採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。
      (8)檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。
    2. 缺點:
      (1)必須由專業人員製作索引,花費較大。
      (2)必須隨時檢查索引的品質及錯誤。
      (3)索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。
      (4)使用的標準詞彙易於過時,必須隨時更新,維護經費較高。
      (5)無法隨時增添新的或複雜的概念,更新較困難。
      (6)索引人員須具備相當的學科背景與訓練,故製作速度較慢。
      (7)使用者亦必須經過訓練,方會使用。
      (8)用語受限於索引典,有時稍嫌僵化,不具彈性。
      (9)用語的表示受到極大的限制。
      (10)較不具詳盡性。

 (三)利用索引典檢索資料之評估

  利用索引典檢索資料的評估,一般而言,我們以為是一件相當簡單的事情,認為只要評估索引典能夠幫助索引者和使用者選擇到所需要的正確關係而已。但是事實上,利用索引典檢索資料的評估,是一件相當主觀的事,雖然回現率及精確率是兩個很好的指標。(註13)

  那究竟評估索引典在資訊檢索上的作業有那些指標呢﹖不同的學者提出不同的看法,而筆者綜合文獻,認為以下的評估標準也許是較合適。

    1. 結構評價:諸如詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等。
    2. 詞彙評價:詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等。
    3. 使用上的評價:最主要是指回現率與精確率。

 (四)以索引典為主的資訊系統設計因素

  資訊系統提供使用者解決問題所需的資訊,因此,系統設計者必須整理使用者可能提出的問題,並尋求解決這些問題的具體資訊,使系統具備將相關資訊提供給資訊需求者的能力。(註14)而在設計一個以索引典為主的資訊系統,我們所要考慮的因素有如下幾點:(註15)

    1. 主題範圍:首先考慮資訊系統涵蓋的主題範圍,即主題範圍的界限,確定那些是核心部分,那些是外圍部分,僅作粗放處理即已足夠。
    2. 資料類型:考慮所要索引的資料類型。系統內主要存放單行本,或是連續性出版品,如報告、期刊論文及會議論文。資料類型和索引有關,一般來說,圖書資料作索引時不須像期刊論文等那麼詳盡。
    3. 資料量:考慮資料量時,資料檔的大小及成長率皆需注意。要索引的資料多,則投入的成本高;而且,數量一大,則更需要一部詳盡的索引典以減少找尋資料時產生的干擾。
    4. 資訊系統類型:資訊系統的類型也要銘記在心。它提供的是回溯檢索或是新知通報服務,例如專題選粹服務,如果只提供新知通報服務,不與原來回溯資料檔連接,則索引詞彙有變動時,不需要修正以前資料的索引部分。
    5. 誰是系統使用者:是由讀者自己操作,或由受過訓練的資訊人員操作,由於未來的趨勢是由讀者自己操作,因此,系統的設計必須簡單、省時,讓讀者易於接受。
    6. 系統使用人數及頻率:一個系統使用次數的多寡會影響檢索作業的需求程度。
    7. 問題類型:讀者會提出何種類型的問題﹖是概括性或要求精確答案的問題呢﹖如果屬於概括性問題,則不需要深入的索引;如果需要明確回答,則索引用的詞彙必須列得詳細,才能找出答案。
    8. 詞彙組合方式:就是檢索時,詞彙是採用前組合方式檢索或是後組合方式檢索。
    9. 資訊系統的資源:包括財力來源、人員來源以及設備情況。其中以財力來源最為重要,但是也是無法控制的因素。
    10. 考慮資訊檢索效率:索引典的主要功能是在索引與檢索作業時提供標準化的詞彙,其製作品質的好壞深深影響檢索作業效率。而以索引典為主的資訊檢索系統如何影響資訊檢索效率,可以從三個方面來加以考量,即回現率及精確率、詳盡度及專指性、索引及檢索。

  而Alan Gilchrist在The Thesaurus in Retrieval此書中,也談到了幾個應該考慮的因素:(註16)

    1. 環境(Environment):在此界定為系統設計者以及系統操作者沒有辦法直接控制的因素。
    2. 資源(Resources):包括人力、物力等。
    3. 目標(Objectives):系統的設計者或管理者所希冀達到的目標。
    4. 資訊檢索效率的評估(Measures of performance):如上述的回現率及精確率等。

四、索引典應用於資訊檢索上之發展趨勢

 (一)索引典編製標準化

  隨著索引典的發展,國際間及各國也都頒佈了相關的標準。世界上第一個具有權威性的標準是1970年由UNESCO編製的<單語科技索引典編製與發展準則>,此準則後來成為1974年ISO 2788-1974<單語索引典編製和發展準則的基礎>。

  大陸索引典的編製起步較晚,1979年<漢語主題詞表>的出版,確立了基本的索引典編製原則和方法,之後出版的專業索引典大都直接採用了該表的基本模式。近來大陸才正式公布了BG.13190-91<漢語敘詞表編製規則>。

  我國也在82年6月25日公布了<西文單一語文索引典編製標準的國家標準>(CNS),供大家遵循參考。(註17)

 (二)分類主題一體化語言

  簡單地說,結合分類法與主題法,就是分類主題一體化,即一個分類系統與一個主題系統實現了完全兼容,融合為一個整體,既能充分發揮各自獨特的功能,又能相互配合,發揮最佳的整體效應。

  檢索語言的分類主題一體化,是指在一個檢索語言系統中,對分類表與描述語主表的主題詞、參照、標識、索引四部分實施統一的控制,從而能夠滿足分類索引與主題索引的需要,簡稱一體化檢索語言或一體化索引典,國外稱為分類法/索引典系統。(註18)

 (三)以超文件為主的索引典

  由於資訊科技的一日千里,超文件也提供了(線上)索引典一個絕佳的發展機會。也就是,超文件提供使用者和系統間一種新的互動關係。在超文件系統中,假設詞彙是以節點來表示,而詞彙與詞彙之間的關係是以鏈來表示,那麼使用者可以在索引典中,隨時增加新的節點和鏈,這些新的節點和鏈,不但可供讀者本人使用,也可以和其他使用者共同分享。也就是說,超文件可以使資訊檢索系統或是索引典與讀者間產生真正的互動關係,而不是以系統為主導的傳統型互動關係。

  換句話說,超文件提供讀者在系統上建立鏈和節點的機會,所以讀者可以選擇自己要走的路。另外,超文件也提供系統或索引典使用者習性的機會,如果使用群經常有一些非邏輯性的聯想,當這個鏈的作用力越來越強時,系統就會將這些非邏輯性的聯想列為主流。依這種理念設計的索引典可稱之為超索引典(hyper-thesaurus),讀者可以在超索引典上更新索引典詞彙或加上新的連結(鏈)。如果設計者不希望讀者隨意刪改系統時,可以暫時保留讀者所加上之新的節點或鏈,等累積到一定次數後,再由系統統一加以修改。(註19)(註20)(註21)

  而上述所提到的「超索引典」,事實上很接近Bush在1945年所提的“愐愐斯”(memex),它能像人類思路一樣任意遨遊。隨走隨停地悠遊於超索引典上,讀者可以依自己的意念連結字詞,這些連結可能是非理性的、非邏輯的或不一致的。此種索引典的功能就是提供多樣化的詞彙選擇,而讀者也可以根據自己的思路更改詞彙與詞彙之間的連結。(註22)

 (四)個人化之索引典

  個人化之索引典(personalized thesaurus)也就是讀者自建索引典(user-constructed thesaurus)。目前大部分的索引典都是為索引者設計的(也就是觀察者建構資訊之系統導向索引典),雖說有部分索引典已經開始嘗試提供大量詞彙,並接受一些讀者自己定義的詞彙和關係(也就是讀者自建索引典),但目前距離能處理「不確定」(uncertainties)的讀者索引典還有一段遙遠的距離。

  在資訊檢索中所謂的「不確定」,通常是指在文件描述和問題陳述之階段中,任何決策都會有其一定程度和某種機率的不確定存在。而目前的索引典並沒有考慮到此「不確定」因素,主要的困難在於無法處理讀者選詞的不確定性。事實上,這些人性因素不應該再被視為一種阻礙,設計者必須嘗試用複雜性(complexity)和多樣性(variety)來解決存在的「不確定問題」,希望能藉此提高線上索引典的使用績效。

  一般而言,複雜性是指在檢索過程中,認識字彙的複雜性和彼此之間的細微區分。至於多樣性,則是指檢索者在列舉查詢詞彙時,必須儘可能將所有相關詞彙列出。在目前的線上檢索系統中,系統很少提供這種功能,同時很多終端使用者不知道他們必須儘其可能地將同義字列出才能提高檢索品質。

  在實際檢索中,讀者列舉詞彙的多寡往往可以決定檢索的成敗,而讀者通常又沒有足夠的能力和時間來列舉所有詞彙。事實上,索引典是為了刺激讀者對詞彙的聯想,因此它不但應該建議檢索者可能使用的同義詞,同時也幫助讀者在可能的範圍內選出最合適的詞彙。從複雜性和多樣性的角度來看,如果檢索者想找出所有相關文章,那系統應該提示讀者所有可能使用到的相關詞彙;如果讀者只是想找出最適合的幾篇文章,那系統應該轉而幫忙找尋最貼切的檢索詞彙。因此,詞彙和詞彙之間的鏈愈多,讀者就愈容易透過參見關係尋找適合的敘述語,或是列舉所有可能的查詢詞彙。

  如果索引典能從複雜性和多樣化的角度來幫助讀者處理「不確定」,那將是設計上的一大進步。一些終端檢索者和資訊仲介者都強調:終端使用者最大的問題在於無法列舉所有相關詞彙。因此,理想的索引典除能解決上述問題外,還必須提供「邊緣撞擊」的功能,即使檢索者使用不常見或不合邏輯的字詞,索引典也會幫助讀者進入合適的語意網路中。(註23)

 (五)將Fuzzy的觀念加入索引典的檢索中

  將Fuzzy的概念加入資訊檢索之中,即是所謂的Fuzzy search。而Fuzzy search最主要有三個原則:(註24)

    1. 能允許無限制(Non-constrained)的輸入查詢字串
      這一部分的一般說法是允許自然語言(Natural Language)的查詢,也就是查詢字串允許出現非控制字彙。(Non-controlled Vocabulary)。
    2. 檢索機制能有相當容錯的能力
      這包括能檢索近似字串、能容忍些許錯誤的登錄資料、及能處理詞類變化等。
    3. 檢索結果能依據與查詢字串的相關程度依序排列,且檢索結果相當合理。

  一般說法即是檢索機制須具備Relevance Feedback及Ranking的能力。也由此將Fuzzy的概念加入索引典於資訊檢索之作業,將使得讀者輸入系統的詞彙將更有彈性且更符合人類的思考模式。

  就以中央研究院所發展的Csmart檢索系統為例,Csmart就能夠提供自然語言聯想查詢以及近似字串查詢的功能,也因此如果讀者想要找尋臺灣的資料,就可以輸入“台灣”、“臺灣”以及“中華民國”或是輸入“中研院”三字,就能夠找到“中央研究院”的資料。不過要查詢這些關鍵語基本上要有索引典的輔助才行。

  目前大多數Fuzzy search還是使用字串訊息(Form)而非語意與概念(Concept)訊息,因此查詢“電腦概論”時,可能無法同時找尋“計算機概論”。因為檢索系統無法事先得知“電腦”與“計算機”之間的關係。因此索引典與同義詞的需求是必須的,不過即使有了索引典,Fuzzy search如何充分利用索引典以增加回現率但又不影響精確率,相信不論中外Fuzzy search的研究都在尋思解決方法。(註25)

 (六)將人工智慧概念應用於索引典的檢索中

  索引典應用於人工智慧上,最主要是索引典的概念與人工智慧中的知識庫(knowledge bases)相仿,甚至可以說索引典的概念可以形成人工智慧中知識的表達。而這個知識庫的概念其實比索引典有著更複雜的結構,因為它有著比索引典中廣義詞(Broader term)和狹義詞(narrower term)更精煉的代碼(refined coding)之階層關係。要區分從“部分-整體”關係,傳統的索引典大部分是使用BT/NT來表示,但是在人工智慧的知識庫中,它就可以使用BTP(部分廣義關係,Broader term partitive)和NTP(部分狹義關係,Narrower term partitive)。在認知科學的文獻中,主要指出有六種型態的部分--整體關係。在資訊科學歷史的發展上,顯示出很複雜的代碼系統是很難在索引以及檢索上保持一致性的,然而在人工智慧的知識庫中它就能夠區分出這些關係,而能夠作很好的推論。因此未來人工智慧的加入將使得索引典在資訊檢索上的作業表現得更好,也更有彈性。(註26)

五、結論

  雖然目前的線上檢索系統很多都有提供自然語言查詢,但是自然語言查詢依舊有它的問題存在,諸如:語法結構、語義結構的限制以及回現率不高等問題,因此未來控制語彙檢索依舊在資訊檢索上佔有相當重要的地位。

  在眾多控制語彙的設計中,如索引典法、標題表法、分類法等,無疑的索引典法是最受重視的,一方面因為其不但能促成索引用語與檢索用語的一致性,回收率高,能夠提供用語間的各種關係,建議可能適用的語彙。(註27)另一方面,其不但能有效控制字彙展現的形式,並且也有相當多的國家或國際標準規範概念之間的階層關係。(註28)

  索引典的未來發展雖然目前還不可知,但是模仿人類思路以及語意網路的索引典應該是值得期待的,並且此索引典應該也是一個具備著學習能力、由讀者自建的超索引典。在目前圖書資訊界重新檢討線上公用目錄的角色之時,也試著想要將索引典與線上公用目錄或是WebPac結合,雖然目前,似乎是個蠻難達到的理想,但是筆者認為隨著資訊科技的發展,將來超索引典以及線上公用目錄與索引典的結合將有可能實現。

  資訊檢索的目的是使讀者可以找到更多更相關的資訊,而索引典藉著良好的結構、語義關係將使得這個理想能夠實現,也因此在進行線上檢索之時,必先了解索引典的種種。所謂「工欲善其事,必先利其器」,在我們了解索引典這個工具之後,才能夠使得資訊檢索的作業更加完善,檢索出更符合自己需求的資訊。

【附註】

  • 註1:美國資訊科學學會臺北分會,<索引典理論與實務>(臺北市:美國資訊科學學會臺北分會,民83年10月),頁8。
  • 註2:同註1,頁5。
  • 註3:陳攸華,<圖書資訊學研究>(臺北市:文華,民84),頁34。
  • 註4:黃慕萱,<資訊檢索>(臺北市:學生,民85),頁209。
  • 註5:蔡明月,<線上資訊檢索:理論與實務>(臺北市:學生,民80),頁177。
  • 註6:黃惠株,「淺談索引典」,<佛教圖書館館訊>第五期(民85年3月),頁2。
  • 註7:同註3,頁34-35。
  • 註8:同註6,頁2-3。
  • 註9:同上註,頁3-5。
  • 註10:同註1,頁47-48。
  • 註11:同註1,頁73-75。
  • 註12:同註5,頁168-169。
  • 註13:Donald B. Cleveland Ana D. Cleveland, Introduction to Indexing and Abstracting (Englewood, Colo.: Libraries Unlimited, 1990),p.95
  • 註14:同註4,頁4。
  • 註15:同註1,頁26-29。
  • 註16:Alan Gilchrist, The Thesaurus in Retrieval(London:ASLIB,1971),p.15-16。
  • 註17:同註1,頁102。
  • 註18:同註1,頁103。
  • 註19:同註4,頁228。
  • 註20:Ball Hass Weinberg,“Library Classification and Information Retrieval Thesauri: Comparison and Contrast,”Cataloging & Classification Quarterly 19:3/4(1995),p.38-39.
  • 註21:Richard Pollard,“A hypertext-based thesaurus as a subject browsing aid for bibliographic databases”,Information Processing & Management 29;3(1993),p354-357.
  • 註22:同註4,頁223。
  • 註23:同上註,頁226-228。
  • 註24:卜小蝶,「Fuzzy Search技術在中文OPAC的應用」,<中國圖書館學會會報>第56期(民85年6月),頁79。
  • 註25:同上註,頁83。
  • 註26:Weinberg, op. cit, p.38.
  • 註27:李惠中,「淺談索引典的結構、編製與應用趨勢」,<中國圖書館學會會報第37期>(民74年12月),頁127。
  • 註28:參閱曾繁娟於技術服務研討課之期末報告,「索引典結構在標題表與分類表之應用」,頁27-28。
讀者登入
回頂部