第一章 檔案文獻檢索系統(tǒng)概述
1. 廣義的檔案文獻檢索包括存儲和查找兩個具體過程。前者是指將檔案中具有檢索意義的特征標(biāo)識出來,通過編制檢索工具、建立數(shù)據(jù)庫等方法使之成為有序的檔案信息集合的過程;后者則是指在檔案信息集合中選擇、獲取特定檔案信息的過程。
2. 簡答檔案文獻檢索的基本原理:是實現(xiàn)檔案需求與相關(guān)檔案信息的匹配,即將特定的檔案需求與存儲在檢索系統(tǒng)中的檔案信息進行相符性比較,根據(jù)一定標(biāo)準(zhǔn)從中選擇出符合需求的檔案信息。匹配的實現(xiàn)是存儲和查找互相作用的結(jié)果。
3. 存儲階段的目的是:使檔案信息達到高度的組織化。主要采取對檔案文獻進行標(biāo)識化壓縮處理的方法,即把檔案文獻中具有檢索意義的特征用語詞、代碼等符號表示出來,通過編目、編寫提要等方式將檔案原件轉(zhuǎn)換成一種篇幅較短的特殊文獻形式,一般成為簡短記錄檔案文獻特征的一個條目,并按照一定的規(guī)則把這些條目組織起來,形成有序的檔案信息集合,供查找之用。
4. 查找階段的目的:是獲取所需檔案信息,主要方法是對檔案需求課題進行標(biāo)識化處理,形成檢索提問,再將提問標(biāo)識與檔案信息集合中的標(biāo)識進行相符性比較,選擇出所需要的檔案信息,也就是說,在存儲的逆過程中把所需檔案查找出來。(3、4題可合并一題)
5. 檔案文獻檢索同其他文獻檢索一樣,可以采取三種形式:
(1)數(shù)據(jù)檢索。這種檢索是直接回答利用者所需要的有關(guān)特定主題的查詢,檢索出的結(jié)果是數(shù)據(jù)、公式、圖表等。
(2)事實檢索。這種檢索也是直接回答利用者所需特定主題的確定性檢索,檢索出的結(jié)果是某種事實。
(3)文獻檢索。這種檢索是要查出記載所需信息的檔案文獻,但檢索結(jié)果所提供的并不是文獻本身,而是文獻線索,檢索人員借助文獻線索中提供的存址提取檔案文獻,再從文獻中獲得所需信息。
6. 試述檔案文獻檢索系統(tǒng)的構(gòu)成與功能?
檔案文獻檢索系統(tǒng)是一個由若干因素、若干工作環(huán)節(jié)構(gòu)成的動態(tài)系統(tǒng),這些因素或環(huán)節(jié)互相影響、互相制約。從檢索系統(tǒng)的整體功能出發(fā),去設(shè)計規(guī)劃各個因素或環(huán)節(jié)的構(gòu)成方式及其相互關(guān)系,可以使整個檢索系統(tǒng)的功能得到改善,從而獲得較好的檢索效果。檔案文獻檢索系統(tǒng)包括兩大部分:存儲部分和檢索部分。存儲部分的主要功能是通過著錄標(biāo)引、編制檢索工具、建立數(shù)據(jù)庫等手段使檔案信息有序化;檔案部分的主要功能是通過編制檢索策略實現(xiàn)利用者提問與檔案信息的有效匹配。
在存儲檔案時,檔案標(biāo)引人員首先要對檔案文獻的內(nèi)容進行主題分析,形成若干能反映其主題的概念,并借助于檢索語言把這些概念轉(zhuǎn)換成規(guī)范化的檢索標(biāo)識,這一段工作就是檔案的著錄標(biāo)引。
在檢索(查找)檔案文獻時,檔案檢索人員首先要根據(jù)利用者的提問確定其所需檔案的實質(zhì)內(nèi)容,形成概念,然后同樣借助于檢索語言,把表示檢索課題的概念轉(zhuǎn)換成規(guī)范化的檢索標(biāo)識,并按實際需求把這些標(biāo)識之間的邏輯關(guān)系表達出來,形成檢索表達式。
7. 檔案文獻單元方式按照目錄構(gòu)成或計算機文檔中數(shù)據(jù)排列方式的不同,可區(qū)分為文獻單元方式和標(biāo)識單元方式。
8. 文獻單元方式:在計算機檢索中又稱為順檢方式、順序文檔。它以一份文獻為一個條目,指明該文獻的各種特征,即以文獻為單元進行檢索。
9. 標(biāo)識單元方式:在計算機檢索中又稱為逆檢方式、倒排文檔。它以文獻的一個屬性標(biāo)識為單元,指明含有該屬性的全部文獻,一般只有標(biāo)識和文獻號(檔號)兩個項目。
10. 檢索效率是指在檢索過程中滿足利用者的全面性和準(zhǔn)確性程度,它是衡量檢索系統(tǒng)性能的一個基本的指標(biāo)。檢索效率通常采用查全率和查準(zhǔn)率兩個指標(biāo)來衡量和表示。
11. 查全率是衡量某一檢索系統(tǒng)從文獻集合中檢出相關(guān)文獻成功度的一項指標(biāo),即檢出的相關(guān)文獻與全部相關(guān)文獻的百分比。
12. 查準(zhǔn)率是衡量某一檢索系統(tǒng)的信號噪聲比的一種指標(biāo),即檢出的相關(guān)文獻與檢出的全部文獻的百分比。
13. 簡答查全率和查準(zhǔn)率的關(guān)系:查全率和查準(zhǔn)率之間存在著互逆關(guān)系的結(jié)論。也就是說,如果放寬檢索以達到較好的查全率,那么查準(zhǔn)率就會下降;反之,若是限制檢索范圍以改善查準(zhǔn)率,則查全率就會變壞。當(dāng)進行范圍寬泛的檢索時,查全率很高,可以達到90%左右,而這時查準(zhǔn)率則很低;相反,當(dāng)檢索范圍小,很專指時,則查準(zhǔn)率較高,查全率較低。
14. 論述影響檢索效率的因素:
(1)檢索語言的功能。檢索語言是溝通檔案文獻存儲和查找兩個過程的橋梁,對于特定的需求信息與納入檢索系統(tǒng)的信息集合的準(zhǔn)確匹配具有直接的影響。
(2)檢索途徑的數(shù)量。從理論上說,檔案在存入檢索系統(tǒng)之后,該系統(tǒng)向利用者提供的檢索途徑愈多,它被查到的概率也就愈高。
(3)著錄標(biāo)引的質(zhì)量。檢索標(biāo)識是組織檢索工具、進行檢索的依據(jù),因此,檢索標(biāo)識的準(zhǔn)確性也是影響查全率、查準(zhǔn)率的一個重要因素。
(4)檢索策略的優(yōu)劣。 如果說,檔案著錄標(biāo)引的結(jié)果對于文獻存儲的質(zhì)量至關(guān)重要,那么,檢索策略在查找過程中則具有決定性的作用。
(5)檢索人員的素質(zhì)。不論是手工檢索系統(tǒng)還是機械檢索系統(tǒng),都要由檢索人員來參與和控制檢索過程,上述因素中除檢索語言之外,均與檢索人員的素質(zhì)有關(guān),因此檢索人員的素質(zhì)對于檢索效率有直接的影響。
15.簡檔案文獻檢索系統(tǒng)評價的目的和作用:系統(tǒng)評價就是對系統(tǒng)的效率和價值進行測定,它是對系統(tǒng)進行科學(xué)管理的重要依據(jù)。主要目的是對系統(tǒng)整體及其組成要素的功能、特性和運營情況進行評測。作用主要有三個方面:(1)明確系統(tǒng)當(dāng)前的性能特征,從而科學(xué)地、大限度地發(fā)揮系統(tǒng)的功能。(2)發(fā)現(xiàn)系統(tǒng)現(xiàn)存的缺陷及其原因,提出改進意見或其他對策。(3)為設(shè)計和建立新的檔案文獻檢索系統(tǒng)提供參考。
16.試述系統(tǒng)評價的指標(biāo)體系:檔案文獻檢索系統(tǒng)評價的指標(biāo)主要包括數(shù)據(jù)覆蓋率、檢索效率、響應(yīng)時間、可存取性、費用等。
(1)數(shù)據(jù)覆蓋率又稱為收錄范圍,指一個檢索系統(tǒng)已收錄數(shù)據(jù)量與應(yīng)收錄數(shù)據(jù)量的百分比,它反映該檢索系統(tǒng)的資源擁有狀況。
(2)查全率和查準(zhǔn)率。二者實質(zhì)上反映了系統(tǒng)運行結(jié)果與利用者檢索要求的吻合程度,是衡量檢索系統(tǒng)性能的重要的指標(biāo)。需要說明的是,在實際測評時根據(jù)公式計算出來的查全率和查準(zhǔn)率常常不能完全準(zhǔn)確地反映系統(tǒng)的實際檢索效率,其主要原因是:①對文獻相關(guān)性的判斷不可避免地帶有主觀性和模糊性。②查全率是以檢索系統(tǒng)中與某一檢索要求相關(guān)的文獻總數(shù)作為分母,計算檢出的相關(guān)文獻在全部相關(guān)文獻中的比例,而檢索人員和評價人員都難以確定這個總數(shù)是多少。③在計算查全率、查準(zhǔn)率時,“相關(guān)文獻”被同等看待,不作任何區(qū)分,而實際上,在一組相關(guān)文獻中,每一份文獻的相關(guān)程度是有差異的。
(3)響應(yīng)時間。它是指檢索過程中從利用者向檢索系統(tǒng)提出問題到檢索系統(tǒng)完成匹配過程,形成檢索結(jié)果,交付利用者所需的全部時間。
(4)可存取性。是指一個檔案文獻檢索系統(tǒng)的易用程度。
(5)費用。構(gòu)造和維持一個檔案文獻檢索系統(tǒng)需要投入一定的費用,利用者檢索檔案文獻也要有一定的支出,這些投入包括貨幣和活勞動兩種形式。
17.簡系統(tǒng)評價步驟:(1)制訂評價方案。包括確定對該系統(tǒng)進行評價時采用哪些評價指標(biāo)。
(2)評價對象調(diào)查??筛鶕?jù)評價對象以及評價指標(biāo)的特點采用問卷調(diào)查、抽樣調(diào)查等不同的方法。(3)測試。根據(jù)樣本進行檢索測試,然后對檢索結(jié)果的相關(guān)性、響應(yīng)時間、系統(tǒng)易用程度等進行判斷。(4)數(shù)據(jù)處理與分析。對調(diào)查測試的各種原始數(shù)據(jù)進行整理、計算,得出有關(guān)評價對象的各種性能指標(biāo)。(5)對評價結(jié)果進行分析,提出改進意見。
1. 廣義的檔案文獻檢索包括存儲和查找兩個具體過程。前者是指將檔案中具有檢索意義的特征標(biāo)識出來,通過編制檢索工具、建立數(shù)據(jù)庫等方法使之成為有序的檔案信息集合的過程;后者則是指在檔案信息集合中選擇、獲取特定檔案信息的過程。
2. 簡答檔案文獻檢索的基本原理:是實現(xiàn)檔案需求與相關(guān)檔案信息的匹配,即將特定的檔案需求與存儲在檢索系統(tǒng)中的檔案信息進行相符性比較,根據(jù)一定標(biāo)準(zhǔn)從中選擇出符合需求的檔案信息。匹配的實現(xiàn)是存儲和查找互相作用的結(jié)果。
3. 存儲階段的目的是:使檔案信息達到高度的組織化。主要采取對檔案文獻進行標(biāo)識化壓縮處理的方法,即把檔案文獻中具有檢索意義的特征用語詞、代碼等符號表示出來,通過編目、編寫提要等方式將檔案原件轉(zhuǎn)換成一種篇幅較短的特殊文獻形式,一般成為簡短記錄檔案文獻特征的一個條目,并按照一定的規(guī)則把這些條目組織起來,形成有序的檔案信息集合,供查找之用。
4. 查找階段的目的:是獲取所需檔案信息,主要方法是對檔案需求課題進行標(biāo)識化處理,形成檢索提問,再將提問標(biāo)識與檔案信息集合中的標(biāo)識進行相符性比較,選擇出所需要的檔案信息,也就是說,在存儲的逆過程中把所需檔案查找出來。(3、4題可合并一題)
5. 檔案文獻檢索同其他文獻檢索一樣,可以采取三種形式:
(1)數(shù)據(jù)檢索。這種檢索是直接回答利用者所需要的有關(guān)特定主題的查詢,檢索出的結(jié)果是數(shù)據(jù)、公式、圖表等。
(2)事實檢索。這種檢索也是直接回答利用者所需特定主題的確定性檢索,檢索出的結(jié)果是某種事實。
(3)文獻檢索。這種檢索是要查出記載所需信息的檔案文獻,但檢索結(jié)果所提供的并不是文獻本身,而是文獻線索,檢索人員借助文獻線索中提供的存址提取檔案文獻,再從文獻中獲得所需信息。
6. 試述檔案文獻檢索系統(tǒng)的構(gòu)成與功能?
檔案文獻檢索系統(tǒng)是一個由若干因素、若干工作環(huán)節(jié)構(gòu)成的動態(tài)系統(tǒng),這些因素或環(huán)節(jié)互相影響、互相制約。從檢索系統(tǒng)的整體功能出發(fā),去設(shè)計規(guī)劃各個因素或環(huán)節(jié)的構(gòu)成方式及其相互關(guān)系,可以使整個檢索系統(tǒng)的功能得到改善,從而獲得較好的檢索效果。檔案文獻檢索系統(tǒng)包括兩大部分:存儲部分和檢索部分。存儲部分的主要功能是通過著錄標(biāo)引、編制檢索工具、建立數(shù)據(jù)庫等手段使檔案信息有序化;檔案部分的主要功能是通過編制檢索策略實現(xiàn)利用者提問與檔案信息的有效匹配。
在存儲檔案時,檔案標(biāo)引人員首先要對檔案文獻的內(nèi)容進行主題分析,形成若干能反映其主題的概念,并借助于檢索語言把這些概念轉(zhuǎn)換成規(guī)范化的檢索標(biāo)識,這一段工作就是檔案的著錄標(biāo)引。
在檢索(查找)檔案文獻時,檔案檢索人員首先要根據(jù)利用者的提問確定其所需檔案的實質(zhì)內(nèi)容,形成概念,然后同樣借助于檢索語言,把表示檢索課題的概念轉(zhuǎn)換成規(guī)范化的檢索標(biāo)識,并按實際需求把這些標(biāo)識之間的邏輯關(guān)系表達出來,形成檢索表達式。
7. 檔案文獻單元方式按照目錄構(gòu)成或計算機文檔中數(shù)據(jù)排列方式的不同,可區(qū)分為文獻單元方式和標(biāo)識單元方式。
8. 文獻單元方式:在計算機檢索中又稱為順檢方式、順序文檔。它以一份文獻為一個條目,指明該文獻的各種特征,即以文獻為單元進行檢索。
9. 標(biāo)識單元方式:在計算機檢索中又稱為逆檢方式、倒排文檔。它以文獻的一個屬性標(biāo)識為單元,指明含有該屬性的全部文獻,一般只有標(biāo)識和文獻號(檔號)兩個項目。
10. 檢索效率是指在檢索過程中滿足利用者的全面性和準(zhǔn)確性程度,它是衡量檢索系統(tǒng)性能的一個基本的指標(biāo)。檢索效率通常采用查全率和查準(zhǔn)率兩個指標(biāo)來衡量和表示。
11. 查全率是衡量某一檢索系統(tǒng)從文獻集合中檢出相關(guān)文獻成功度的一項指標(biāo),即檢出的相關(guān)文獻與全部相關(guān)文獻的百分比。
12. 查準(zhǔn)率是衡量某一檢索系統(tǒng)的信號噪聲比的一種指標(biāo),即檢出的相關(guān)文獻與檢出的全部文獻的百分比。
13. 簡答查全率和查準(zhǔn)率的關(guān)系:查全率和查準(zhǔn)率之間存在著互逆關(guān)系的結(jié)論。也就是說,如果放寬檢索以達到較好的查全率,那么查準(zhǔn)率就會下降;反之,若是限制檢索范圍以改善查準(zhǔn)率,則查全率就會變壞。當(dāng)進行范圍寬泛的檢索時,查全率很高,可以達到90%左右,而這時查準(zhǔn)率則很低;相反,當(dāng)檢索范圍小,很專指時,則查準(zhǔn)率較高,查全率較低。
14. 論述影響檢索效率的因素:
(1)檢索語言的功能。檢索語言是溝通檔案文獻存儲和查找兩個過程的橋梁,對于特定的需求信息與納入檢索系統(tǒng)的信息集合的準(zhǔn)確匹配具有直接的影響。
(2)檢索途徑的數(shù)量。從理論上說,檔案在存入檢索系統(tǒng)之后,該系統(tǒng)向利用者提供的檢索途徑愈多,它被查到的概率也就愈高。
(3)著錄標(biāo)引的質(zhì)量。檢索標(biāo)識是組織檢索工具、進行檢索的依據(jù),因此,檢索標(biāo)識的準(zhǔn)確性也是影響查全率、查準(zhǔn)率的一個重要因素。
(4)檢索策略的優(yōu)劣。 如果說,檔案著錄標(biāo)引的結(jié)果對于文獻存儲的質(zhì)量至關(guān)重要,那么,檢索策略在查找過程中則具有決定性的作用。
(5)檢索人員的素質(zhì)。不論是手工檢索系統(tǒng)還是機械檢索系統(tǒng),都要由檢索人員來參與和控制檢索過程,上述因素中除檢索語言之外,均與檢索人員的素質(zhì)有關(guān),因此檢索人員的素質(zhì)對于檢索效率有直接的影響。
15.簡檔案文獻檢索系統(tǒng)評價的目的和作用:系統(tǒng)評價就是對系統(tǒng)的效率和價值進行測定,它是對系統(tǒng)進行科學(xué)管理的重要依據(jù)。主要目的是對系統(tǒng)整體及其組成要素的功能、特性和運營情況進行評測。作用主要有三個方面:(1)明確系統(tǒng)當(dāng)前的性能特征,從而科學(xué)地、大限度地發(fā)揮系統(tǒng)的功能。(2)發(fā)現(xiàn)系統(tǒng)現(xiàn)存的缺陷及其原因,提出改進意見或其他對策。(3)為設(shè)計和建立新的檔案文獻檢索系統(tǒng)提供參考。
16.試述系統(tǒng)評價的指標(biāo)體系:檔案文獻檢索系統(tǒng)評價的指標(biāo)主要包括數(shù)據(jù)覆蓋率、檢索效率、響應(yīng)時間、可存取性、費用等。
(1)數(shù)據(jù)覆蓋率又稱為收錄范圍,指一個檢索系統(tǒng)已收錄數(shù)據(jù)量與應(yīng)收錄數(shù)據(jù)量的百分比,它反映該檢索系統(tǒng)的資源擁有狀況。
(2)查全率和查準(zhǔn)率。二者實質(zhì)上反映了系統(tǒng)運行結(jié)果與利用者檢索要求的吻合程度,是衡量檢索系統(tǒng)性能的重要的指標(biāo)。需要說明的是,在實際測評時根據(jù)公式計算出來的查全率和查準(zhǔn)率常常不能完全準(zhǔn)確地反映系統(tǒng)的實際檢索效率,其主要原因是:①對文獻相關(guān)性的判斷不可避免地帶有主觀性和模糊性。②查全率是以檢索系統(tǒng)中與某一檢索要求相關(guān)的文獻總數(shù)作為分母,計算檢出的相關(guān)文獻在全部相關(guān)文獻中的比例,而檢索人員和評價人員都難以確定這個總數(shù)是多少。③在計算查全率、查準(zhǔn)率時,“相關(guān)文獻”被同等看待,不作任何區(qū)分,而實際上,在一組相關(guān)文獻中,每一份文獻的相關(guān)程度是有差異的。
(3)響應(yīng)時間。它是指檢索過程中從利用者向檢索系統(tǒng)提出問題到檢索系統(tǒng)完成匹配過程,形成檢索結(jié)果,交付利用者所需的全部時間。
(4)可存取性。是指一個檔案文獻檢索系統(tǒng)的易用程度。
(5)費用。構(gòu)造和維持一個檔案文獻檢索系統(tǒng)需要投入一定的費用,利用者檢索檔案文獻也要有一定的支出,這些投入包括貨幣和活勞動兩種形式。
17.簡系統(tǒng)評價步驟:(1)制訂評價方案。包括確定對該系統(tǒng)進行評價時采用哪些評價指標(biāo)。
(2)評價對象調(diào)查??筛鶕?jù)評價對象以及評價指標(biāo)的特點采用問卷調(diào)查、抽樣調(diào)查等不同的方法。(3)測試。根據(jù)樣本進行檢索測試,然后對檢索結(jié)果的相關(guān)性、響應(yīng)時間、系統(tǒng)易用程度等進行判斷。(4)數(shù)據(jù)處理與分析。對調(diào)查測試的各種原始數(shù)據(jù)進行整理、計算,得出有關(guān)評價對象的各種性能指標(biāo)。(5)對評價結(jié)果進行分析,提出改進意見。