第七章檔案標引
1、檔案標引是指對檔案的內(nèi)容特征進行分析和選擇,并賦予其規(guī)范化檢索標識的過程。
2、受控標引是指使用統(tǒng)一的規(guī)范化語言進行的標引。
3、分散標引是把一組檔案中的每一份文件作為一人獨立的單元,能夠充分提示每份文件的主題內(nèi)容。
4、概括標引,綜合標引一般為淺標引,分析標引、分散標引一般為深標引等。
5、網(wǎng)羅度又稱窮章度,是指標引中確認檔案所有主題的程序。
6、標引網(wǎng)羅度與查全率直接有關,即網(wǎng)羅度愈大,查全率愈高,但是查準率會有所下聊。
7、每篇文獻標引20個主題題是程度,超過這個點,進一步增加主題詞,系統(tǒng)的查全率卻無明顯改善。
8、標引的專指度是檢索標識表達檔案內(nèi)容的精確程度,也就是與檔案主題概念的內(nèi)涵和外延相符的程度。
9、標引的一致性是指選用表達檔案主題內(nèi)容所需要標引詞的一致程度。
10、依主題數(shù)量多少來劃分,只有一個主題的稱為單主題,有兩個或兩個以上并列主題的稱為多主題。
11、“文摘編制法”中“文摘”由文件類型因素變?yōu)橹黧w因素;又如?!八山∪嗣裾?952年大事記”,“松江省人民政府”在這里亦作為主體因素。
12、分類標引是按照檔案的內(nèi)容性質(zhì)將其納入分類表體系的過程。
13、在<<中國檔案分為法>>中,交替類目是用“宜入**”的注釋來表示的。
14、使用綜合復分表進,將所用的復分號用復分標識符號“一”接在主表分類號之后。
15、凡在主表中注明“仿**分”的類目,均可仿所指的類目細分,仿分時,只要將仿類目的子目號碼加于需仿分的類號后即可。
16、某一檔案的主題在分類表中沒有相應專指的類目可歸,而只得歸入范圍較大的上位類的標引方法稱為上位標引。
17、組配標引是指擴大使用范圍的組配標引,是當某一檔案在分類表沒有確切類目時采用的一種解決辦法。
18、當某一檔案內(nèi)容在分類表中無類可歸時,分類人員根據(jù)其職能性質(zhì),在有關大類里新增類目暫作安置,這種標引技巧可稱為暫定性標引。
19、所謂上位登錄,是指在給現(xiàn)一個檢索詞或一個分類號時,也同時組出它的所有各級上位詞或上位類號。
20、檔案界應用較早,較普遍的中文分詞方法是部件詞典法。
多選:
1、根據(jù)檔案標引所使用檢索語言的不同可以分為分類標引和主題詞標引。
2、檔案標引按使用的標引語言可分為自由標引和受控標引。
3、檔案標引按提供檢索標識的數(shù)量可分為淺度標引和深度標引。
4、檔案標引按主題分析方法可分為概括標引和分析標引。
5、檔案標引按標引單元分為綜合標引和分散標引。
6、檔引步驟要包括主題分析和概念轉(zhuǎn)換兩個方面。
7、只有一個概念因素的稱為單因素主題(又稱單元主題),含有兩個或兩個以上概念因素的稱為多因素主題(又稱復合主題)。
8、按照國家標準<<文獻主題標引規(guī)則>>的規(guī)定,主題因素分為5種。即主體因素\通用因素\位置因素\時間因素\文件類型因素。\\
9、復分法使用規(guī)則是指檔案分法中通用復分表和專用復分表的使用規(guī)則。
10、組配法是指使用下列兩種符號的主類號直接組配:并列符號“”+“關聯(lián)符號”:“
11、分類標引技巧包括上位標引\組配標引\靠類標引和暫定性標引。
12、主題詞組配的方式可分為:概念相交\概念限定\概念概括\概念聯(lián)結。
13、主題詞組配標引的原理是概念的可分析性和可綜合性。
14、檔案自動標引有多種形式。從標引深試來分,有:全文主題標引和題名主題標引;從選用的標引詞來分,有主題詞標引和關鍵詞標引。
15、檔案文獻全文自動標引的方法主要有單詞標引\短語標引及語義標引三種類型。
16、單詞標引是方法可大致分為基于詞頻統(tǒng)計的標引和概率加權標引兩類。
17、目前我國檔案部門大多采用題名關鍵詞自動標引的原因主要有兩個方面:A是應用計算機輔助管理的單位大多采用二次文獻檢索的方法B是計算機對自然語言的理解技術還很不成熟。
18、標引時可采用以下規(guī)則提高標引質(zhì)量:概念組配規(guī)則,最長組配規(guī)則,特定詞規(guī)則有并列詞規(guī)則。
簡述、論述
一、簡述標引網(wǎng)羅度與查全率和查準率的關系?
答:(1)標引的高網(wǎng)羅度在獲得查全率的同時卻降低了查準率,這主要有兩個原因:第一,一份檔案往往涉及許多主題,其中既有主要的,也有次要的。在檢索時,主要的\次要的主題都可以作為檢索入口。當從某一次要主題入手查找檔案時,結果可能會令人失望??梢?,在這種情況下,高網(wǎng)羅度將導致檢出不相關的文獻,降低了查準率。第二,在標引時確認的主題多發(fā)生虛假組配的可能性也就愈大。導致誤檢的可能性也就隨之加大了。
(2)反之,標引的低羅度將導致低查率和高查準率。
二、簡述進行主題分析一航可采用以下方法?
(1)閱讀與理解題名。
大部分題名能夠正面反映檔案的主題。題名不能直接,準確地反映檔案內(nèi)容主題。一般有下列幾種情況:
①題名概念過窄。
②題名概念過寬。
③題名念義模糊。
④題名中無主題含義。⑤題名與原文不符等。
因此不能把題名作為主題分析的依據(jù)。無論題名中主題概念是否明確,都應瀏覽一下正文。
(2)閱讀文摘,簡介\前言\領導人批語等。從中發(fā)現(xiàn)題名主題內(nèi)容。
(3)瀏覽正文,了解文件的大致內(nèi)空。
(4)查閱檔案文頭和文尾的載的有關因素。
三、簡述橫梁檔案主題分析的質(zhì)量標準?
答(1)既不要*漏檔案中有參考\檢索價值的內(nèi)容,又不要將無參考檢索價值的內(nèi)容或檔案中根本不存在的東西作為分析的結果;(2)正確判斷檔案中敘述的重點內(nèi)容;(3)正確表述檔案的內(nèi)容,即形成正確的概念。
四、簡述檔案概念轉(zhuǎn)換的質(zhì)量標準?
(1)正確運用分類表和主題詞表,選用符合專指性要示的分類號和主題詞;
(2)根據(jù)檔案的價值確定的標引深度。
(3)給出的標識應符號一致性要求。
五、試述檔案分類標引的基本規(guī)則的內(nèi)容?
答:(1)檔案分類標引的依據(jù),是以國家機構\社會組織從事社會實踐活動的職能分工為基礎。
(2)檔案分類標引應依據(jù)<<中國檔案分類法>>來進行。
(3)檔案分類標引時,要正確地理解類目涵義和范圍。
(4)檔案分類標引應充分考慮實際的檢索需求和檢索方式,選定適當?shù)臉艘疃取?BR> (5)檔案分類標引必須按專指性的要求,分入恰當?shù)念惸俊?BR> (6)當分類表中無恰當?shù)念惸繒r,可分入范圍較大的類目或相關的類目。
(7)檔案分類標引應保持一致性。
六、簡述主題標引與分類標引的同異?
答:(1)主題標引是將檔案的主題內(nèi)容納入詞表體系的過程。分類標引是按照檔案的內(nèi)容性質(zhì)將其納入分類表體系的過程。
(2)兩者使用不同類型的檢索語言,標引方法也有所不同。
(3)分類標引是針對檔案內(nèi)容的職能分工呈事物性質(zhì)進行標引,每份檔案歸入所反映的社會職能分工或事物性質(zhì)的類目。
(5)主題標引是針對檔案所論及或涉及的事物進行標引,要求選用確切的檢索詞直接表達檔案所論或涉及的事物。
七、簡述標引時應遵守的主題詞標引的優(yōu)先順序?
答:(1)當主題詞表中有專指詞時,必須用專指詞標引;
(2)當無專指詞時,用采用組配標引。
(3)對詞表中沒有專指詞,也不適合組配標引的主題概念,可以采用靠詞標引。
(8)對用上述方法標引都不適合的主題,可以進行自由標引。
八、簡述主題詞組配標引規(guī)則的內(nèi)容?
答:(1)組配標引應是概念組配,而不是字面組配。
(2)避免用不必要的詞進行堆砌。
(3)避免概念不明確\邏輯不合理,內(nèi)容不科學的不符合一般思維規(guī)律的組配。
(4)遵守專指性規(guī)則,不能越級組配。
(5)主題詞標引的優(yōu)先順序。
(6)一個概念可用多種組配方案標引時,應使用確切的組配方案。
(7)有名詞不得用普通主題詞組題表示。
九、試述計算機檢索系統(tǒng)與手工檢索系統(tǒng)的差異(不同)?
(2)一種手工檢索系統(tǒng)一般只提供一種檢索途徑,而一個計算機檢索系統(tǒng)則相當于多種手工檢索系統(tǒng)。
(3)各種手工檢索系統(tǒng)的條目格式各不相同。而在計算機檢索數(shù)庫中,對一份檔案只需編制一條詳細記錄。
(4)每種手工檢索系統(tǒng)都有與其他檢索系統(tǒng)不同的排序方法,輸出時可采用多種排序方法。
(5)手工檢索系統(tǒng)與計算機檢索系統(tǒng)中條目的結構及及識別每個著錄項目所用的標識符號不同。
(6)計算機檢索系統(tǒng)采用磁性載體,必須利用計算機才能進行檢索。
(7)計算機檢索系統(tǒng)可以按需要輸出各種各樣的目錄。
十、簡述題名關鍵詞自動標引應注意的問題?
答:(1)題名必須準確地反映檔案文獻的主題內(nèi)容。
(2)要建立或選用一個高質(zhì)量的詞典庫,其中的詞應具有相當?shù)目捎眯診包含性和通用性。
(3)建立同義詞詞典。
它可以把相同含義不同形式的關鍵詞連接在一起檢索,還可以在一定程序上對關鍵詞加以規(guī)范。
十一、試述影響檔案自動標引質(zhì)量的主要原因有哪些?如何提高自動標引的質(zhì)量?
答:(1)原因:①我國目前主要采用的是題名關鍵詞自動標引,但不少文件,案卷題名不能準確揭示其內(nèi)容主題,從而失去了自動抽詞的基本前提。
②我國目前的關鍵詞自動標引還處于形式標引階段,各種自動技術也還不夠成熟。
③自動標引用的詞典庫質(zhì)量還不高。
(2)對自動化標引的質(zhì)量控制方法主要有以下幾個方面:
(8)選擇性能較好,與本單位檔案實際相適應的自動標引軟件。
(9)加強審校工作,并形成制度,未經(jīng)審校的自動標引結果不能存入數(shù)據(jù)庫。主題詞標引審校的內(nèi)容大致有:1)主題分析是否準確。2)選詞是否得當。3)標引深度是否得當。
③根據(jù)需要調(diào)整標引軟件,使之更具適用性。
1、檔案標引是指對檔案的內(nèi)容特征進行分析和選擇,并賦予其規(guī)范化檢索標識的過程。
2、受控標引是指使用統(tǒng)一的規(guī)范化語言進行的標引。
3、分散標引是把一組檔案中的每一份文件作為一人獨立的單元,能夠充分提示每份文件的主題內(nèi)容。
4、概括標引,綜合標引一般為淺標引,分析標引、分散標引一般為深標引等。
5、網(wǎng)羅度又稱窮章度,是指標引中確認檔案所有主題的程序。
6、標引網(wǎng)羅度與查全率直接有關,即網(wǎng)羅度愈大,查全率愈高,但是查準率會有所下聊。
7、每篇文獻標引20個主題題是程度,超過這個點,進一步增加主題詞,系統(tǒng)的查全率卻無明顯改善。
8、標引的專指度是檢索標識表達檔案內(nèi)容的精確程度,也就是與檔案主題概念的內(nèi)涵和外延相符的程度。
9、標引的一致性是指選用表達檔案主題內(nèi)容所需要標引詞的一致程度。
10、依主題數(shù)量多少來劃分,只有一個主題的稱為單主題,有兩個或兩個以上并列主題的稱為多主題。
11、“文摘編制法”中“文摘”由文件類型因素變?yōu)橹黧w因素;又如?!八山∪嗣裾?952年大事記”,“松江省人民政府”在這里亦作為主體因素。
12、分類標引是按照檔案的內(nèi)容性質(zhì)將其納入分類表體系的過程。
13、在<<中國檔案分為法>>中,交替類目是用“宜入**”的注釋來表示的。
14、使用綜合復分表進,將所用的復分號用復分標識符號“一”接在主表分類號之后。
15、凡在主表中注明“仿**分”的類目,均可仿所指的類目細分,仿分時,只要將仿類目的子目號碼加于需仿分的類號后即可。
16、某一檔案的主題在分類表中沒有相應專指的類目可歸,而只得歸入范圍較大的上位類的標引方法稱為上位標引。
17、組配標引是指擴大使用范圍的組配標引,是當某一檔案在分類表沒有確切類目時采用的一種解決辦法。
18、當某一檔案內(nèi)容在分類表中無類可歸時,分類人員根據(jù)其職能性質(zhì),在有關大類里新增類目暫作安置,這種標引技巧可稱為暫定性標引。
19、所謂上位登錄,是指在給現(xiàn)一個檢索詞或一個分類號時,也同時組出它的所有各級上位詞或上位類號。
20、檔案界應用較早,較普遍的中文分詞方法是部件詞典法。
多選:
1、根據(jù)檔案標引所使用檢索語言的不同可以分為分類標引和主題詞標引。
2、檔案標引按使用的標引語言可分為自由標引和受控標引。
3、檔案標引按提供檢索標識的數(shù)量可分為淺度標引和深度標引。
4、檔案標引按主題分析方法可分為概括標引和分析標引。
5、檔案標引按標引單元分為綜合標引和分散標引。
6、檔引步驟要包括主題分析和概念轉(zhuǎn)換兩個方面。
7、只有一個概念因素的稱為單因素主題(又稱單元主題),含有兩個或兩個以上概念因素的稱為多因素主題(又稱復合主題)。
8、按照國家標準<<文獻主題標引規(guī)則>>的規(guī)定,主題因素分為5種。即主體因素\通用因素\位置因素\時間因素\文件類型因素。\\
9、復分法使用規(guī)則是指檔案分法中通用復分表和專用復分表的使用規(guī)則。
10、組配法是指使用下列兩種符號的主類號直接組配:并列符號“”+“關聯(lián)符號”:“
11、分類標引技巧包括上位標引\組配標引\靠類標引和暫定性標引。
12、主題詞組配的方式可分為:概念相交\概念限定\概念概括\概念聯(lián)結。
13、主題詞組配標引的原理是概念的可分析性和可綜合性。
14、檔案自動標引有多種形式。從標引深試來分,有:全文主題標引和題名主題標引;從選用的標引詞來分,有主題詞標引和關鍵詞標引。
15、檔案文獻全文自動標引的方法主要有單詞標引\短語標引及語義標引三種類型。
16、單詞標引是方法可大致分為基于詞頻統(tǒng)計的標引和概率加權標引兩類。
17、目前我國檔案部門大多采用題名關鍵詞自動標引的原因主要有兩個方面:A是應用計算機輔助管理的單位大多采用二次文獻檢索的方法B是計算機對自然語言的理解技術還很不成熟。
18、標引時可采用以下規(guī)則提高標引質(zhì)量:概念組配規(guī)則,最長組配規(guī)則,特定詞規(guī)則有并列詞規(guī)則。
簡述、論述
一、簡述標引網(wǎng)羅度與查全率和查準率的關系?
答:(1)標引的高網(wǎng)羅度在獲得查全率的同時卻降低了查準率,這主要有兩個原因:第一,一份檔案往往涉及許多主題,其中既有主要的,也有次要的。在檢索時,主要的\次要的主題都可以作為檢索入口。當從某一次要主題入手查找檔案時,結果可能會令人失望??梢?,在這種情況下,高網(wǎng)羅度將導致檢出不相關的文獻,降低了查準率。第二,在標引時確認的主題多發(fā)生虛假組配的可能性也就愈大。導致誤檢的可能性也就隨之加大了。
(2)反之,標引的低羅度將導致低查率和高查準率。
二、簡述進行主題分析一航可采用以下方法?
(1)閱讀與理解題名。
大部分題名能夠正面反映檔案的主題。題名不能直接,準確地反映檔案內(nèi)容主題。一般有下列幾種情況:
①題名概念過窄。
②題名概念過寬。
③題名念義模糊。
④題名中無主題含義。⑤題名與原文不符等。
因此不能把題名作為主題分析的依據(jù)。無論題名中主題概念是否明確,都應瀏覽一下正文。
(2)閱讀文摘,簡介\前言\領導人批語等。從中發(fā)現(xiàn)題名主題內(nèi)容。
(3)瀏覽正文,了解文件的大致內(nèi)空。
(4)查閱檔案文頭和文尾的載的有關因素。
三、簡述橫梁檔案主題分析的質(zhì)量標準?
答(1)既不要*漏檔案中有參考\檢索價值的內(nèi)容,又不要將無參考檢索價值的內(nèi)容或檔案中根本不存在的東西作為分析的結果;(2)正確判斷檔案中敘述的重點內(nèi)容;(3)正確表述檔案的內(nèi)容,即形成正確的概念。
四、簡述檔案概念轉(zhuǎn)換的質(zhì)量標準?
(1)正確運用分類表和主題詞表,選用符合專指性要示的分類號和主題詞;
(2)根據(jù)檔案的價值確定的標引深度。
(3)給出的標識應符號一致性要求。
五、試述檔案分類標引的基本規(guī)則的內(nèi)容?
答:(1)檔案分類標引的依據(jù),是以國家機構\社會組織從事社會實踐活動的職能分工為基礎。
(2)檔案分類標引應依據(jù)<<中國檔案分類法>>來進行。
(3)檔案分類標引時,要正確地理解類目涵義和范圍。
(4)檔案分類標引應充分考慮實際的檢索需求和檢索方式,選定適當?shù)臉艘疃取?BR> (5)檔案分類標引必須按專指性的要求,分入恰當?shù)念惸俊?BR> (6)當分類表中無恰當?shù)念惸繒r,可分入范圍較大的類目或相關的類目。
(7)檔案分類標引應保持一致性。
六、簡述主題標引與分類標引的同異?
答:(1)主題標引是將檔案的主題內(nèi)容納入詞表體系的過程。分類標引是按照檔案的內(nèi)容性質(zhì)將其納入分類表體系的過程。
(2)兩者使用不同類型的檢索語言,標引方法也有所不同。
(3)分類標引是針對檔案內(nèi)容的職能分工呈事物性質(zhì)進行標引,每份檔案歸入所反映的社會職能分工或事物性質(zhì)的類目。
(5)主題標引是針對檔案所論及或涉及的事物進行標引,要求選用確切的檢索詞直接表達檔案所論或涉及的事物。
七、簡述標引時應遵守的主題詞標引的優(yōu)先順序?
答:(1)當主題詞表中有專指詞時,必須用專指詞標引;
(2)當無專指詞時,用采用組配標引。
(3)對詞表中沒有專指詞,也不適合組配標引的主題概念,可以采用靠詞標引。
(8)對用上述方法標引都不適合的主題,可以進行自由標引。
八、簡述主題詞組配標引規(guī)則的內(nèi)容?
答:(1)組配標引應是概念組配,而不是字面組配。
(2)避免用不必要的詞進行堆砌。
(3)避免概念不明確\邏輯不合理,內(nèi)容不科學的不符合一般思維規(guī)律的組配。
(4)遵守專指性規(guī)則,不能越級組配。
(5)主題詞標引的優(yōu)先順序。
(6)一個概念可用多種組配方案標引時,應使用確切的組配方案。
(7)有名詞不得用普通主題詞組題表示。
九、試述計算機檢索系統(tǒng)與手工檢索系統(tǒng)的差異(不同)?
(2)一種手工檢索系統(tǒng)一般只提供一種檢索途徑,而一個計算機檢索系統(tǒng)則相當于多種手工檢索系統(tǒng)。
(3)各種手工檢索系統(tǒng)的條目格式各不相同。而在計算機檢索數(shù)庫中,對一份檔案只需編制一條詳細記錄。
(4)每種手工檢索系統(tǒng)都有與其他檢索系統(tǒng)不同的排序方法,輸出時可采用多種排序方法。
(5)手工檢索系統(tǒng)與計算機檢索系統(tǒng)中條目的結構及及識別每個著錄項目所用的標識符號不同。
(6)計算機檢索系統(tǒng)采用磁性載體,必須利用計算機才能進行檢索。
(7)計算機檢索系統(tǒng)可以按需要輸出各種各樣的目錄。
十、簡述題名關鍵詞自動標引應注意的問題?
答:(1)題名必須準確地反映檔案文獻的主題內(nèi)容。
(2)要建立或選用一個高質(zhì)量的詞典庫,其中的詞應具有相當?shù)目捎眯診包含性和通用性。
(3)建立同義詞詞典。
它可以把相同含義不同形式的關鍵詞連接在一起檢索,還可以在一定程序上對關鍵詞加以規(guī)范。
十一、試述影響檔案自動標引質(zhì)量的主要原因有哪些?如何提高自動標引的質(zhì)量?
答:(1)原因:①我國目前主要采用的是題名關鍵詞自動標引,但不少文件,案卷題名不能準確揭示其內(nèi)容主題,從而失去了自動抽詞的基本前提。
②我國目前的關鍵詞自動標引還處于形式標引階段,各種自動技術也還不夠成熟。
③自動標引用的詞典庫質(zhì)量還不高。
(2)對自動化標引的質(zhì)量控制方法主要有以下幾個方面:
(8)選擇性能較好,與本單位檔案實際相適應的自動標引軟件。
(9)加強審校工作,并形成制度,未經(jīng)審校的自動標引結果不能存入數(shù)據(jù)庫。主題詞標引審校的內(nèi)容大致有:1)主題分析是否準確。2)選詞是否得當。3)標引深度是否得當。
③根據(jù)需要調(diào)整標引軟件,使之更具適用性。