這一階段決定對(duì)哪些信息進(jìn)行存檔,以及存儲(chǔ)的范圍和深度。與傳統(tǒng)媒體不同,對(duì)電子載體上信息的選取并沒有一個(gè)固定的法則,但是有相關(guān)的向?qū)Э梢砸姥?,這些向?qū)Э梢詭椭鷽Q定以下幾方面:
(1)選擇存檔對(duì)象
加拿大國家圖書館和澳大利亞國家圖書館都肯定了選擇向?qū)У闹匾?。因?yàn)榫W(wǎng)絡(luò)上的內(nèi)容紛繁復(fù)雜,因此需要通過向?qū)Т_定一個(gè)選取的原則,像加拿大國家圖書館的原則就是選擇有研究價(jià)值和文化繼承性的內(nèi)容。澳大利亞國家圖書館的PANORA項(xiàng)目,只存檔澳大利亞的互聯(lián)網(wǎng)出版內(nèi)容,但同時(shí)它也指出不可能對(duì)所有這些內(nèi)容都存檔,所以它也規(guī)定了相應(yīng)的向?qū)砑右赃x擇。
(2)確定存檔范圍
另一個(gè)與對(duì)象選取直接相關(guān)的問題就是確定范圍。因?yàn)椴⒉皇且粋€(gè)數(shù)字化作品的全部環(huán)節(jié)都值得存儲(chǔ),尤其是針對(duì)一些龐大、復(fù)雜的互聯(lián)網(wǎng)站點(diǎn)來說,全盤存儲(chǔ)可能完全不必要,所以更需要對(duì)范圍時(shí)行界定。
還是以澳大利亞國圖書館的PANDORA項(xiàng)目為例,對(duì)于一個(gè)站點(diǎn)上一級(jí)或下一級(jí)的鏈接是否選取,完全取決內(nèi)容的需要。PANDORA的作法是將站點(diǎn)內(nèi)容分成若干部分,然而分別與向?qū)б笞鲗?duì)比,凡是符合要求的就存檔,反之剔除。當(dāng)然如果整個(gè)站點(diǎn)內(nèi)容都有價(jià)值,也會(huì)予以全部保存。
(3)對(duì)鏈接的存檔
在電子出版中廣泛使用著超級(jí)鏈接,所以還需確定這些鏈接及其內(nèi)容是否隨原文一起存檔。對(duì)于這一問題,各個(gè)項(xiàng)目回答各有不同。
大多數(shù)項(xiàng)目中都保存了鏈接(URL域名或其它標(biāo)志符),但并不保存鏈接所指向的內(nèi)容。以美國醫(yī)學(xué)院為例,它保存了所有嵌套在原文文本中的鏈接及參考資料,但并不保存鏈接的內(nèi)容,除非這些內(nèi)容也是原文中的一部分,或者本來就是要被存檔的。同樣,美國能源部科技信息辦公室也是這樣操作的,保存鏈接,但會(huì)剔除超出存檔項(xiàng)目的外部鏈接內(nèi)容。
略微不同的是加拿大國家圖書館,除了保存鏈接外,如果鏈接內(nèi)容與存檔文本在同一服務(wù)器上,它也會(huì)予以保存。在18個(gè)項(xiàng)目中,只有兩個(gè)非常例外,它們既保存外部鏈接也保存相關(guān)內(nèi)容,相當(dāng)這與這兩個(gè)項(xiàng)目的特殊目的有關(guān),如其中一個(gè)項(xiàng)目就是要保存互聯(lián)網(wǎng)的一個(gè)全部縮影,所以它把有關(guān)內(nèi)容全部囊括進(jìn)來。
(4)更新存檔內(nèi)容
在對(duì)數(shù)字化信息進(jìn)行存檔的同時(shí),這些信息往往還在不斷更新,像一些長期站點(diǎn),需要對(duì)存檔信息進(jìn)行更新。那么更新的周期和范圍如何確定呢?這需要在存檔內(nèi)容和完整性、準(zhǔn)確性與成本消耗間找到一個(gè)平衡點(diǎn),因?yàn)轱@然,內(nèi)容更新、存檔內(nèi)容增加帶來的是存檔費(fèi)用的上升。澳大利亞國家圖書館的作法是在“出版”項(xiàng)的每一個(gè)自動(dòng)收集程度中加入了選項(xiàng)表格,選項(xiàng)包括:開/關(guān)、周、月、季、半年、每九個(gè)月一次、每年,具體選擇哪一個(gè)更新周期取決于預(yù)期的更改程度及整個(gè)站點(diǎn)的穩(wěn)定性。
(二)收集渠道
對(duì)于相關(guān)網(wǎng)絡(luò)信息的收集,有兩條基本渠道:手選和機(jī)選。在澳大利亞國家圖書館的項(xiàng)目中,所有站點(diǎn)都由人工瀏覽并加以選擇,工作人員會(huì)跟蹤這些站點(diǎn)在存檔之前的持續(xù)性。相反,瑞典的國家圖書館——皇家圖書館則采用機(jī)選自動(dòng)方式,它所主持的Kultruarw項(xiàng)目定期通過一個(gè)自動(dòng)裝置來搜集材料。而無需加以價(jià)值判斷。這些信息收集裝置會(huì)遍布瑞典的各個(gè)所知站點(diǎn)上尋找信息,當(dāng)然還包括國外站點(diǎn)上有關(guān)瑞典的信息,如旅游信息及瑞典兒品的網(wǎng)上外文譯本。雖然是自動(dòng)收集,皇家圖書館還是設(shè)置優(yōu)先選擇期刊,固定文件,HTML頁面,而參考、用戶網(wǎng)絡(luò)組、ftp存檔、數(shù)據(jù)庫則退后考慮。
芬蘭國家圖書館,赫爾辛基大學(xué)的EVA項(xiàng)目使用的技術(shù)也與瑞典相似,但是EVA項(xiàng)目在實(shí)行自動(dòng)收集時(shí)會(huì)遵循向?qū)е甘?。為了不使服?wù)器超載,EVA對(duì)同一站點(diǎn)兩次采集間的時(shí)間間隔作了限定。雖然這一限制是為了項(xiàng)目利益起見,EVA的開發(fā)者還是認(rèn)為其機(jī)制不夠完備、靈活,他們希望對(duì)具體的時(shí)間限制更為明確,落實(shí)到各個(gè)URL站點(diǎn)層面上。但是要實(shí)現(xiàn)這種靈活性要求為此建立一個(gè)數(shù)據(jù)式的應(yīng)用程序,并且可以由圖書館員加以修改。
(三) 數(shù)字化存檔文件的識(shí)別和編目
一旦確定了數(shù)字化存檔的對(duì)象,就有必要對(duì)其加以識(shí)別標(biāo)志并編目。識(shí)別標(biāo)志為尋找這些對(duì)象提供特定線索,并可鏈接要與其相關(guān)其它對(duì)象上。以metadata形式存在的編目會(huì)提供相關(guān)的結(jié)構(gòu)、接入等信息。
所有的存檔項(xiàng)目都會(huì)使用一些形式的metadata來描述,管理和保存存檔對(duì)象。在項(xiàng)目開發(fā)過程中一些常見的問題有,這些metadata是如何生成的,生成標(biāo)準(zhǔn)是什么,它們的應(yīng)用層次如何以及在何處存儲(chǔ)這些metadata。
在調(diào)研的18個(gè)項(xiàng)目中,大多數(shù)是在編目階段完全或部分生成metadata的,然而當(dāng)前人們?cè)絹碓秸J(rèn)識(shí)到人工生成metadata是數(shù)字化存檔過程中的一個(gè)障礙,所以越來越趨向于自動(dòng)生成機(jī)制。其中一個(gè)已嘗試這一操作的是美國環(huán)境保護(hù)組織開展的存檔項(xiàng)目,它直接從數(shù)字元素這一層次上衍生出metadata,另一個(gè)項(xiàng)目DITT也在metadata的自動(dòng)生成系統(tǒng)上進(jìn)行投資。
在選定的18個(gè)項(xiàng)目中,使用了各種各樣的metadata格式。大多數(shù)國家圖書館采用傳統(tǒng)的圖書館編目標(biāo)準(zhǔn)。像在澳大利亞國家圖書館的PANDORA項(xiàng)目中,電子文件完使用MARC編目,但同時(shí)針對(duì)網(wǎng)絡(luò)信息也采用一些新的簡化格式。EVA項(xiàng)目中使用的是一種類似Dublin Core的格式,預(yù)計(jì)以后一種像Dublin Core這樣簡化的格式將直接從出版商處獲,并運(yùn)用于metadata,這樣就不再需要廣泛使用圖書館編目了。
這18個(gè)項(xiàng)目在從數(shù)據(jù)到metadata的過程中,使用的內(nèi)容標(biāo)準(zhǔn)更是種類繁多。國家圖書館傾向于使用傳統(tǒng)標(biāo)準(zhǔn)如AACR2,有一些地區(qū)已有的信息標(biāo)準(zhǔn),如經(jīng)度、緯度標(biāo)準(zhǔn),很容易編入到metadata內(nèi)容標(biāo)準(zhǔn)中來。但同時(shí)要指出,為了長期存儲(chǔ)需要對(duì)于一些特殊元素,仍需要專門功夫,尤其是一些非文本數(shù)據(jù),如圖像,視頻與多媒體。
Metadata的運(yùn)用層次取決于數(shù)據(jù)類型及預(yù)期的訪問需求。數(shù)據(jù)組通常在文件層或收集層編目。電子期刊的文章可以分別加以編目,有時(shí)都不用在文章及期刊標(biāo)題層次上考慮metadata。另外在考慮主頁時(shí)會(huì)比較麻煩,因?yàn)楸仨毚_定metadata運(yùn)用在哪一些次的頁面上。
在調(diào)研的18個(gè)項(xiàng)目中,metadata文件通常都是獨(dú)立于存檔文件單獨(dú)存儲(chǔ)的圖書館會(huì)把這些文件放在“公共訪問”目錄下,出版商由可能把它們放在書目或引言數(shù)據(jù)庫中。但也有一些例外,如對(duì)標(biāo)題、作者等信息作了標(biāo)簽的電子期刊,這類信息可以和文件存在一起,同時(shí)又可以摘取出來作目錄。
在對(duì)數(shù)字化存檔的討論過程中,有一個(gè)普遍關(guān)注的問題,那就是需要能在不同的metadata格式間轉(zhuǎn)換和使用。對(duì)于這一問題,ISO顧問組開發(fā)的OAIS(開放性存檔信息系統(tǒng),Open Archival Information System)參考模型作了嘗試,它給每一個(gè)存檔對(duì)象按其類型都添入了特定的metadata。
對(duì)于那些并非直接將數(shù)字化材料拷貝到存檔中來的情況,材料在網(wǎng)絡(luò)上從一個(gè)服務(wù)器到另一個(gè)服務(wù)器或從一個(gè)目錄到另一個(gè)目錄,這種轉(zhuǎn)換帶來URL域名的變化有很多后患,因?yàn)閁RL域名表示了信息的位置,當(dāng)這種標(biāo)識(shí)信息變化后,會(huì)導(dǎo)致源文件和鏈接文件不持續(xù)性。
雖然潛在一些問題,大多數(shù)存檔還是繼續(xù)使用URL來指明數(shù)字化對(duì)象的位置。然而也有一些項(xiàng)目作了改變,如OCLC存檔使用的是PURL,
共有 網(wǎng)友評(píng)論