(五)存儲媒體和格式的轉(zhuǎn)換
在信息循環(huán)過程中,存儲常被當(dāng)作一個背動的階段,但存儲媒體和格式并不是一成不變的,一旦改變原先的信息可能就會永遠(yuǎn)丟失了。對于這一問題,大多數(shù)組織的作法是定期地進(jìn)行媒體和格式的轉(zhuǎn)換,一般以三年至五年為一個周期。但這種轉(zhuǎn)換費(fèi)用很昂貴,而且常常會面臨數(shù)據(jù)丟失,質(zhì)量下降這樣一些問題。所以一旦要進(jìn)行這種轉(zhuǎn)換,做好檢查工作至關(guān)重要。
在媒體和格式轉(zhuǎn)換中,要求最準(zhǔn)確的是數(shù)據(jù)中心的工作。Oak Ridge國家實(shí)驗(yàn)室的大氣輻射跟蹤中心計(jì)劃每4到5年就進(jìn)行一次技術(shù)更新,每一次更新時,數(shù)據(jù)將會運(yùn)用新的技術(shù)保存,這一過程大概每次需要6至12個月。
(六)存儲技術(shù)
存儲要確保在存檔過程不但要管理和保存好文件的內(nèi)容,還要管理和保存好內(nèi)容的結(jié)構(gòu)形式。實(shí)現(xiàn)這一點(diǎn)就得充分考慮技術(shù)因素在內(nèi)。
據(jù)這些項(xiàng)目的負(fù)責(zé)人估計(jì),有關(guān)硬/軟件的轉(zhuǎn)換周期在2到10年,而一些新的數(shù)據(jù)庫,文字處理器可能2到3年就更新一次,一些小的或級、版本變化就頻繁了。雖然與此同時,技術(shù)供應(yīng)商總會提供一些文件轉(zhuǎn)換的途徑,但事實(shí)上并不能解決硬/軟件變化帶來的根本問題。尤其是對一些運(yùn)用了原軟件中各種復(fù)雜功能的信息文件,很可能因此失去原文件中的許多特征。
鑒于硬/軟件更新所帶來各種麻煩,一般項(xiàng)目都選擇使用主流技術(shù),但這只能保證相對穩(wěn)定性以及確保一些后續(xù)服務(wù),解決不了根本問題,信息結(jié)構(gòu)形式的丟答仍是一個令頭痛的問題。
對此,在格式上,各個項(xiàng)目都運(yùn)用了一些方式來保存結(jié)構(gòu)形式信息。對于期刊文章,大多數(shù)項(xiàng)目使用TIFF、PDF或HTML文件,其中TIFF使用得最多,TIFF圖像是用戶所看到的實(shí)際格式,但是其中嵌套的參考信息并不是實(shí)際存在的超級鏈接。
在出版系統(tǒng)從專有格式轉(zhuǎn)換到SGML格式多年以后,一些大型出版商使用的是HTML/SGML美國宇航協(xié)會使用的是非常完備的SGML格式,它們從各種不同的格式和產(chǎn)品轉(zhuǎn)換而來。在儲存時出版商實(shí)際會把SGML再轉(zhuǎn)換成簡單一些的HTML,另外在轉(zhuǎn)換路徑上還會提供PDF版本。對于純電子文件,PDF是最合適的格式,它是PostScript文件格式的一個翻版,但是依賴于專有的編碼技術(shù)。由于這種專有性就決定了使用PDF會對長期存儲造成影響,也無法成分公共標(biāo)準(zhǔn)。
在文本環(huán)境下保存信息的結(jié)構(gòu)形式就已經(jīng)很困難了,而在多媒體環(huán)境下則更是難上加難。因?yàn)槎嗝襟w文件是多種硬、軟件技術(shù)、內(nèi)容的緊密結(jié)合。對此,調(diào)研對象中也有項(xiàng)目作出了嘗試,一個是美國國防部的DITT項(xiàng)目,他們?yōu)榇碎_發(fā)了管理多媒體文件的模形和軟件,另一個是圣地亞哥的加利福利亞大學(xué),他們開發(fā)的存檔模形允許不同層次和類型的metadata,來針對各種不同數(shù)據(jù)類型的存儲。
存儲的另一個關(guān)鍵問題是存檔版本該使用哪種格式,要把原始格式轉(zhuǎn)換標(biāo)準(zhǔn)格式來存儲。對這點(diǎn),不同項(xiàng)目有不同的選擇,AAS和ACS都是選擇SGML標(biāo)記的ASCII格式,因?yàn)檫@樣的格式中立于各種媒體,用途廣泛而且可以定期更新,更新成本也很少。
(七)存檔訪問
對于存檔訪問,上文提到的都是如何保持信息的長久性,訪問的持續(xù)性。要確保數(shù)字化存檔信息,一直能被訪問,必須考慮到訪問機(jī)制,權(quán)限管理,安全管理三方面。
由于數(shù)字化環(huán)境中的各種技術(shù)都處在變化中,用戶訪問顯示的技術(shù)都在變化,今天還是通過網(wǎng)絡(luò)訪問,明天就不知換作了什么機(jī)制。所以要做的是隨著訪問技術(shù)的變化,不斷向讀者提供新的訪問途徑,當(dāng)然與些同時,原來的訪問途徑應(yīng)該可以繼續(xù)使用。
在存檔訪問上的另一個麻煩在于如何管理好各種權(quán)利,存檔文件具有什么權(quán)利?不同的用戶群分別享有什么權(quán)利?信息作者還保留著什么權(quán)利?而訪問機(jī)制又如何通過適當(dāng)?shù)膍etadata還正確管理好這些權(quán)利。這些問題體現(xiàn)到管理中來包括根據(jù)情況提供或限制訪問權(quán)限,在信息的版權(quán)和安全標(biāo)準(zhǔn)改變訪問權(quán)限標(biāo)準(zhǔn)。
安全和版本控制問題同樣影響著數(shù)字化存檔。在數(shù)字化環(huán)境下,信息和復(fù)制和篡改都太容易,以致于很多時候難以區(qū)分眼前的信息究竟是原始信息還是“偷來的信息”。針對這些問題,關(guān)鍵在于通過metadata管理好文件副本,并使用水印,數(shù)字化標(biāo)記等防偽符。
一、結(jié)論
在科學(xué)領(lǐng)域,各種不同數(shù)字化存檔都正實(shí)踐或醞釀著,本文正是對其中一些極具代表性例子的考查,分別從信息循環(huán)的各個階段,論述了數(shù)字化存檔的有關(guān)事宜,其中的很多都是實(shí)踐經(jīng)驗(yàn)的歸納,或是一些實(shí)例操作中的有益嘗試,如一些項(xiàng)目中的文件存儲標(biāo)準(zhǔn),信息采集原則等,是對其它存檔工作的一個很好借鑒。同時在這些項(xiàng)目中暴露的一些問題,也是以后數(shù)字化存檔工作中有待注意的。當(dāng)然,隨著技術(shù)的更新,數(shù)字化存檔的方方面面還會有所變化,更多的經(jīng)驗(yàn)會隨之而來,希望本文和以上實(shí)例,能起到拋磚引玉的作用。
相關(guān)資訊
-
近日,意大利全國性報(bào)紙《福利奧日報(bào)》稱其出版發(fā)行了全球首份、完全由生成式人工智能技術(shù)撰寫的報(bào)紙。 人工智能生成的報(bào)紙,以紙質(zhì)插頁的形式,夾在同一天發(fā)售的主報(bào)當(dāng)中。在報(bào)頭上標(biāo)有人工智能AI字樣。報(bào)紙文章的標(biāo)題、摘要、內(nèi)容等均由人工智能生成。報(bào)社工作人員…
2025/3/27 8:04:12
共有 網(wǎng)友評論