前言
根据ISO 14721开放档案信息系统(OAIS)中的定义,AIP(Archival Information Package)是指保存信息包,即保存机构在电子档案长期保存时按照要求对内容数据及相关信息进行组织形成的信息包。AIP与SIP(Submission Information Package,提交信息包)、DIP(Dissemination Information Package,分发信息包)并称三大信息包。有关信息包的详细介绍参见文章《电子文件生命周期中的四大信息包》(以下简称“《信息包》”)。
《信息包》一文中分别给出了SIP(分为ASIP和TSIP)、AIP和DIP的参考结构,实【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.际上只给出了逻辑结构,基本不涉及与封装、固化、存储相关的物理结构。今天咱们就来聊聊AIP的逻辑结构、物理结构以及其中的关键点。
AIP的不同之处
那为什么不聊SIP和DIP呢?这是因为SIP和DIP只是过渡性的信息包,主要用于系统之间的数据交换(比如前端OA系统和档案管理系统之间的SIP交换,或者馆藏资源管理系统和利用服务平台之间的DIP交换),一旦交换完成,一般会将信息包中的目录数据导入关系型数据库,将内容数据(电子文件)置于文件系统对应的目录结构下,便于后续处理和访问,信息包本身无需保留。因此,对于SIP和DIP而言,实际上只需要逻辑包,物理上采用哪种封装、固化和存储方式不是那么重要。
但是AI【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.P不一样,AIP信息包一旦形成就会进入电子档案长期保存系统进行管理,并采用磁光电胶等多种载体进行多套备份,以确保档案数据长期安全保存。
出于方便管理的需要,AIP在进入电子档案长期保存系统之后,一般也会进行解包操作,并将目录数据导入关系型数据库便于日后查询,但没有必要抽取电子文件,而是以AIP物理信息包的方式进行存储。这就使AIP信息包不但与其封装方式、固化手段有关,与存储载体、存储方式也紧密相关。
AIP的逻辑结构
截止到目前,相关标准和文件中并没有给出明确的AIP结构示例,笔者根据自己的经验设计了以下AIP逻辑结构:
说明如下:
说明文件命名为“说明文件.TXT”
一个信息包只有一个说明文件,存放本信【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.息包有关信息,包括信息包编号、制作者、制作时间、读取本信息包内档案数据所需要的软硬件环境及其他各种有助于说明本信息包的信息。
目录文件命名为“目录文件.XML”
存放电子档案的目录信息,目录文件中的每条记录与每份电子档案相对应,根据文件整理方式进行文件级描述或案卷级描述,每条记录中包括信息包内档案顺序号、档号、责任者、题名、日期、密级、主题词、附注等信息。
其他文件夹
存放各种与此次AIP制作相关的文件,包括但不限于电子档案入库交接单、元数据规范、数据封装规范、分类编号规则、内容数据命名规则、固化验证信息等。
电子档案文件夹
由多个全宗文件夹组成,以全宗号命名,其中存放电子档案内容及其元数据,一般按年度-【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.类别-文件的层次设置文件夹。各保存机构可根据实际情况对存储结构中的类别、案卷、文件等层级进行调整或取舍。
“电子档案n.AIP”
每份电子档案都应以某种封装方式形成“电子档案n.AIP”,将其包含的电子文件内容及其元数据进行封装,并采用数字摘要等技术手段进行固化,实现电子档案的自包含、自描述、自证明。对于封装包中各类电子文件的格式,应采用符合GB/T 18894、GB/T 33190、DA/T 47等相关规范规定的长期保存格式,对于尚未明确长期保存格式的文件类型,应尽量选择主流、开放、通用的格式。
那么问题来了,AIP究竟应该采用什么封装格式进行封装?
AIP的物理结构
在《信息包》一文中,笔者曾经建议【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.采用ZIP方式对AIP进行封装,如下图所示:
并给出建议:“为了确保档案数据安全,保存库中的电子档案会制作多套异质、异地备份,一般以电子档案为单位封装成ZIP包,便于复制、备份、检测、迁移等操作。”
这一做法最近在一个档案馆长期保存项目(电子档案库房)实施过程中碰到了问题,事实证明我们想简单了。
该项目长期保存库AIP入库流程示意如下图所示:
四个步骤中①封装、②初次入库(全量)、④制作多套备份都没有什么问题,问题出在③后续每月入库(增量)上。
我们假设一开始将管理库总量为50TB的长期保存数据封装成ZIP包导入长期保存库,并且制作了4套备份数据:磁盘阵列1套、蓝光光盘2套、数字胶片(部分数据)1套。一【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.段时间以后,管理库中有一批档案数据进行了开放审核,全文数据没有任何变化但是目录数据发生了变化,这时候就会触发增量AIP包的生成,假设涉及到其中10TB数据的更新,也就是需要生成10TB的ZIP包导入长期保存库,并重新制作4套备份数据。为了确保档案数据安全,长期保存时采用的蓝光光盘和数字胶片都是WORM(Write Once Read Many,一次写入多次读)介质,那也就是4套数据中,磁盘阵列上的对应数据包可以覆盖,原先蓝光光盘和数字胶片上的数据包连同存储载体则只能全部作废,需要重新制作。
如果这种情况发生的概率很低,那工作量和成本在可控范围之内,还不算什么大问题。但事实上,类似开放审核、档案鉴【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.定、补充著录这一类涉及到目录数据变化但不涉及全文数据变化的业务操作并不少,确实有一定的发生频率,在这种情况下,工作量和成本就成为档案保存机构的无法承受之重。
既然ZIP封装不行,EEP封装显然更不行,那应该采用什么封装方式呢?会是METS封装吗?
在《EEP封装?METS封装?还是ZIP封装?》一文中,笔者曾经介绍过METS封装。
METS封装是一种“模块式”的封装方式:所有元数据统一记录在描述元数据块和管理元数据块中;所有电子文件内容统一封装在文件列表块中;文件的结构信息记录在结构图块中;采用链接的方式将描述元数据块和管理元数据块中的元数据链接到文件列表块和结构图块中对应的文件上。如下图所示(以一【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.份党委会议文件为例):
METS封装采用独立的模块来描述电子文件的元数据、文件内容和层次关系,模块之间互不影响,相互之间采用“指针”的方式链接。另外,METS封装还可以设计成“分体式”结构,也就是将电子文件内容以外部文件的形式独立保存,而METS封装包中只封装元数据及指向外部电子文件的链接,这样处理就可以大大降低封装包的大小,并很好地解决上述长期保存库AIP包增量更新的问题。
笔者想说的是,采用“分体式”METS封装解决了长期保存库AIP包增量更新的问题,其关键并不在于“METS封装”,而在于“分体式”设计!采用“分体式”ZIP封装一样可以解决上述问题。其AIP结构设计如下图所示:
说明如下:
1、将【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.同一批AIP包拆分成两部分分别打包,一部分保存元数据,另一部分保存内容,分别存储并制作各自的多套备份,可以借鉴METS封装的思路,相互之间采用“指针”的方式链接;
2、后续需要更新元数据AIP的时候,只需要找到对应的存储备份载体,重新制作即可,内容AIP不需要任何操作。由于元数据AIP通常很小,可以累积到一定的量之后再更新替换,以节约工作量和成本;
3、上述内容AIP的目录结构(全宗-年度-类别)仅作示意,元数据和内容之间的关联可以通过档号等关键字段命名的方式,并不一定通过设置相同的目录结构来查找。极端情况下,所有的内容AIP全部放在同一个文件目录下都可以。内容AIP目录结构的设计需要在尽量固化(【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.长期不变)与尽可能降低环境依赖性(脱离系统依然便于查找识别)之间找到平衡点。
推荐阅读
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2