Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏

SCI论文网开场白:为SCI创作者提供分享合作的小而美圈子

当前位置:首页 > 历史论文 > 正文

谈明清数字化档案的存储管理方法与实践(附论文PDF版下载)

发布时间:2018-08-10 22:23:41 文章来源:SCI论文网 我要评论














SCI论文(www.scipaper.net):
 
Study on the Storage of Digital Archives of the Ming and Qing Dynasty
Hu Fangfang
 
中国第一历史档案馆 (以下简称一史馆) 是保管明清档案的中央级档案馆, 馆藏量巨大, 有近千万件档案, 历史跨度大, 从明朝洪武年间到溥仪小朝廷时代, 历时近600年。馆藏档案以纸质载体为主, 存在着部分档案破损、纸张变脆等问题。为进一步保护明清档案, 深化历史档案的开发利用, 2011年5月起, 一史馆进行了大规模的馆藏档案数字化工作, 经过几年努力, 截至2017年底, 一史馆已完成馆藏档案数字化图像超7500万画幅, 数据存储备份数据总量 (含在线、近线、离线数据) 达6.4PB。如何对海量的数字化档案进行存储和管理是明清档案信息化工作中的重点和难点, 本文就此问题, 结合一史馆实际情况, 进行论述。

一、数字化档案存储管理的难点重点及解决思路

档案是一种最真实、最可靠、最具权威性与凭证性的原声信息资源。从概念上看, 档案的数字化是指利用计算机等技术手段将经过鉴选、本来存储于传统载体上的档案信息进行数字化转换并加以存储、保护、检索利用的系统功能。从工作流程上看, 档案的数字化包括档案整理、著录、扫描、格式转化、数据存储等多个环节。

(一) 数字化档案存储管理中的难点和重点

1. 档案数字化工作中, 如何不断提高从业者的业务水平。

档案的数字化工作, 从涉及学科看, 不仅需要档案学相关知识, 还需要计算机与信息应用相关的知识, 如网络技术、存储技术、数据库技术等。如果自身对技术了解不深刻, 认为存储系统的扩容就是多加几个扩展柜, 认为存储系统的安全稳定就是挑大厂家产品, 数字资源的正式、完整与安全必然无法得到保证。技术过硬是数字化档案安全管理的强有力保障, 随着科技的进步, 计算机技术的发展日新月异, 如何能够在档案数字化工作中, 不断更新相关知识, 跟上时代的发展, 是档案数字化工作的重点。

2. 档案数字化生产时, 如何快速地实现数据存储备份。

在数字化的各个阶段, 都需要数据的存储, 并且数据存储容易形成瓶颈, 直接影响数字化工作的进度。数据量不断增大并需要进行备份, 而存储设备数量有限, 且受限于存储的读写速度、网络速度, 如何安全有效且快速地进行数据存储是工作的难点问题之一。

3. 档案数字化完成时, 如何做好数字化档案的保护和维护。

对于历史档案馆而言, 生产数字档案是一时的行为, 而存储管理需要花费大功夫, 也非常重要。首先, 存储系统的性能影响到数字化工作的效率。其次, 存储系统的稳定是数字化工作进行的重要保证, 数据很难进行第二次生产, 如果存储系统存在数据丢失、频繁宕机等现象, 将对数字化成果产生致命影响。再次, 存储系统的扩展性影响到数字化工作的全局发展, 存储系统的容量不是一蹴而就的, 随着工作进展, 存储需求增大, 需要对存储系统进行扩展, 并合理进行存储资源的分配, 存储资源扩展能力是支持数字化工作进行的重要指标。后期的存储管理和维护也是工作的难点问题。

(二) 数字化档案存储管理的难点重点问题的解决思路

1. 努力提高馆内工作者的技术水平并引入专业的运维公司。

网络处一直很重视本处室人员技术的提高, 通过自身学习不断提高技术水平, 并通过产品公司的技术培训、相关单位的调研学习等, 不断提高业务能力。此外, 一史馆充分调动社会力量, 引入专业的运维公司, 通过对运维公司的工作进行指导监督, 确保在大方向上无误, 在细节上精准把握, 保证档案数字资源的正式、完整与安全。

2.经过多年的档案数字化工作, 一史馆已经建成了比较完善的网络存储系统, 搭建了与之匹配的网络环境, 并通过数据专线实现了馆内存储系统和馆外数据机房存储系统的互联, 实现了存储划分、文件共享、数据备份、远程容灾等功能。数据存储囊括了在线存储、近线存储、离线存储三级存储模式。实践证明, 我馆现有的存储管理能够满足档案数字化的生产, 并做到了数字化档案的安全完整。

从存储架构上看, 存储系统可以分为三类:DAS (Direct Access Storage, 即直接连接存储) , NAS (Network Attached Storage, 即网络附加存储) 和SAN (Storage Area Network, 即存储区域网络) 。以上存储系统各有特色, 如何扬长避短, 为我所用, 是在档案数字化工作中的一个重点。

DAS是存储设备和使用存储设备的服务器直接相连的架构。通过SCSI块的方式发送数据, 为服务器提供块级的存储服务, 具有部署简单、复杂度低、投资小的优点, 但是可扩展性低, 资源共享性差, 容易导致资源孤岛, 并且存储设备和服务器之间连接距离最多只能有25米, 这些缺点导致在海量数据面前应用性较差, 一史馆没有使用此种存储架构。

经过多年发展, 一史馆当前已经形成以网络交换机为核心的IP网和以光纤交换机为核心的SAN网, 包括NAS架构和SAN架构两种网络存储架构。

现以我馆在线存储为例, 介绍我馆如何实现快速地数据存储备份和如何做好数字化档案的保护和维护。

二、一史馆NAS架构的搭建及使用

一史馆的NAS存储是集群式的存储设备, 即没有机头、主节点、元数据服务器的概念, 所有节点平等并且都负载任务。单个文件系统贯穿集群的每个节点。当前NAS集群由8个节点组成, 总容量超过850TB, 增加新的节点时, 空间会动态增加, 内容会被均衡到各个节点上, 通过管理软件对NAS集群进行管理。

(一) 一史馆的NAS架构

NAS是基于IP协议的直接连接到网络上的文件服务和存储共享设备, 可通过TCP/IP协议和文件共享协议 (CIFS和NFS) 实现异构平台之间的文件级数据共享。

一史馆的IP网采用的是核心层、接入层的两层网络拓扑结构。接入层把所有的终端连入网络, 核心层作为网络的主干部分, 实现高速转发通信。一史馆的NAS架构依托于馆内IP网, 通过网络直接与核心交换机相连。简化的网络架构如图1所示。

(二) 一史馆的NAS主要应用

NAS的优点非常突出:首先是能够实现异构平台的客户机对存储数据的共享, 其次由于采用了TCP/IP技术, 所以系统环境搭建简单, 同时可扩展性和可访问性较好, 总体成本较低, 所以在档案数字化中, NAS是不错的选择。但是NAS也有一些缺点, 如由于占用IP网, 在存储备份中会有大量的带宽消耗, 所以无法进行大容量的存储备份应用;适用于非结构化数据的存放, 不支持数据库服务;传输速率慢, 系统不稳定等。

\
图1 NAS网架构示意图 

由于NAS具有文件级数据共享功能, 可以很方便地进行文件级数据权限设置, 同时对Unix客户端和Windows客户端都有很好的兼容性, 因此NAS在以文件处理为基础的多用户网络计算环境中, 应用较广。当前, 在一史馆的NAS设备的应用主要分为三类:

1.工区提交的成品数据的存储和服务。工区提出存储资源需求后, 网络处根据存储空间情况动态分配资源, 工区以访问文件夹的方式, 定期将成品数据存放在NAS设备上。

2. 各处室的工作数据存放。

如部分处室的项目文件较大, 放置此处用于共享。由各处室提出需求, 网络处进行设置, 通过NAS设备进行集中数据存储, 减少客户端工作站的重复数据, 简化数据管理, 并提供更高的数据保护。

3. 馆内常用数据集中存放。

常用数据即为了方便馆内使用而放置的数据。

(三) 一史馆NAS设备的数据保护措施

NAS设备的数据保护和访问保护上充分考虑了冗余。

1. 一史馆的NAS设备的文件系统依据N+M∶B保护级别。

其中N代表集群节点的总数目, M代表可以不同节点上同时损坏的磁盘数, B表示可以同时损坏的节点数。一史馆设置NAS的文件系统保护级别为N+2∶1的保护级别, 即同时损坏1个节点的两个磁盘的情况下存储数据不会丢失。

2. 数据可以从集群的任一个节点读取或者写入。

NAS设备有内部交换机, 数据条带化后被放置在不同的节点上, 信息通过内部网络在节点之间共享。我馆NAS设备的每个节点都通过网卡和核心交换机连接, 每个节点分配一个IP地址, 当某节点的网络连接不通, 则通过此节点访问NAS设备的请求, 自动跳转到其他节点, 不会造成业务中断。

3. NAS采用冗余的网络组建, 提供多连接选项。部分重要业务服务器采用多网卡和NAS节点连接, 实现链路冗余。

三、一史馆SAN架构的搭建及使用

SAN是一个用在服务器和存储资源之间的、专用的、高性能的网络体系。SAN采用可扩展的网络拓扑结构连接服务器和存储设备, 每个存储设备不隶属于任何一个服务器, 所有的存储设备可以在全部的网络服务器之间作为对等资源分享。

SAN网架构中主要包括光纤交换机、存储设备和服务器等。随着项目的发展, 一史馆对SAN网存储进行了多次扩容, 当前在线存储总容量达到3.5PB。目前, 一史馆共有两套SAN架构, 其中一套在西山数据机房, 一套在馆内机房。

(一) 一史馆的SAN架构

馆内的SAN网设备由两台48口的光纤交换机提供服务, 共连接物理服务器18台 (包括数据库服务器、工区加工生产服务器、虚拟化服务器等) , 磁带库1台, 在线存储设备4台, 在线存储总容量达到1.7PB。

简化的一史馆的SAN网架构如图2所示:

\
图2 SAN网架构 

(二) 一史馆的SAN主要应用

SAN把网络上的存储容量整合为一个逻辑存储资源池, 按照需求分配给各个应用系统使用。它的优点是扩展性强, 理论上可以无限扩容;体系结构灵活;可不占用局域网网络资源, 在SAN网内实现数据的存储迁移和备份。它的缺点是体系结构复杂, 导致管理复杂;不同供应商的产品存在兼容性问题;价格比较昂贵。由于在存储性能上的巨大优势, 现在SAN在海量数据存储中使用非常广泛。

当前一史馆的SAN应用主要有以下几类:

1. 工区的生产数据存放所需存储空间。由网络处根据工区存储规划, 提前为工区分配存储空间。生产数据实时传送到SAN网存储上。

2. 数据库的主库和备库所需存储空间。SAN以数据为中心, 支持结构化数据, 对数据库有很好的支持。

3. 虚拟化集群所需存储空间。一史馆通过6台物理服务器虚拟出30余台虚拟服务器, 在SAN上为这些虚拟服务器分配资源。由于SAN采用了网络结构, 服务器可以访问存储网络上的任何一个存储设备, 因此用户可以自由地在该网络上增加磁盘阵列、带库和服务器等设备。

4. 数据备份和数据回滚所需存储空间。采用SAN网络, 数据备份和回滚操作可以独立于原来的网络, 提供操作的性能。

5. JP2等数据的在线存放。

6. 应急管理、分布式存储系统等服务所需要空间。

(三) 一史馆SAN网数据的保护措施

1. 光纤交换机通过采用双链路级联, 链路带宽增加1倍, 数据流量由两条链路平均分摊, 并且任何一条链路中断, 数据传输不受影响。

2. 磁带阵列采用raid和热备盘技术实现数据冗余。通过采用raid 5和raid 6的技术, 可以在一定程度上实现数据冗余, 部分存储配置全局热备盘, 它将替换任何硬盘组中的任何失效硬盘。

3. 多服务器可以通过多个光纤交换机与存储设备冗余连接, 消除了交换机单点故障带来的业务中断。

四、SAN网和NAS网在数字化加工过程中的典型应用

在数字化生产中, SAN网和NAS网的结合应用非常重要。现在以复制处某数字化工区为例, 说明其加工数据的存储过程。

(一) 数字化加工典型存储架构

数字化加工典型存储架构如图3所示。

\
图3 数字化加工典型存储架构图 

数字化加工区客户端用于生产数字化数据。工区生产服务器用于安装数字化工区所需要的软件、常用服务, 并做为生产数据和成品数据上传的中介。NAS集群设备用于存放成品数据。SAN网存储阵列用于存放生产数据。

工区生产服务器共有12个网口, 在IP网与核心交换机、NAS集群设备相连。在SAN网, 与光纤交换机相连, 并根据网络处规划, 和存储阵列中的特定存储空间划到一个zone里。

(二) 数字化加工流程

数字化加工的路程, 从存储管理的角度分为生产数据的上传和成品数据的上传两大块。

1. 生产数据的上传:

数字化加工区客户端生产数字化数据后, 通过生产服务器上挂载的SAN盘实时存放到SAN网的存储阵列中。此时的数据流为:客户端→接入交换机→核心交换机→加工服务器 (通过业务网络A) →光纤交换机→存储阵列。

在整个业务生产过程中, 网络速度和稳定性非常重要, SAN网的网络带宽足够大, 不会对业务造成影响。为解决客户端访问生产服务器的网络瓶颈问题, 启动生产服务器富余的网卡, 通过链路聚合和分配多个IP地址的方式, 提高网络速度。如图3中所示, 生产服务器五个网口用于和核心交换机相连接, 四个网口进行了链路聚合, 分配了一个IP地址, 用于传送生产数据, 一方面扩大了带宽, 一方面提高了网络稳定性, 如图中业务网络A所示。为了避免业务上传时对网络的占用过大, 无法进行服务器管理, 故有一个网口分配另一个IP地址专门用于管理。

2. 成品数据的上传:

当工区生产一定数量的数据后, 把数据从SAN存储阵列转存到NAS集群设备上。

由于NAS不是针对存储应用而设计的专用网络, 存在传输速度慢的问题, 但是因为不需要实时上传, 并不影响公司生产, 同时成品数据提交后, 网络处对文件夹需要进行多次权限修改, 此时工区的访问权限要收回, 待网络处进行校验等操作后, 如果发现问题需要工区修改, 再重新下发权限。所以数据存放到NAS集群上很有必要。

数据流为:SAN存储阵列→光纤交换机→生产服务器→NAS集群设备。为尽可能提高速度, 不通过核心交换机进行数据交换, 在生产服务器和NAS集群设备间搭建了一条数据专线, 共有4个网线, 分配了4个IP地址, 其中一个网线连接NAS设备的节点3, 一个网线连接NAS设备节点5, 这两个做了端口聚合, 一个网线连接NAS设备节点2, 一个网线连接NAS设备节点1, 共配四个ip地址, 如图中业务网络B所示。

经过实际测试和长时间的运行, 此种数据化加工的性能较好, 可以满足工区的数据生产强度。

数字化档案的有效存储和管理是数字化成果稳妥保存并得以展现的基础, 是档案信息化的重要课题, 更是下一步建设数字化档案馆的基石。在大数据、云计算技术迅速发展之际, 如何利用大数据和云计算, 实现数字化档案的存储升级, 并做好数字化档案的数据挖掘工作是难点也是重点, 档案信息化工作大有所为。
      
       《谈明清数字化档案的存储管理方法与实践》附论文PDF版下载:
       http://www.scipaper.net/uploadfile/2018/0810/20180810102511959.pdf

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:http://www.scipaper.net/lishilunwen/439.html
0

相关内容

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版