数据管理中的文件档案与内容管理白皮书(2023年).pdf

自2017年党的十九大报告中明确提出“数字中国”这一概念之后,数据作

为第五大生产要素,逐渐得到了社会广泛的认可与重视。为了进一步规范数字中国建设,中国中央、国务院于2023年2月印发《数字中国建设整体布局规划》(以下简称《规划》),为构建数字中国提供了顶层设计与整体谋划。依据《规划》,“数字中国”的建设需要夯实数字基础设施与数据资源体系“两大基础”,数据管理对于机构的重要性愈发凸显。

同时,“东数西算”国家战略体系正在全面铺开,为了构建全国一体化大数据中心体系,需要布局包括宁夏、甘肃、贵州、成渝、内蒙古、京津冀、长三角与粤港澳大湾区枢纽等算力网络枢纽,辅以各地数据中心集群,最终实现东西部网络直连,对全国的数据输送与计算进行一体化调度,从而充分发挥数据要素在数字中国构建中的重要作用,赋能数据要素高效流通。

然而,根据国内外多个研究机构的调查,大多数机构中非结构化数据占全部数据的80%以上。数字环境下,大多机构的文件档案管理依赖基于非结构化数据(即本白皮书所称内容)的解决方案,文件档案与内容有着异常紧密的关系。如果说数据是一座煤矿,谁能掌握这座煤矿,谁就能为机构发展提供动能,那么文件档案与内容数据就是潜藏在煤矿深处的钻石,谁能够率先发现这些钻石,谁就能先人一步洞察和刻画机构内外的种种变化,进一步将数据的价值和潜能释放出来。

国际数据管理协会在其标志性出版物《数据管理知识体系指南(DAMA-

DMBOK2)》(第二版)中将文件档案与内容管理放在了数据管理框架中显著的位置,凸显了文件档案与内容管理对于数据管理的重要性。然而,现阶段我国大多数机构管理者和相关人员对文件档案与内容管理的认识尚有不足,文件档案与内容管理在实践中并没有受到应有的重视。文件档案与内容管理的管理范式与一般的数据管理相比也存在较大差异,相关方法和技术工具尚不丰富。面对现状与问题,编写组特别编制了《数据管理中的文件档案与内容管理白皮书》,为行业从业人员、用户及潜在用户和社会相关人员提供文件档案与内容管理涉及的基本概念、效用价值、主要技术、系统功能等通识性知识,以期加强文件档案管理领域和技术领域的对话和合作,推动文件档案管理事业与内容管理行业的共同发展,

此次更新(2023版)更是追随当下的非结构化数据管理发展脚步,与时俱进,为读者提供最新的行业实践与发展趋势。

本白皮书的编制主要参考了《中华人民共和国档案法》(2020)、ISO15489-

1:2016《信息与文献文件管理-第1部分:概念与原则》、GB/T18894-2016《电子文件归档与电子档案管理规范》、GB/T36073-2018《数据管理能力成熟度评估模型》、《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)等法律法规、标准规范和文献材料。

2文件、档案与内容管理的相关概念

2.1文件、档案与文档

从文件档案管理视角来看,文件(records)是指机构或个人在履行其法定义务或开展业务活动过程中形成、接收并维护的作为凭证和具有查考作用的信息,可简称为“业务凭证”。|档案(records/archives)是指形成文件的业务活动结束之后仍然具有保存价值的文件。文档是文件和档案的合称。

从计算机技术视角来看,文件(file)是作为一个单元存储或处理的命名的记录集。2文档(document)主要是指非结构化数据。

除非特别说明,本白皮书使用的文件、档案、文档概念均来自文件档案管理领域。

2.2内容、数据与知识

从信息的角度来看,内容是指以任何形式或载体存在的有含义和背景的信息。在计算机技术领域,内容(content)一般指非结构化数据,是非结构化数据厂商提出的特定概念。在本白皮书中,数据与数字数据同义,是指以数字形式存在的信息记录。按照数据单元被定义的程度,数据一般包括结构化数据、非结构化数据以及介于两者之中的半结构化数据。其中,结构化数据是指存储在数据库里,

可以用二维表结构来逻辑表达实现的数据。非结构化数据是指未通过数据模型预先定义的数据。]

而知识是人们通过实践对客观事物及其运动过程和规律的认识,即被人们理解和认识并经头脑重新组织和系列化的信息,是经验、技能的总结,是组织发展竞争力的基础。在反复实践和认识的过程中,人脑通过对相关概念的判断、组合和推理,形成对事物本质的认识,构成头脑中的知识,可称为主观知识,或者称为隐性知识;如果经过各种载体记录下来,则成为客观知识,也可以被称为显性知识。

2.3文档管理与内容管理

文档管理是一项专业工作,指对文件从生成、处理、流转、归档、移交、鉴定、保存到利用、处置等全生命周期进行管控的领域。手工环境下文件形成过程中的管理和档案管理相对独立,数字环境下文档一体化是文件档案管理的基本要求。

内容管理是一个IT产品分支,支持对非结构化数据进行采集、处理、组织、存储、查询和共享,实现从内容采集、创建、传递到内容分析等整个内容价值链的整合。

从概念来看,文件档案既可能是结构化数据,也可能是非结构化数据。但是在实践中,文件档案管理系统通常采用非结构化数据管理方案,以结构化数据存在的文件或者在归档环节被转化为非结构化数据(比如版式电子发票),以便固化其内容、背景与结构并进行长期保存;或者以数据文件的方式保存在文档系统中,该数据文件可能是多个业务记录的集合体。

虽然内容管理方案是非结构化数据的管理方案,但对内容的管理,需要借助于描述内容的结构化数据(元数据)展开;对内容的分析、挖掘与开发,则需要将非结构化数据转化为结构化数据,这是电子文件数据化的重要任务。结构化数据和非结构化数据,存在互相转化、互相支持、相互协同的关系。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)