400-028-4501

公司动态

Company Dynamics

了解我们的最新资讯动态

如何加快人工智能技术在档案管理工作中的应用

        

档案数据化工作领域

“数据化”是近年来在档案行业被反复提及的热门词汇。档案数据化旨在将图像、声像等档案中的内容识别成计算机可编辑、处理、分析、检索的信息。OCR技术采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成 文本格式,供文字处理软件进一步编辑加工,是档案数据化工作中不可或缺的基础技术需求。在国家档案局大力实施“存量数字化、增量电子化”战略的背景下,国家档案局因势利导,于2019年12月出台《纸质档案数字复制件光学字符识别(OCR)工作规范》。要求将档案OCR纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化。
基于对传统OCR技术进行人工智能技术赋能的要求,联著实业启动研发增强版OCR技术。新技术不仅囊括传统OCR技术识别图像文字的功能,还增加了针对常见业务中的表格图像、CAD、手写体内容的识别功能,更符合传统档案工作场景的需要,且图像校正、去污、识别能力更强,准确率更高。同时,增强版OCR技术还可与人工智能自然语言理解技术(NLP)相结合,不仅能实现录入文本的全自动著录,还可为这些文本建立全新的信息检索模型,通过增加语义匹配及相应的扩展功能,挖掘词语背后的意义和业务术语之间的各种关联,为后续档案工作各阶段的技术改进提供强有力的基础支撑。

分类工作领域

分类工作是档案管理领域的基础性工作,但由于重视程度不够、专业人员匮乏等原因,该工作一直是部分基层档案部门面临的比较棘手的问题。为通过人工智能技术辅助缺乏经验的档案管理工作人员开展归档分类工作,解决基层档案部门的难点问题,提高归档效率与准确性,联著实业以增强版OCR技术为基础,结合语义工程核心算法,开发“智能语义检索系统”。
该系统支持用户通过自然语言或自定义组合条件方式智能查询,利用分词技术、短语识别、处理同义词等手段,实现不基于关键词的检索,帮助用户快速定位目标文件,同时利用自然语言处理及NLU技术建立专题数据库,聚焦代表性问题,在海量数据中筛选专题档案并进行分析,最终建立知识库,提高信息资源的功能性与服务性。例如,2021年是中国共产党成立100周年,某单位需要运用档案工作服务建党百年庆祝活动,智能语义检索系统根据检索指令,只花费少量时间即可从档案库中精准筛选出全部与“共产党”相关的历史图片、影像、文字、表格,抽取其中的有效信息,系统自动归一化处理,建立“建党100周年”专题数据库,全面记录民族复兴伟大历程,聚焦党的初心使命、奋斗历程和丰功伟绩。

划控工作领域

档案划控鉴定和开放是各类档案馆馆藏档案达到开放年限后经过组织鉴定审查、划控、审核、审批,向社会开放的过程,是档案馆业务建设的基础工作之一,也是一项政治性和政策性很强的工作。这项工作必须根据国家档案法定程序进行,将有用的和可用的档案向社会开放,实现档案信息资源共享,发挥其应有的社会效益和经济效益。
划控鉴定工作难度大、风险高、责任大,且相关专家人数少,标准不统一,在一定程度上阻碍了档案的开放工作。联著实业针对内容合规性开发的“语义智能审查”技术可作为辅助档案管理人员开展档案划控鉴定工作的蓝本。前文提到的增强版OCR技术、智能语义检索系统、构建专题数据库等技术已经可以实现各种格式文件的导入、结构化解析、存储,并根据用户的需求对已经解析存储的文件进行查询和导出。
“语义智能审查”技术在此基础上添加了自定义审查模块,用户可根据实际业务场景在系统内设置自定义审查规则,通过语义分析技术,系统可以将不符合审查规则的内容筛选出来。此技术原本应用于金融行业合规审查,但其原理与档案划控鉴定工作方式高度契合,档案管理人员只需在系统内设置可开放档案的筛选规则库,系统即可按照规则指示,为管理人员展示可供开放的档案信息以及可开放范围,提高档案划控鉴定工作效率。这将是联著实业下一步技术研究发力的重点方向。

当下,人工智能技术的发展已日趋成熟,联著实业适应时代发展,进一步发掘人工智能技术在档案管理工作中的应用场景,加强对人工智能技术的研究与应用,科学运用新一代信息技术加速档案事业战略转型工作。



来源:兑观科技


在线客服
返回顶部
返回底部