17327764416

公司动态

Company Dynamics

了解我们的最新资讯动态

联著播客 | 联著高质量数据提炼引擎,迈向高质量数据集自动化构建新征程

        



文稿:



主持人:这次咱们聊聊人工智能领域的发展,特别是高质量数据相关的话题。2024 年信息技术产业大发展,通用大模型产品大量涌现,到了 2025 年,人工智能从技术突破转向规模化落地,应用渗透到更多领域。不过,高质量数据短缺成了大问题,联著实业就研发了‘联著高质量数据提炼引擎’来应对。咱们先说说人工智能产业发展要素的转变吧,早期以通用大模型开发为重心,算力是关键,就像让很多小学生快速学基础知识,对数据规模需求大。但后来发展到以垂直应用为重心,对高质量语料库和数据集需求大增,这背后有什么原因呢?


嘉宾:这背后的原因其实不难理解。一方面技术进步和市场竞争促使人工智能向垂直领域精细化发展,要训练满足特定场景高精度需求的定制化模型,就得有更专业的数据,对数据广度、多样性、深度和针对性要求都提高了。另一方面,数据成为新生产要素,从 2022 年相关意见出台,数据要素建设和市场改革稳步推进,政府也出台政策支持人工智能产业高质量发展,所以高质量语料库和数据集就成了行业优先需求。就好比建筑,之前是大规模盖楼,现在是要盖各种特色建筑,对材料要求就不一样了。


主持人:确实如此。那高质量数据获取到底难在哪呢?先说收集难,高质量语料少,尤其是中文语料,在特定专业领域更匮乏,而且中文语料库电子化、网络化程度不足,还受版权、隐私限制,很多优质的不能公开获取。这就像找宝藏,宝藏本身就少,还藏得严严实实。


嘉宾:没错,还有流通难的问题。优质数据资源碎片化、分散,行业数据涉及敏感信息,中文高质量数据集开放程度低,企业和机构对数据共享谨慎,高质量数据流通机制没形成。这就好比各个地方都有零散的宝贝,但没有一条路能把它们顺畅地运到需要的地方。另外,高质量数据集获取也难,传统数据标注产业能力不足,标准规范缺失,标注以人工为主,满足不了大模型对数据的需求,专业标注人才也少,标注标准不统一,语料库结构差异大,导致高质量语料积累薄弱。


主持面对这些难题,国家也在行动,2024 年 12 月 26 日,四部门联合发布了《关于促进数据标注产业高质量发展的实施意见》,从 13 个方面谋划壮大数据标注产业,提升数据供给质量。而联著实业也通过自身研发,推出了‘联著高质量数据提炼引擎’。这个引擎是在国家标准引领下,利用自研技术对海量中文文本数据进行语义结构化转化,能自动化输出各种高质量数据集,这些数据集准确性、一致性、完整性和可用性都很高,能给人工智能特定领域提供更好的数据支持。这就像是给人工智能打造了一个精准的数据武器库。


嘉宾:不仅如此,这个引擎在大模型训练和数据智能化标注领域作用都很大。在大模型训练中能生成高质量数据集,降本增效提质;在数据智能化标注方面,能批量导入、自动化执行和结果批量导出,比主流方法效率高很多,还提升了数据质量和应用价值。就拿做菜打比方,以前做菜靠人工一点点切菜配料,现在有了个智能机器,能快速又精准地完成这些工作。而且联著实业的多款数据集产品已经在深圳、杭州的数据交易所展示或交易,还取得了多个数据交易相关的证件,未来还会持续投入技术创新优化相关技术,为数据资源开发利用做贡献。


主持人:从人工智能产业发展重心转变,到高质量数据获取难题,再到联著实业的解决方案,这一系列发展清晰地展现了行业的现状和走向。高质量数据的重要性不言而喻,它就像工业生产中的优质原材料,没有好的原材料,再先进的技术也难以生产出高质量产品。而联著实业的‘联著高质量数据提炼引擎’,无疑为行业解决高质量数据问题提供了一种新的思路和途径,也期待未来能有更多类似的创新成果,推动人工智能产业更上一层楼。


嘉宾:是的,未来人工智能产业的发展还充满着各种可能性。随着技术不断进步,相信在高质量数据的获取和利用上会有更多突破。就像一条不断奔腾向前的河流,遇到阻碍就会寻找新的路径,最终会汇聚成更广阔的海洋。今天咱们讨论了这么多,希望能让听众对人工智能领域高质量数据相关情况有更深入的了解。


返回顶部
返回底部