C114讯 12月18日消息(水易)今日,在以“数据重塑价值 智能链接未来”为主题的“2024数据资产管理大会”期间,中国信通院云计算与大数据研究所所长何宝宏发表了题为《下一代数据治理》的演讲。
数据治理能力建设迫在眉睫
据统计2023年我国数据生产总量达到了32.85ZB,同比增长高达22.44%,数据产业规模已达2万亿元。政策方面,国家高度重视数据产业发展,2020年以来陆续出台了10多项政策文件,覆盖数据基础制度、数据整合利用、数据基础设施与数据管理能力建设。
政策和企业自身数字化转型需求推动数据管理能力不断提升,数据治理需求愈发旺盛。同时,随着国家数据局和各级数据管理机构的揭牌运行,我国上下联动、横向协同的数据工作体系基本形成,数据要素相关的政策布局思路也日渐明确。
何宝宏表示,“如何确保数据供得出、流得动、用得好,更好发挥数据要素作用”成为了数据要素发展的核心主线。数据的跨主体流转和使用依赖于企业的数据治理能力,跨主体数据标准、数据质量、数据安全体系的建设迫在眉睫。
与此同时,以大模型为代表的强人工智能应用正在对社会各界产生颠覆式的变革,对科技、金融、医疗健康等各个领域产生了深远的影响。
通用人工智能的发展,离不开数据的支持,大模型使得数据与算法的边界更加模糊,数据嵌入到了模型的生成中,数据质量与安全直接影响模型结果,面向人工智能开展数据治理成为了企业关注的新课题。另外,在人工智能技术的加持下,Text to SQL、ChatBI、智能化数据治理等应用百花齐放,数据治理开始由劳动密集型工作向自动化、智能化转变。
何宝宏指出,随着数据要素市场的蓬勃发展和人工智能技术的快速迭代,企业数据治理面临管理效能、人员协同、多模数据管理、高质量数据集建设等挑战,急需新的方法和技术来应对,下一代数据治理体系应运而生。
下一代数据治理体系架构基本形成
何宝宏介绍,在产业各方的协同下,下一代数据治理体系架构已经已基本形成,总体呈现出治理对象全域化、研发模式工程化、治理技术智能化、数据架构分布式、数据安全纵深化、数据管理价值化六大趋势。
趋势一:全域数据治理。全域的数据治理涵盖了结构化数据与非结构化数据。人工智能已经从“卷算法”向“卷数据”转变,通过对训练数据开展治理,从而形成可信的训练数据集是人工智能发展的必然选择。通过关注对非结构化数据的治理、合成数据的治理,研究配套的的方法论体系、技术平台以及标准规范,进而形成质量高、安全牢、观点正的可信数据集。
中国信通院依托大数据技术标准推进委员会,发布业界首本《面向人工智能的数据治理实践指南(1.0)》。同时,围绕非结构化数据管理、合成数据等方向,TC601还在持续开展研究和标准化工作,推动我国数据治理工作向全域化发展。
趋势二:数据研发模式工程化、敏捷化。数据驱动时代,业务需求快速变化,数据处理流程纷繁复杂,企业必须处理好旺盛数据需求与数据生产力不足之间的矛盾,革新数据开发流程,加大数据供给力度,从而更好地响应需求、赋能业务发展。
DataOps是一种新的数据开发模式,通过构建高效协同机制,建立精细化数据运营体系,打造规范化、一体化的数据开发流程,实现数据产品高质量与高效率地交付。
依托DataOps标准,中国信通院开展了DataOps能力评估,已经在移动、联通、农行、工行等十多家机构落地,以评促建,帮助企业构建敏捷、精益地数据工程能力。未来,工作组还将结合各行业特征开展多个行业标准的制定,围绕全域数据工程体系开展理论研究、标准研制工作,为社会发布最新的研究成果。
趋势三:数据治理技术智能化。据观察,企业中的数据治理是劳动密集型工作。“智能化数据治理”旨在借助人工智能技术手段开展数据治理工作,利用智能化技术在语义理解、逻辑推理、智能生成等方面的优势,帮助企业优化治理流程,提升治理效率及效果。
中国信通院认为,未来“数据治理Agent”将是智能化数据治理成熟形态。一是具备灵活的适应性,可以通过外部接口灵活响应外部监管要求。二是以任务落地为导向,帮助企业实现治理动作智能化实施。三是可通过对企业知识库的学习对企业偏好形成认知,并通过反馈不断优化治理方案规划,帮助企业智能决策。
趋势四:数据架构分布式化。企业数据架构管理以企业内所有数据为管理对象,对数据的静态结构和动态特性进行管理,对数据的定义、分布、集成、整合等进行规划、管控和应用,确保数据与业务需求保持一致。
数据编织是一种分布式数据管理的架构理念,支持对数据跨平台、跨域的灵活集成。采用逻辑集中、物理分散的管理方式,实现在正确的时间,从任意位置,将正确的数据与正确的人连接起来的终极目标。数据编织有以下特点:一是适配多源异构的数据来源;二是具备非常巨大的数据存储容量;三是采用分布式的数据管理架构;四是支持AI协同的自动化能力。
另外,数据编织还可以作为企业数据空间的底层技术,实现多主体数据的逻辑统一管理。依托大数据技术标准推进委员会,国内数据编织的理论研究、技术标准制定等工作已经陆续开展。未来还将进一步联合各界的专家学者共同完善数据编织的理论体系、标准体系以及标准验证工作。
趋势五:数据安全纵深化。随着三法两条例的发布实施,我国数据安全治理体系已经基本完善,企业数据安全能力建设从体系建设向场景化建设发展,数据分类分级、数据安全风险评估等工作正在如火如荼地开展。
另外,人工智能的发展给数据安全带来了新的机遇与挑战。一方面,人工智能技术的蓬勃发展,为数据安全领域带来了前所未有的机遇。另一方面,数据作为大模型训练的重要燃料,在模型生成、训练、精调等过程面临数据窃取、数据泄露、数据篡改等一系列数据安全风险。
趋势六:数据管理价值化。在数据要素政策逐步完善、数据交易市场日趋成熟的背景下,企业以释放数据价值为导向开展数据资产化路径探索,量化数据资产、赋能业务价值、预期经济收益,明确数据资源入表流程、成本核算机制,推动数据从资源化阶段向资产化阶段发展,充分释放数据资产价值。
2024年是数据资源估值和入表的“元年”,中国信通院和中国联通集团合作了“数据要素价值管理与实践”研究报告,从成本投入、内部收益、外部收益全面评估了数据价值,指导企业进一步深化数据应用、优化数据管理模式。
数据入表方面,截至到今年第三季度,已有50多家企业入表,累计入表金额超过15亿元,其中三大运营商入表规模占比很高,也是央企中率先开展入表披露的企业。
数据交易流通方面,场内数据交易日趋规范,场外流通依然活跃。企业也在构建更多对外能力,比如建行的产融平台、中国电信集团的“星海”大数据品牌都已良好运营,全力向数据要素型企业转型升级。