核心择要:

2022年中国面向人工智能的数据治理行业研究申报_数据_数据治理 绘影字幕

管理需求热潮:企业在数字化转型过程中先培植后管理的常态,使得数据管理愈发受到企业重视,另一方面,新兴技能与运用处景的快速落地,也带领数据管理需求在加速攀升。
未来,随着非构造化数据的积累增加与AI运用的数据需求推动,企业对非构造化数据的代价化需求将加速开释,而多源异构数据根本下的数据管理模块也将得到进一步的关注与优化。

管理体系升级:目前传统数据管理体系多勾留在构造性数据化管理事情,尚难知足AI运用对数据的高质量哀求。
企业可接管传统体系的聪慧沉淀,以AI运用数据需求为核心,优化培植“面向人工智能的数据管理”体系,显著提升AI运用的规模化落地效果。
依托于数据与AI模型的紧密关联,数据管理与AI运用产品已逐步开展交汇领悟,厂商参与更加多元,咨询公司、数据做事供应商和人工智能产品做事商三方阵营构建行业竞合格局。
2021年面向人工智能的数据管理市场规模约为40亿元,估量五年后规模将打破百亿。

管理实践洞察:本篇报告选择金融、零售、医疗和工业四大范例行业为切入点,剖析呈现各行业的信息化培植阶段与高频高代价的AI运用处景,并基于高频高代价AI运用引发的数据管理需求,对面向人工智能的数据管理体系搭建给到培植辅导,同时对数据管理陷阱与发展趋势给到洞察剖析:1)企业需避免落入“数据埋点大而全”的管理陷阱;2)供需两侧需共同担保数据管理体系培植后的运营流转;3)企业需建立符合管理现状及发展需求的数据安全管理框架,确保数据全周期的安全与合规;4)联邦学习技能可带来数据安全合规线内的共同富余;5)数据的“自治与自我进化”成为未来数据处理发展的必由之路,为企业打造“管理+AI”体系的良性循环。

数据:范围界定

信息经济的“货币”,早已不限于数字形式

数据的代价被不断认可,“数据资产化”已经成为了企业发展的主要组成部分。
长期以来,数据被理解为以数字形式存储的信息,而目前技能可以丈量更多的事宜和活动,人们可以网络、存储并剖析这些不被视为传统数据的各种信息,如邮件、图片、音***等。
数据可根据其特性及管理方法差异划分为内部数据与外部数据,构造化数据、非构造化数据与半构造化数据,元数据与主数据等。

数据量:爆发式增长

根本举动步伐“扩容”、IoT 广泛连接带来的数据量暴涨

数据时期来临,数据量的暴涨为企业数字化供应了根本支撑,大量的业务数据能够被采集、存储并终极创造经济效益。
而很多企业在前期的信息化培植中,缺少统筹方案,为办理当下业务问题而按照垂直的、个性化的业务逻辑独立采购与支配IT系统,导致企业内部形成多个数据孤岛。
数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据代价。
这种先培植后管理的常态,使得数据管理越来越受到企业的普遍重视,另一方面,新兴技能与运用处景的快速落地,也带领数据管理需求在加速攀升。

数据管理:需求开释

管理需求普遍存在,非构造化数据成为代价挖掘的重难点

企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和利用中的问题,而数据管理的需求与繁芜度也会随着企业数字化程度提升而增加。
从企业内部的数据类型来看,非构造化数据占企业内数据总量的80%,却仅占整体利用率的30%,长期以来其代价未得到充分有效利用。
未来,随着非构造化数据的积累增加与AI运用的数据需求推动,企业对非构造化数据的代价化需求将加速开释,而多源异构数据根本下的数据管理模块也将得到进一步的关注与优化。

数据管理:范围界定

数据管理为实现企业数据运用做事的主要环节

数据管理以数据源汇入为伊始,对数据进行洗濯加工,并在数据存储、数据打算、数据做事运用等环节予以持续的管理做事,是企业实现数据做事与运用的主要环节。
从数据层面来看,数据本身存在着从生产到消亡的生命周期,而数据管理会在数据生命周期的各阶段通过相应工具与方法论进行规范与定义,在企业内部构建出切实有效的数据闭环,使数据发挥出更大的代价。

数据管理:体系架构

结合企业的特点及需求,设计符合企业哀求的数据管理架构

虽然业界对数据管理的定义不尽相同,但涉及的数据架构模块大体同等,核心包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据做事与数据安全管理模块。
依托于企业对数据管理的侧重点不同,数据管理体系与架构也会根据企业所在的行业特点、经营性子及信息化程度的不同而有所差异。
在实际设计时,一方面,企业可参考前辈体系框架与行业最佳实践,另一方面,企业也需从实际需求与发展须要出发,设计搭建适宜自身情形的数据管理架构。

AI运用规模化

AI技能创新运用大规模落地,带动大数据智能市场发达发展

近年来,随着新技能模型涌现、各行业运用处景代价打磨与海量数据积累下的产品效果提升,人工智能运用已从消费、互联网等泛C端领域,向制造、能源、电力等传统行业辐射。
各行业企业在设计、采购、生产、管理、营销等经济生产活动紧张环节的人工智能技能与运用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以实现家当地位提高或经营效益优化,进一步扩大自身上风。
AI技能创新运用的大规模落地,带动了大数据智能市场的发达发展,同样也为底层的数据管理做事注入了市场活力。

大数据智能市场的行业规模

2021年市场规模约为553亿元,金融数据率先得到代价开释

据艾瑞咨询统计测算,2021年涵盖大数据剖析预测(机器学习/深度学习模型)、领域知识图谱及NLP运用的大数据智能市场规模约为553亿元,估量2026年市场规模将达到1456亿元,2021-2026CAGR=21.3%。
随着市场大数据根本的完善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性培植与增量市场逐步完善的大背景下,大数据智能市场增速会涌现低落趋势。
从细分构造来看中,金融领域的数据代价率先得到开释,市场规模占比高达32%。

大数据智能市场的投融资热度

融资规模稳步提升,事宜数量创历史新高

从2011-2021年的投资数量来看,成本市场对大数据智能市场的关注度不断提高,融资事宜逐年攀升,2021年大数据智能市场单年投融资数量已高达99起;从2011-2021年的融资轮次来看,C轮及早期投融资事宜占比达到50%。
受政策的高度支持与技能的成熟推动,大数据智能运用在多行业的成功落地极大地增强了市场与投资者的信心,“大数据智能”标签已成为市场创业与投资的热点,具备市场想象空间与明确利用代价是企业早期吸引投资的关键。

面向人工智能的数据管理:需求传导

人工智能运用引发的数据管理需求

企业在支配AI运用时,数据资源的利害极大程度决定了AI运用的落地效果。
因此,为推进AI运用的高质量落地,开展针对性的数据管理事情为紧张且必要的环节。
而对付企业本身已搭建的传统数据管理体系,目前多勾留在对付构造性数据的管理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难知足AI运用对数据的高质量哀求。
为担保AI运用的高质效落地,企业仍需进行面向人工智能运用的二次数据管理事情。

面向人工智能的数据管理:反复管理

面对反复的管理事情,搭建针对性体系办理重复性环节

数据管理在人工智能项目的履行中花费90%以上的精力,而面对企业的年夜家工智能项目,在AI数据层面多存在反复管理事情,极大拉低了AI运用的规模化落地效率。
借助有效的方法论和实用的工具提高数据管理的效率,是企业管理数据资产与实现AI规模化运用的主要课题。
搭建面向人工智能的数据管理体系,可将面向AI运用的数据管理环节流程化、标准化和体系化,降落数据反复准备、特色筛选、模型调优迭代的本钱,缩短AI模型的开拓构建全流程周期,终极显著提升AI运用的规模化落地效率。

面向人工智能的数据管理:体系搭建

接管传统体系聪慧沉淀,以AI运用数据需求为核心优化培植

面向人工智能的数据管理是传统数据管理体系在以AI运用落地为导向下的体系“升级”。
从数据管理维度来看,面向人工智能的数据管理体系仍会根据数据构造化流向、数据资产管理须要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。
而在数据管理过程中,则会更强调底层实现多源数据领悟、数据采集频率、数据标准建立、数据质量管理,知足AI模型所需数据的规模、质量和时效,以AI运用的数据需求为核心,优化对应模块的体系培植。

面向人工智能的数据管理:数据准备

基于AI模型需求明确数据的特色准备、实时与否和闭环流利

从搭建流程来看,AI模型可大致分为离线演习和上线推理两个阶段。
离线演习时,需基于AI模型运行目的确认数据采集来源,选择数据对应的韶光间隔和韶光节点,让AI能够在离线建模及上线运行后获取真实业务数据,模型演习效果能够保质保量落地。
如果模型须要AI数据的实时接入,还需打造批流一体式的产品体系。
基于实时数据处理、实时特色开拓和实时运用开拓等数据架构搭建批流一体的数据产品,将流式数据的接入实时反馈到模型运行输出,使模型结果更加及时准确。
其余,AI模型上线后,需达到AI数据的闭环流利,通过打造数据采集和回馈剖析的闭环式自学习体系,达到AI模型上线后的持续迭代优化。

面向人工智能的数据管理:数据质量

对应AI运用的高质量哀求,唤醒沉睡数据,挖掘核心代价

多源异构数据的质量管理体系可从数据有效性、数据同等性、数据唯一性、数据时序性、数据完备性、数据完全性、数据合理性和数据准确性六个维度建立。
个中,传统数据管理体系同样会高度关注数据的有效性、同等性和唯一性,但当数据管理范围扩大到多源异构数据时,需在数据领悟过程中对这三个维度进行重新判断。
数据时序性是对数据韶光维度的质量哀求,考虑数据接入的实时性和如何选择数据的韶光间隔;数据完备性哀求数据需符合多维度字段特色以知足建模,数据完全性则对数据从历史到上线反馈的完全性接入以达到优质闭环;数据合理性和数据准确性则是对数据本身表达的更高质量哀求。
传统数据管理体系为做数据可视化和数据基本剖析运用做事时,不会过多考虑到数据分布是否合理及表达内容是否准确等问题。
然而在AI模型开拓演习时,数据的合理分布和准确表达极大程度上决定了AI模型的剖析决策效果,因此在面向人工智能的数据管理体系中,数据合理性和数据准确性的质量评估是体系需重点关注提升的维度模块。

面向人工智能的数据管理:数据标准

为AI模型开拓供应“同等的数听说话”,实现数据复用共享

数据标准是数据管理事情的开展根本,为AI模型开拓及运用供应“同等的数听说话”。
在面向人工智能的数据管理体系中,数据标准的建立仍是数据实现共享流利、代价挖掘的核心环节。
企业根据对应的国家标准、行业标准、地方标准等规范,结合自身情形和业务术语参考,以AI运用需求圈定的数据范围为管理导向,构建干系根本数据标准、指标数据标准和数据模型标准,形玉成局统一的数据定义与代价体系。

面向人工智能的数据管理:特色管理

将多源异构数据源转化为机器可理解的“构造化数据”

在圈定AI数据源范围并接入相应数据后,特色管理中台会对数据进行预处理,基于AI运用的数据哀求处理缺失落值、非常值、重复值和数据格式等问题,而后经由特色工程转化为人工智能模型可理解的构造化数据。
在特色化工程环节中,面向人工智能的数据管理体系可浓缩沉淀业务场景中的数据管理和模型开拓履历,对AI数据形式进行标准定义,搭建特色管理中台,将特色工程环节标准化、自动化、智能化,快速对接得到可被机器理解的优质构造化数据,投喂给AI模型。

面向人工智能的数据管理:效果优化

显著提升AI运用的规模化落地效果

数智领悟家当带来多元厂商参与

数据管理与AI运用开展交汇领悟,厂商参与更加丰富多元

依托于数据与AI模型的紧密关联,数据管理与AI运用产品已逐步开展交汇领悟,展现“由数据管理到开拓AI运用平台/产品”与“AI运用平台/产品开拓到面向AI的数据管理”的两路发展方向:1)数据管理厂商在积累数据履历与AI模型理解后,为实现业务拓展而将领域从数据层延伸至AI运用及平台开拓层;2)从事AI运用及平台开拓的AI厂商,也会在数据管理履历不断丰富的背景下,动手向底层开展面向AI的数据管理业务,依托于自身AI技能与业务理解,让面向AI的数据源更加契合AI运用模型哀求以提升模型拟合效果。
因此,面向AI的数据管理从业者不仅仅为数据管理厂商,更包括浩瀚AI企业,参与者更加丰富多元。

数智家当生态圈的受益节奏

三方阵营厂商构建行业竞合格局

AI运用的加速落地带来的大量数据管理需求,吸引浩瀚厂商参与个中。
从行业厂商类型来看,紧张包括咨询公司、数据做事干系供应商和人工智能产品供应商三类。
各种厂商根据自身业务特点和切入办法得到差异化的竞争上风,而由于面向人工智能的数据管理做事的参与立足点丰富,厂商之间可能基于同类业务展开竞争,同时在差异化领域进行互助,形成竞争与互助高度共存的行业格局。

数智家当生态圈的参与立足点

“智”为面向人工智能的数据管理做事的核心立足点

面向人工智能的数据管理做事常包含于数据做事、平台能力和数据产品三类采购形式中。
第一类,数据做事即以单独的数据管理产品形式涌现;第二类,数据平台,紧张包括大数据平台、数据中台、数据仓库和AI能力平台等项目;第三类,数据产品,范围限定在运用AI算法的数据产品,可划分为机器学习产品、自然措辞理解产品和知识图谱三类AI产品。
为担保AI算法模型的优质运行效果,更好地供应预测、决策、推举和风控等产品功能,须要对算法模型的演习质料,即支持AI运用的底层数据,进行针对性优化管理。
如今AI产品需求兴旺,AI开拓平台陆续推进AI产品的规模化落地,且AI数据管理效果与终极平台产品交付效果紧密相连,AI运用驱动成为面向人工智能的数据管理做事的核心立足点。

面向人工智能的数据管理:市场规模

2021年市场规模约为40亿元,估量五年后规模打破百亿

2021年中国面向人工智能的数据管理市场规模约为40亿元。
受数据平台做事、数据管理做事和AI运用培植的需求推动影响,面向人工智能的数据管理市场规模将持续上升,2026年打破百亿,达105亿元,2021-2026CAGR=21.3%。
2021年,中国数据管理市场规模约为121亿元。
作为数据做事的根本事情,中国数据管理市场规模将保持上扬态势,估量2026年市场规模达到294亿元,2021-2026CAGR=19.5%。
从发展曲线来看,中国数据管理与面向人工智能的数据管理市场规模增长均处于良性区间,共同巩固干系管理家当生态圈的向好形势。

面向人工智能的数据管理:机遇路径

契合客户的数据根本和AI运用需求的多元化选择

从数据根本的维度划分,可将企业分为数据原生企业与非数据原生企业。
数据原生企业每每不须要信息化、数字化转型,所要做的即为让数据共享流利的规范式管理。
非数据原生企业天然缺少以软件和数据平台为核心的数字天下入口,每每要进行企业的数字化转型,需通过数字化转型程度与数据管理阶段判断非数据原生企业的数据根本利害。
面对不同企业类型,可结合企业数据根本与AI运用需求,为面向人工智能的数据管理的体系搭建供应契合路径,完成企业数据体系的进一步升级。

数据埋点的大而全陷阱

抓大放小,从核心数据动手

数据埋点是指针对特定用户行为或事宜进行捕获,处理和发送的干系技能及实在行过程,是数据管理中范围圈定的一环。
出于对投资回报的考虑,客户每每方向于做一个覆盖全业务和技能域的、大而全的数据管理项目,将每个数据都纳入到数据管理的范围中,这就导致进行数据埋点时放肆提需,埋点需求爆炸,给后续的数据管理和数据剖析带来隐患。
为避免数据埋点的大而全陷阱,企业该当做到抓大放小,服膺2/8原则——80%的问题产生于20%的系统和数据——从最核心的系统、最主要的数据、最随意马虎产生问题的地方开始动手做数据管理。

数据管理体系的流转运营

沟通、组织、聚焦、文化

为能充分发挥数据管理的代价、避免一次性数据管理,供需两侧要同心协力,共同、持续、优质地运营数据管理体系。
数据管理是系统性工程,是由上至下辅导,由下而上推进的体系事情。
因此,供给侧企业与需求侧厂商,在体系运营和培植方面需形成共识,具备明确的目标、合理的组织、严格的监管、完善的系统,这样才能使数据管理事情得到保障,达到体系的流转运营。

关注数据管理中的安全合规性

完善数据安全管理框架,确保数据安全合规

数据透露事宜在大数据时期层出不穷,随着行业新网络形态、新技能以及新运用处景的发展,新的数据类型、数据生产办法、数据处理办法和终端形式不断呈现,数据安全寻衅也随之加剧。
国家已出台各级各行业的法律法规及配套文件,不断加大数据安全与隐私保护的监管力度。
对此,企业需建立符合企业管理现状及发展需求的数据安全管理框架,数据在采集、存储、传输、处理上均有对应的实行管理依据,做到挖掘数据资产、发挥数据代价的同时,确保数据全周期的安全与合规。

联邦学习带来数据管理升华

管理升华,数据安全合规线内的共同富余

在数据管理及准备过程中,企业一方面须要尽可能全面的获取数据以扩充演习样本规模,另一方面出于隐私与安全的干系哀求不能随意网络、领悟和利用数据进行AI处理。
为办理以上难题,联邦学习技能应运而生。
联邦学习的建模事理为基于分布在多个设备上的数据集构建机器学习模型,通过安全多方打算、差别隐私、同态加密等技能为模型供应隐私担保以防数据透露。
因此,联邦学习可有效打通企业间的数据孤岛,并将数据可用而不可见,在知够数据安全合规的根本上,通过连通协同发挥出数据的更高代价。
目前,联邦学习技能已成为大数据智能厂商的核心开拓方向,率先在金融、医疗和政务等领域展开运用。

数据的“自治与自我进化”

将数据管理流程化、自动化、智能化

数据规模的指数级增长给数据管理事情带来巨大压力,传统人工办法做数据的洗濯、分辨与调优使管理事情耗时冗长,带来高昂的人力本钱,且愈发难以知足智能运用对数据在规模量与质量的高哀求,传统的人工数据管理事情已变得捉襟见肘。
如今,人工智能和RPA等技能手段已被逐渐运用于数据管理的模型管理、质量管理、资产管理、元数据管理等模块,终极实现数据系统的“自治与自我进化”。
总体来看,前沿技能手段运用可以让数据管理事情趋于流程化、自动化与智能化,同时让数据变得可扩展、更卖力可溯、更可信,已然成为未来数据管理发展的必由之路。

打造“管理+AI”体系的良性循环

相互关联,互为依托,共同促进人工智能运用的内外发展

面向人工智能的数据管理充分利用机器学习技能,将数据管理环节自动化、智能化,可极大提升数据管理事情效率,同时基于自然措辞理解和知识图谱挖掘关联非构造化数据的运用代价,办理数据质量管理的传统难题,使管理后的数据更加契合AI运用的哀求,从效率和质量双侧推进AI模型的落地运用。
同时,AI运用落地效果的显著优化也会给企业带来更多智能化转型信心,让其加大干系AI项目的预算投入,进一步推进了干系管理体系培植,打造“管理+AI”的良性循环。