编辑 | Tina

比 Spark 快 9 倍超越 ClickHouse在大年夜措辞模型时代构建新数据平台_数据_平台 智能问答

人工智能的迅速发展正在改变着我们的天下,对付大数据企业来说更是如此。

在大措辞模型的引领下,数据平台领军企业 Databricks 和 Snowflake 的未来正在被重新书写。
这两家企业在不久前的发布会上强调了大措辞模型和 AI 能力的主要性,试图通过一体化的办法知足用户的数据处理需求。
与此同时,随着大措辞模型的引入,一样平常企业面临着一个新的寻衅,即如何在现有的数据平台中充分发挥 LLM 的潜力。
在这一大趋势的驱动下,传统的数据平台须要进行相应的补充和优化,而云器科技数据平台 Lakehouse 也在这个机遇崭露锋芒。

云器科技的一体化平台,在数据剖析部分,通过引入新的打算范式——增量打算,统一了流打算、批处理和交互剖析,不同剖析场景下,云器的性能比批处理引擎 Spark 快了九倍,同时超越交互剖析产品 ClickHouse。
在 AI 支持部分,平台同时支持半/非构造化数据存储以及对应的 AIOps,做到 BI+AI 一体化。

我们与关涛进行了深入的交谈,磋商了 Databricks 和 Snowflake 等有名平台的演进,同时聚焦于打算平台的变革与发展。
在人工智能成为一等公民的背景下,他如何看待 LLM 对大数据企业的影响和改变?数据的管理和处理办法是否已经发生了根本性的变革?作为数据库和打算平台领域的威信,他的深刻见地将引领我们深入思考,探索打算平台未来的一些可能性。

采访高朋:

关涛(Tony),云器科技联合创始人/CTO,分布式系统和大数据平台领域专家。
前阿里云打算平台奇迹部研究员,阿里巴巴通用打算平台 MaxCompute、Dataworks 卖力人,层卖力阿里巴巴主线大数据平台。
前阿里巴巴和蚂蚁集团技能委员司帐算平台领域组长、阿里云架构组大数据组组长。
返国加入阿里云之前,在微软云打算和企业奇迹部事情 9 年,主持和参与开拓了包括 Azure Datalake,Cosmos/Scope,Kirin 在内的多套超大规模分布式存储和打算平台。
并著有多篇国内外会议论文和专利。

关涛是 2023 QCon 北京“从 BI 到 BI+AI,新打算范式下的大数据平台”专题出品人,QCon 北京将于 2023 年 9 月 3 日-9 月 5 日在北京·富力万丽酒店举行。

AI 给大数据行业带来哪些影响?

InfoQ:您在21年的采访中给出了数据平台领域一系列趋势预测,比如提到“湖仓一体是一个新兴的方向,但有望成为业界新标准“。
两年之后转头看,当年哪些预测已经实现了? 哪些还没有?为什么?

关涛: 两年前,我们从四个方向上做了一个趋势预测:离线到实时的全频谱;湖仓一体新架构;IoT 数据成为新增长点;AI 将成为数据库、数据平台的一等公民。

现在我们可以来看看当时的预测,哪些方向相对是准确的。
首先,离线到实时的全频谱,是比较明确的方向(这也是云器科技的方向)。
当下无论是存储领域的 Delta、Hudi、Iceberg,还是实时化数据处理领域的 Databricks、Snowflake,都在追求这一方向,以支持更全面覆盖的流批交互能力,而不是聚焦在单一方向的优化上。

其次是湖仓一体。
两年前可能还是探索性方向,但如今海内已有更多实践将数据湖和数据库上风结合起来,这在一体化方向上得到了认可,特殊是随着人工智能的兴起,数据湖的优点被放大,与数据仓库不相上下,追求两者的上风已成为一个原则。

然后 IoT 成为新的热点,我以为对了一半。
随着智能制造和智能汽车的兴起,这些领域的大规模数据正成为新的发展方向,是目前数据产生端最大的增量。
但 IoT 数据采集和处理,目前仍处于早期阶段,毕竟大多数企业没有支配很多 IoT 类设备,干系运用也在早期。

末了还有一个很明确的趋势:AI 将成为数据库、数据平台的一等公民。
在大措辞模型爆火之前这个趋势还不足清晰,剖析仍旧是数据平台最主流的方向。
大措辞模型涌现之后,人们将 BI 和 AI 视为并列的能力,乃至对 AI 的潜力期望更高。
因此,许多平台都在声称拥有 AI 支持能力,无论是 Snowflake 还是 Databricks。
在不久的将来,所有平台可能会考虑填补这种能力的不敷,例如半构造化数据的存储和向量检索等,这一方向已经很明确。

InfoQ:LLM 是目前的热门话题,您认为 LLM 的到来,能给大数据企业带来哪些改变?

关涛: 大模型给企业带来的改变范围很广。
它可以帮助企业取代许多人的事情,例如数据开拓、数据调优、数据库管理员(DBA)等。
乃至在客服领域,大约百分之七八十的事情已经被机器替代了。
许多重复性事情,如根本的预算管理、低级的技能核验,乃至审计和财务事情等,都可以在一定程度上通过大模型赞助完成,从而提升事情效率。

另一个方面,大模型的成功依赖于三个要素:模型、数据和算力。
模型目前比较同质化,算力取决于资金支持能力,而数据反而成为至关主要的成分。
拥有优质专业的数据能够使模型更加精准。
因此,如果某个企业在数据领域具有独特的上风,昔时夜模型时期来临时,它将具备额外的竞争力。

举个例子,之前 Bloomberg 公司发布了一款名为“BloombergGPT”的大模型,专注于***和财经领域。
由于在这个领域积累了丰富的数据,其天生的大模型在知识深度和逻辑构造方面更为优胜。
这使得他们能够为客户供应更有代价的做事,从而得到更多收益。

其余,大模型在交互方面有着出色的表现。
我们所评论辩论的大型模型实际上是措辞模型,它最善于于以自然措辞的办法进行交互,你可以用措辞提问,它以措辞办法回答。
大型模型在交互方面可能是其紧张运用领域。
但在这个领域内,它可以带来很多改变。

以是这个问题的答案,即大模型给企业带来哪些改变,是有三个紧张改变。
首先,它可以大幅提升效率,可以成为大数据企业的核心计策;第二,如果你拥有优质独特的数据,结合大模型,可以带来额外的核心竞争力。
第三,大幅降落利用数据平台的门槛(通过自然措辞和数据平台交互),数据平台可以打破原有的限定,开放给所有人,例如高管可能不会写 SQL 或编程,但通过大模型,可以轻松与系统进行沟通。
这种转变可以使企业从只有 20%的人能够利用数据平台提升到所有人,效率的提升是巨大的,乃至可以说是颠覆性的。

InfoQ:GPT 浪潮到来之后,对付一样平常企业来讲,要想让企业数据结合 LLM 并发挥出数据的代价,传统的数据平台最须要补齐的环节是什么?为什么?

关涛:从大的逻辑上来说,须要将 AI 作为核心功能融入数据平台。
以往很多数据平台将剖析或 BI 作为唯一设计目标,现在须要将数据与 AI 结合,将 AI 也作为一等公民。
这是一个较大的转变。
数据平台架构须要进一步升级,同时能扩展 BI+AI。

详细而言,首先是存储层面,须要额外支持半构造化和非构造化数据的处理。
其次,在数据管理方面,须要支持所谓的“异构”数据管理能力,涵盖非构造化和半构造化数据的统一管理。
第三,保持数据的开放性,支持多种引擎对接。

第二个方面是打算层面,须要支持根本的功能,例如针对大型模型的打算。
这涉及一些细节技能,如向量存储和向量检索的能力。
此外,还涉及到处理非构造化数据,如图像数据的识别和净化数据的打通,以及在打算层面针对大规模的 Finetune 和向量检索。

末了一点是保持架构的开放性,能够有更好的插件化体系。
目前 AI 链路还在快速演进中,变革很多。
企业根本举动步伐须要能保持灵巧性。
插件化体系本身可以通过 UDF、FunctionCompute 或者专门的 PipelineManagement 系统来办理。

特殊的,对付 LLM,目前针对 LLM 运用的组件已有很多,比如 LangChain、向量数据库、LLM runtime,这些组合可以很随意马虎搭建起来一个端到端 LLM 做事链路。
很多新兴的更易用的 LLMOps 组件都在呈现,比如Lepton.ai, XInference。

为什么须要一套新的系统?

InfoQ:与盛行的开源产品 Spark/Flink/Clickhouse、以及 SaaS 化的 Snowflake 比较,云用具备的技能差异点是什么?

关涛:云器科技 Lakehouse 是通过基于增量打算范式的一个引擎覆盖批、流、交互三种范例场景,并通过类似 Snowflake 的 SaaS 模式给客户供应做事。

题目中的三个开源产品,它们分别代表了数据剖析领域三种主流的打算形式,总结为批处理、流处理和交互剖析。
这三个模式常日组合在一起,形成一个较为完善的数据剖析平台。
这种组合在开源领域中是一个范例的形式,称之为 Lambda 架构。

Lambda 架构存在架构繁芜、数据存储、管理、语义分歧一等诸多问题。
而云器在技能方面的上风是通过一套系统来冲破这种组合式架构,实现数据存储的统一、数据管理的统一、用户语义的统一、开拓体验的统一,以及提高效率、降落本钱的效果。

与 Snowflake 的比拟,首先是相似之处,我们都是基于 SaaS 模式供应做事。
通过云上的即开即用模式为客户供应做事。
与开源模式不同,用户不须要购买硬件、支配和运维。
SaaS 化的办理方案用户无需担忧这些事务。

与 Snowflake 的不同之处在于,Snowflake 还是更偏数仓,对数据湖的支持相对较弱,紧张联邦查询上做了一些事情。
云器从设计之初就基于原生 Lakehouse 的新架构,这种新架构不仅仅适用于数据剖析,还支持其他不同的事情负载。
另一方面,Snowflake 更倾向批处理,交互剖析在其次,并且险些没有流的能力。
而云器系则致力于将流处理、批处理、交互剖析这三条线都统一起来。

InfoQ:那么云器是重新开拓了一套系统吗?

关涛: 对,全体系统都是从零开拓的。
我们引入了一个新的打算范式,称为增量打算。

一体化是我们第一天就追求的设计方向。
通过剖析已有的批处理、流打算和交互剖析三种打算范式,它们各自有自己的优化方向和设计模式,有不同的存储打算表达,无法彼此取代。
详细的差异可以看下面这张表格。

因此,我们提出了第四种新的打算办法,即增量打算。
我们希望通过增量打算来统一这三种传统打算模式,终极形成一个一体化的引擎。

InfoQ:业界也有基于 Flink 的增量入湖办理方案?

关涛: 对,Flink 是比较早去考试测验做一体化的办理方案,并且提出过“流批一体”的口号,目前看落地案例并不太多。
这实际上是由于流处理和批处理的打算办法不同,存储系统也不同。

云器的方案,我们通过通用的打算办法来统一流批交互模式,然后我们利用一套通用的存储来支持全体存储层面。
这个存储的形态是湖仓一体的增量存储,是一种通用增量存储。
它和顶层的打算引擎是一个相互支撑的关系。
通用的增量存储不仅仅能为我们之前谈到的支持增量打算的统一数据剖析引擎供应做事,还可以支持其他的 AI 引擎。
这便是我们的目标,也是与其他产品的不同之处。

InfoQ:您能更详细的阐明一下性能提升的事理吗?

关涛: 首先是根本引擎的能力。
当前数据剖析引擎架构选型已经比较稳定,比如向量化引擎、完备的列式存储、存算分离的设计、基于代价的优化器,采取了 Native 的代码等方法。
这些都表示在我们的产品中(紧张措辞为 C++)。
这些特性担保我们引擎性能达到高水平。

但上述技能,我们认为不算创新,是 State of the art 的水平,是我们的根本能力。
创新来自于下面几方向:

除了这些根本能力之外,我认为刚才提到的增量打算是一个关键方向。
通过增量打算,我们在进行打算时可以考试测验记住先前已经打算过的部分,而无需再次打算。
这些先前打算过的部分每每可以表示为归天视图或者 Result Cache。
这些归天视图可以在透明的情形下被用户的查询引用。
举个例子,当用户发出查询时,如果已经打算过的结果被保留,而且只需打算新增加的部分,这将极大地提升引擎的性能。

此外,我们还拥有一种称为“AI4D”的技能。
我们可以通过 AI 学习的方法优化数据存储和打算。
例如,你常常对两张表进行 Join 操作,这些打算是重复的,那就可以被估量算起来。
当估量算的结果知足你的查询条件时,可以直接返回。
实际上,这也是一种增量打算,只是加入了智能化的数据打算和准备过程。
是一个 Learn based 过程,通过 AI 的办法自动化的优化。
通过这种自动化的优化办法,同样可以大幅提升性能。
而且这种优化可以对用户透明。
可以理解成数据平台的自动驾驶(Autopilot)。

总结一下,我认为我们在引擎的实现方面险些达到了当前业界最好水平,他是个根本。
但更大的提升潜力紧张集中在两个方面:第一,增量打算,在打算范式上的创新;第二,AI4D 自动优化的创新。
这两者的提升都能极大地提升性能,并有好的潜力。

InfoQ: 这样的架构是否已经有落地,实际效果如何?

关涛: 是的,我们已经在一些客户中得到了运用。

我们的产品有几个紧张卖点能得到客户认可。
首先,许多企业认为选择更轻的 SaaS 架构是一个好选择。
客户认为当前开源自建架构已经不能带来技能前辈性和差异化,同时自建架构须要重资产投入,包括硬件和团队,这种模式已经老旧。
比较之下,云器的轻量化、多云的云中立的 SaaS 模式更具吸引力。
许多客户正是出于这个缘故原由而选择我们。

其次是在性能方面的表现。
无论是批处理、交互还是流处理,比拟现有系统,我们都实现了显著的高性能。
例如,在批处理方面,我们的性能比 Spark 快了九倍。
在交互问题上,我们的性能也可能比市场上最精良的产品 ClickHouse 更快一些。
这些性能提升对许多客户来说都是非常关键的,尤其是当性能提升达到倍级水平时。

末了便是许多客户对我们试图办理 Lambda 组装式架构带来的一系列问题感兴趣,认为这是我们的核心打破点,以为这是很好的技能创新。
他们在当前架构上能够切身体会到,Lambda 架构将几个不同打算引擎组合在一起可能会引发各种问题。
云器通过一体化引擎统一数据剖析平台,使得用户在须要调度业务时,可以在不同的打算范式之间灵巧切换,这种模式对他们非常有帮助。
例如,在海内一家有名的智能制造新能源汽车厂商中,POC 测试结果显示云器平台能够以非常低的本钱实现全链路实时化,他们对这个效果非常满意。

大措辞模型时期的数据平台

InfoQ:BI 和 AI/ML 正在逐渐领悟,一些企业想供应一站式做事,但从数据库角度入手对数据管理有上风,从湖仓出发则更利于机器学习,那么用一个平台结合这两方面的上风,其寻衅紧张来自哪里?

关涛: 我认为紧张的寻衅来自若下几个方面。

首先是系统解耦/开放与高性能的平衡。
我之条件到,很多数仓系统是存储与打算一对一的系统,其存储就针对上层的打算做专门优化来做到高性能。
然而,如果我们希望支持多种不同类型的事情负载,比如存储系统同时支持剖析引擎和 AI 引擎,存储与打算的解耦和开放性就非常关键。

这里难点在于解耦和开放的同时能连续保持高性能。
实现这种模块间的解耦,在同时追求高性能的平衡上是相对困难的寻衅。
这便是我认为的第一个方面。

另一个寻衅是两种打算模式的联动。
数据剖析领域 SQL 是主流措辞,AI 领域 Python 最盛行,如何方便地编程两种系统,是关键寻衅。
SQLML、SQL+UDF 内嵌 Python、Python 的 SQLAlchemy 库、原生 Python 接口等都是选择。

末了一个寻衅是新的面向 AI 的数据链路。
之前数据剖析 BI 的全链路比较成熟,数据集成、ETL/ELT、建模、剖析、BI 等模式清楚。
AI 链路正在重新构建中,组件和模式与 BI 都不相同。
这部分对业界都是新课题,目前有非常多的框架/平台在考试测验。

InfoQ:要支持 BI+AI/ML,乃至是 LLM,数据平台也须要逐渐支持 OLAP、OLTP、流、Graph、向量?兼容这么多种类的话,您认为比较好的办理方案会是什么样的?

关涛: 一体化有天然的架构大略的上风,是技能领域的“圣杯”。
业界一贯未停滞探索。

如果我们把数据领域分成 OLTP、OLAP、AI 三个大方向,我认为,OLAP 数据剖析领域内的范例场景基本固定,Lambda 架构问题业界有明确共识,一体化架构统一所有剖析类的 Workload 是未来方向。
这也是云器在考试测验的方向。
从我们当前的探索和实践来看,流处理、批处理和交互,这三类打算范式是可以被统一处理的。

OLTP 与 OLAP 的一体化,HTAP 也是业界方向。
部分产品在这个方向发力,也有很多客户落地场景。

OLAP+AI 一体化是目前的热点,这两类数据的重合度以及交互的诉求都够强。
Databricks 一贯主打这个方向,它一贯坚持 Data+AI 的计策。
Snowflake 从 OLAP 领域出发,最近也在加速同时支持 AI 的布局,比如一贯在发力的 SnowPark。

就云器科技本身的定位,是用单一引擎的办法统一 OLAP 中三个打算范式。
同时通过 Lakehouse 架构支持 AI 的能力,支持 SQL 与 Python 稠浊编程,支持插件化的 AIOps 支持。

InfoQ:在“兼容 AI”的哀求下,数据平台发展得越来越繁芜,那么考量一个平台的好处紧张看哪些方面?

关涛: 个人认为可以按照如下办法评价。

首先是数据的全频谱。
存储平台能否存储和管理全域数据。
就像之条件到的湖仓一体,这是一个明确的方向,将数据湖和数据仓领悟在一起,再加上统一的全域数据接入,同时保持开放性。

其次,能否同时支持数据剖析和其它打算范式。
SQL 引擎和 AI 引擎都能支持好。

再便是系统必须具备扩展性的能力。
所谓的扩展性,便是在面对未来的变革时,能够通过插件化的办法快速集成其他模块,对资源调度、系统整体设计都有一定磨练。
在这里有个建议,便是可以利用云模式来做设计,这样才能更随意马虎达到这个目标。
由于云的模式在资源弹性和模块丰富度方面都表现出色。

InfoQ:两年之后,我们再展望未来,您以为未来打算平台领域会发生哪些变革?发展趋势是若何的?

关涛: 我想大致会有以下几个趋势。

第一个,数据加速爆炸式增长。
IoT 类的数据加上 Agent 类的数据,将成为数据增长的新动力。
这个中的背景是,数据的第一波增长源自于数据库,例如账单报表类的数据,虽然数据量较小,但对付银行等机构来说具有很高的代价。
而数据的第二波爆发则紧张发生在大数据领域。
许多人的行为数据被记录下来,比如你在淘宝上购买了什么商品、浏览了什么内容等。
这些行为数据终极会转化为用户画像和个性化推举等做事的一部分。
这些数据是过去 20 年数据增长的核心推动力和来源。
第三波增长来源于人类行为数据以及设备数据,比如车辆上的摄像头、家中的智能开关等。
随着 AI 的兴起,许多智能机器人也会呈现出来,它们会广泛运用于各个行业,因此这些智能机器人产生的数据也会被自动网络起来,构成数据的第三波增长点。

与此同时,还有一个平行的增长点,即大规模模型和深度学习带来的半构造化数据处理能力的显著增强,这类数据也会持续呈现。
因此,数据的爆炸式增长仍旧是一个主要趋势。

第二个,数据剖析的架构将趋于统一。
在数据剖析领域,大家终极可能都会向着增量打算的方向发展,从而逐渐冲破 Lambda 架构的限定,一体化的架构会成为未来。
跟我们前两年预测湖仓一体会成为未来一样,希望一体化架构两年后也会真正落地。

第三个,大措辞模型带来了半构造化和非构造化数据处理能力的显著增强。
以前处理这些数据险些是很困难的,但现在已经变得相对随意马虎。
以前阅读一个 PDF 文件,很难理清个中的内容,而现在这方面的处理变得更加简便。
在这个层面上,如果以前我们只能处理构造化数据,现在又多了两类,半构造化和非构造化数据。
处理这些数据能力的显著增强,势必会带来存储和打算的需求显著增长。

第四个,大措辞模型到来,数据交流/隐私保护会得到更多投资。
数据的安全和隐私的哀求进一步提升了,数据共享的需求变得更加急迫。
由于数据实质上便是知识,而这些知识可以提升智力水平,进而变成一种隐含的代价。
因此,数据隐私保护和数据共享之间的平衡成为一个主要议题,特殊是在大规模模型的运用下,可能会引发显著的变革。
目前我们尚不清楚如何应对这一寻衅。
例如,很多企业不许可利用公开的大措辞模型做事,尤其在美国,紧张是由于担心在与模型交互时可能导致企业内部隐私透露。
而一旦模型被私有化支配,其知识范围可能会受限,无法获取与外部交互的内容。
因此,数据交流和隐私保护变得尤为关键,这可能是未来的一个发展趋势。

第五个,BI+AI 成为数据平台必选项,数据平台须要内置或插件化支持异构数据、finetune、向量检索等 AIOps 技能。
AI 让所有的平台智能化,数据平台的智能化也成为一定。
大幅降落利用门槛的数据平台会被更多人所利用,因此这也给“平台傻瓜化”带来额外的哀求。

延伸阅读:

让大模型融入事情的每个环节,数据巨子 Databricks 让天生式 AI 平民化 | 专访李潇

打算范式巨变前夜,云器发布多云及一体化数据平台云器 Lakehouse

云器科技宣告完成数亿元融资,打造多云及一体化数据平台

《再谈数据架构》暨云器科技产品发布会

活动推举

以「启航·AIGC 软件工程变革」为主题的 QCon 环球软件开拓大会·北京站将于 9 月 3-5 日在北京•富力万丽酒店举办,这次大会策划了从 BI 到 BI+AI,新打算范式下的大数据平台、大前端新场景探索、大前端领悟提效、大模型运用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构打算、微做事架构管理、业务安全技能、构建未来软件的编程措辞、FinOps 等近 30 个精彩专题。

咨询购票优惠信息可联系票务经理 18514549229(微信同手机号)。
点击链接即可查看 QCon 北京站完整日程,期待与各位开拓者现场互换。

读者福利