大年夜模型时代AI 和数据库技能会碰撞出什么新火花？_数据库_技巧

2024-11-13 09:53:50 AI简讯

编辑｜薛梁

大年夜模型时代AI 和数据库技能会碰撞出什么新火花？_数据库_技巧 AI简讯

数据库作为关键 PaaS 能力，一贯顺应业务和技能发展，一直变更和创新。
大模型的兴起，对数据库也有深刻的影响，包括通过大模型赋能的 SQL 改写，智能诊断，问答等一系列能力。
同时数据库承担根本数据管理的浸染，数据库技能如向量数据库，对办理大模型一些幻觉等也起到关键的浸染。
大模型和数据库技能相互造诣，数据库技能在过去的一年内取得非常大的创新和发展，先容这块关键技能的发展，相信可以帮助到感兴趣的从业人士以及不雅观众朋友。

在2024 年 6 月 14-15 日举办的 ArchSummit 环球架构师峰会深圳站上，我们约请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状，以及百度在数据库和 AI 结合上的关键进展以及实际案例。
在会议召开前，我们采访了朱洁老师，帮助读者提前理解到干系的技能落地细节。

InfoQ：您如何看待大模型时期对数据库技能创新的寻衅和机遇？对数据库技能的影响紧张表示在哪些方面？

朱洁：大模型对数据库技能带来的机遇是远大于寻衅的。
传统数据库技能或者大数据技能处理的还是以构造化数据为主，或者要把非构造化数据先预处理成构造化数据才好处理。
但事实上，非构造化数据才是最自然，体量最大的数据。
大模型技能让非构造化数据有新的处理方法，放大非构造数据的代价，因此也带来了底层数据库更多的发挥空间。

大模型对数据库的影响紧张可以从两个方面看，一个是 DB4AI，紧张是向量数据库技能。
通过向量数据库办理大模型知识更新不及时，幻觉问题，以及缺少企业内部知识，也无法进行细粒度安全管理等问题。
另一个是 AI4DB，通用大模型技能对数据库本身进行优化，紧张方向包括数据库自动运维，SQL 天生，SQL 优化，智能问答等等。

总的来说，数据库和大模型肯定是相辅相成，数据库技能在大模型时期有了更大的想象空间。

InfoQ：在大模型的兴起背景下，数据库技能如何适应和应对新的数据处理需求？

朱洁：大模型技能让非构造化数据有了新的运用空间，数据库变革比较大的是对文本等非构造化数据处理，以及未来乃至图片，***等多模的数据。

目前这块发展很快，紧张包括文本拆分，怎么 Embedding 多模数据，怎么实现多路召回，以及向量引擎通过 GPU ，以及更好数据组织模式来实现高性价比等。

InfoQ：在数据库行业的技能发展中，大模型技能与人工智能的相互浸染是如何发挥浸染的？

朱洁：大模型属于人工智能领域的一个主要组成部分。
现在一样平常说大模型是指天生式 AI 技能（GenAI）。

在数据库领域一贯利用 AI 技能，传统上紧张是一些预测算法，分类算法这些，办理比如运维的问题。
大模型出身之后，在代码天生，知识处理方面比较传统 AI 技能有了革命性提升，但是在一些传统系统运维，调优方面还是传统算法实现更大略，效率更高。

因此大模型技能更多的是在原来的技能的根本上更深入的办理原来不好办理的代码天生，知识管理等。
对原有技能是一个非常大的补充，提升和扩展。

InfoQ：您能分享一些数据库和人工智能领域的创新案例，特殊是在大模型时期的实际运用？

朱洁：这块的技能发展很快，各个厂家都在进行相应的考试测验和布局。
当前比较创新的数据库和大模型结合的案例和运用有：

智能问答：通过大模型技能办理数据库运维问题，DBA 值班等。
代码天生 & 翻译：自然措辞到 SQL（NL2SQL），或者把一种 SQL 翻译成其余一种，范例的 Oracle 翻译成 MySQL 之类。
SQL 优化：改写、注释、纠错、阐明，补全智能问数：自然措辞讯问，内部通过大模型转成 SQL，查询出结果，然后大模型再总结以报表，报告形式展示出来。

InfoQ：作为百度智能云数据库产品总架构师，您如何看待数据库和人工智能的结合，在实际业务中取得的关键进展？

朱洁：首先我们的大模型在业界有领先上风，其次是百度智能云在这方面布局很早，也很全。
因此我们目前在这块很有竞争力。
我们先容几个最新的关键的成果：

发布了 VectorDB 1.0，向量数据库是企业不可或缺的知识库核心组件，它针对传统知识库问答系统碰着的性能瓶颈、掩护寻衅及规模限定等问题供应了有力办理方案。
全新发布的百度向量数据库 VectorDB 1.0，不仅集成了全面的运维掌握和安全防护能力，还兼容了千帆、LangChain 等主流生态系统，能够帮助企业轻松管理数以千万计的文档知识，最大支持百亿向量存储规模以及毫秒级的向量检索速率。
同时，比较同类型开源产品，VectorDB 1.0 性能最高提升 10 倍。
发布了数据库智能驾驶舱（Database Smart Cockpit，DBSC），这个做事是利用大模型技能办理数据库运维，安全，智能问答的能力。
通过内置的百度文心大模型能力，再加上百度积累的数据库运维知识库等，帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种利用场景繁芜问题，以及显著降落非常问题定位韶光，以及提升 SQL 优化效率等。
目前这个做事在百度内部已经成功帮助 DBA 团队降落超过 50% 的运维事情量。

InfoQ：对付百度在数据库和人工智能结合上的关键进展，您认为最故意义的是什么？

朱洁：对外部而言，我们致力于为客户供应强大、高性能、稳定可靠的数据库产品，首先通过大模型技能对数据库技能的改造和升级也能帮助客户降落数据库的利用门槛和本钱。
其次我们供应更好的办理方案和能力套件，帮助客户更快地开拓基于大模型的 AI 原生运用，帮助客户更快地运用上 AI 能力，创造新的业务机会。

对内部而言，百度具备精良的大模型技能和产品，同时也须要精良的各种配套组件，共同支撑百度智能云构建强大的 AI 原生运用产品和解决方案。
数据库技能的努力打破，才能更好的支撑好百度的大模型计策。

InfoQ：在 AI 与数据库的结合中，百度是否有一些特定的技能路径或策略？

朱洁：AI 技能和数据库技能都在快速发展过程中，我们几个紧张的策略有：

坚持技能和场景结合的原则：技能只有和场景深度结合，才随意马虎成熟，以及真正办理问题。
因此我们对大模型的运用并不追求尝鲜，一定是选择可以和场景深度结合，各方面条件成熟，以及内部深度利用之后再给到我们的客户。
坚持技能的普惠的原则：普惠核心意味着要让更多用户，更多场景可以利用。
对数据库技能来说紧张表示在两点：首先我们在设计的时候就会基于通用硬件去设计，云上，云下都可以支配，大客户，小客户都能用。
这个体现在我们的 VectorDB，DBSC，GaiaDB 等多个产品中。
其余一个核心是坚持起步门槛低，为了让更多用户用到，我们 VectorDB，DBSC 目前都供应了免费版本，让用户可以直策应用。
也欢迎大家到百度智能云上选择相应的免费版本，体验最新大模型加持的能力。
坚持开放的原则：除了我们自研之外，我们也非常欢迎更多的第三方厂商和我们一起共建，或者集成我们的产品。

InfoQ：您对 AIGC 与数据库结合的未来发展有何展望？

朱洁：这个领域还在一个刚起步和快速发展阶段。
我以为下一个阶段的发展，核心有两点：

已有产品的成熟，随着技能发展，利用者越多，会更催熟当前的产品，更深度的办理客户实际场景问题。
多模态支持：当前技能处理文本为主，未来多模态的能力会越来越强，也会在这个根本上出身更多的运用。

InfoQ：在演讲中提到的数据库技能的创新和发展对从业职员和不雅观众朋友意味着什么？ArchSummit 听众能从您的这次演讲中可以得到哪些实际的收益和启示？

朱洁：数据库作为关键 PaaS 能力，一贯顺应业务和技能发展，一直变更和创新。
大模型的兴起，对数据库也有深刻的影响，包括通过大模型赋能的 SQL 改写，智能诊断，问答等一系列能力。
同时数据库承担根本数据管理的浸染，数据库技能如向量数据库，对办理大模型一些幻觉等也起到关键的浸染。
大模型和数据库技能相互造诣，数据库技能在过去的一年内取得非常大的创新和发展，先容这块关键技能的发展，相信可以帮助到感兴趣的从业人士以及不雅观众朋友。

活动推举

高朋｜朱洁