AI视觉的“大年夜一统”：从CV到多模态旷视若何构造？_模子_行业

2025-01-11 00:09:38 智能写作

作者 | 三北编辑 | 漠影

AI视觉的“大年夜一统”：从CV到多模态旷视若何构造？_模子_行业智能写作

智东西4月2日宣布，当前，大模型技能正在加速渗透到行业数字化进程中，赋能新的运用处景，为各行各业创造代价。

近期，在北京市召开的人工智能企业代表漫谈会上，旷视科技联合创始人、CEO印奇表示，旷视将基于对行业的深入理解，推动多模态大模型的技能创新和行业运用。
同时，旷视将发挥在软硬结合方面的上风，环绕“大模型+机器人”的发展方向，推动人工智能为实体家当创造更大代价。

旷视布局大模型的实际进展如何？公司高层对大模型研发和家当落地有什么样的见地？智东西获悉，多模态、行业大模型和具身智能，是旷视环绕大模型进行布局的一个主逻辑。

当下正值新的AI视觉浪潮兴起，从去年爆火的ChatGPT到今年的Sora，从机器人Figure01的出身到呼之欲出的GPT-5，家当的关注重心正从文本转向视觉，从单模态转向多模态。

作为深耕深度学习技能超十年的旷视科技，也正从一家AI视觉公司，进化成一家多模态大模型公司。

在业内不少人士看来，当下AI发展脉络可分为AI 1.0及AI 2.0，但印奇认为，AI的演进是一个连续的过程。
从CNN、ResNet到Transformer，在上面的视觉、语音、NLP，都在从独立发展走向领悟，从量变走向质变。

按照印奇的方案，旷视将面向AGI（通用人工智能）目标，基于其在视觉模型及软硬结合方面的上风，聚焦多模态大模型领域，逐步实现具身智能的代价主见；同时基于行业大模型，武断走通2B（面向企业的）商业变现路径。

一、AI视觉拥抱“大一统”，旷视驶向多模态

只管视频天生模型Sora风靡环球，但AI视频领域的头部国产玩家旷视志不在此。

OpenAI做的Sora是它们走向AGI的一个很主要的技能节点，随之产生了文生视频潜在运用，但更多是为了推动GPT-5。
因此，重点是要理解其底层的技能框架，而不是Sora运用本身。

同时，在图像视频的领域，要将“天生”和“理解”分开来看。
如果将Sora作为独立运用来看的话，它聚焦视觉天生领域，核心运用处景更偏C端；旷视聚焦视觉感知和理解侧，其多模态大模型是一个对图片、视频、笔墨等各种模态综合识别理解和做逻辑推理的引擎。
因此，旷视不会去做Sora，不会涉足太多天生式AI领域，而是专注于理解能力上，面向2B业务打造行业运用。

基于这样的考虑，旷视对自己的定位是打造数十亿至数百亿参数之间的多模态大模型。

旷视在视觉模型领域的多年积累，是其打造多模态大模型的根本。
同时，数十亿至数百亿参数规模属于中大型模型，已具备较好的通用属性，且在行业支配本钱、硬件适配度等方面是一个较好的区间。

当前，视觉模型领域呈现出“大”和“统一”的趋势。
“大”意味着大数据、大算力和大参数量，“统一”表示在NLP、视觉、语音等模态的领悟，以及感知、理解和天生能力的领悟。
印奇表示，旷视做多模态大模型，实质上在视觉走向大一统路径的背景下，补全了措辞模型方面的能力，并把它们结合在一起，以符合现在这种多模态大模型新的技能趋势。

实质上，旷视正在从一家AI视觉公司，进化成一家多模态大模型公司。

从视觉大模型，到生物识别、打算拍照、自动驾驶等垂类算法，是旷视近十年来长期投入研发的领域。
旷视本身在关于视觉的技能、数据和底层框架上都拥有很深的积累，并在此根本上补齐了在措辞方面的能力，布局多模态大模型，是顺理成章的。

从资源投入角度来看，旷视研究院目前聚焦两大方向：一是武断投入多模态大模型的研发，二是做机器人和大模型的结合。
旷视已从传统意义上基于AI视觉的垂类算法研发，进化到了与大模型深度结合的研发赛道。

纵不雅观当下多模态大模家当，市情上紧张有三类玩家，分别是从文本、从视频或是直接从多模态，切入多模态大模型领域做技能研发和落地。

业内人士见告智东西，图像是一个比文本更难的问题，因此旷视从视觉模型切入多模态，或许要比市情上的文本模型玩家切入多模态更随意马虎。

二、聚焦行业大模型，企业共创抵达“末了一公里”

当下我国大模型发展风起云涌，已居于环球大模型发展前列。
但同时，大模型家当仍面临数据、人才、安全等方面寻衅，与环球最前辈水平存在较大差距。

在这种背景下，发展行业大模型成为一条可能的捷径。

旷视科技是这一不雅观点的支持者。
根本大模型与行业结合，是要让大模型在高代价的行业里不断迭代和进化。

一方面，大模型已经能够办理不少的需求碎片化问题。
据悉，旷视目前大量行业客户的需求都可以用大模型办理，包括知识库、文案总结、图像视频事宜剖析等多个方面。
比如，有客户提出通过大量视频监测火情等情形，支持用自然措辞描述进行系统交互；有客户提出建立支持文档、法条、行业履历等搜索的知识库，这些场景都可以通过大模型技能来实现降本增效。

另一方面，要让大模型真正攻破“末了一公里”并不随意马虎，还须要在行业大模型高下功夫。
为此，旷视基于自研可控的根本大模型，叠加行业里面的数据闭环，去打造行业垂直模型。

如何让大模型攻破行业落地的“末了一公里”？

按照印奇的不雅观点，第一步，是要把根本模型叠加行业知识，让它变成金融模型、运营商模型等。
由于根本大模型基本上无法覆盖这些行业本身的语料和数据；第二步，行业大模型须要与行业中的场景和终端联动，这就意味着在云端大模型以外，还须要配套一个能在端侧实现支配的附属模型。

旷视主见通过行业共创发展行业大模型。
在行业大模型落地的过程中，大模型企业须要与行业从业者坐在一起，通过梳理需求并评估技能可行性，确保业务代价大于技能履行本钱。

基于多年在AIoT（智能物联）行业的积累，旷视从深度行业理解、商业化积累和软硬结合技能三大方面建立布局行业大模型的护城河。

1、深度理解行业。
做行业模型，须要以行业真正深度的行业运用和场景理解为驱动，才能不只是做一个大略的技能中台，或者是一个PaaS层，更主要的是要做到行业有代价的行业运用层和SaaS层。

2、商业客户及履历积累。
大模型的行业落地强调产品和商业化“一体两面”，只有拥有非常好的行业、客户和商业化能力资源积累，才能持续在行业里做迭代。

3、软硬结合技能积累。
大模型与行业的结合每每须要大模型的云侧和端侧的联动，也便是软硬结合。
旷视多年来积累的“云+端”技能能力，也会帮助行业大模型的家当化落地。

总的来说，要真正将行业大模型的商业模式打磨出来，一定不是大略拿开源模型改一改就行了，还要有端到真个大模型能力，打造能基于行业需求灵巧调节的大模型。

同时，行业大模型的实质上还是要以客户为中央，只有真的在行业浸泡很永劫光，找到行业痛点，且能让需求方和供应方同时得到收益，才能让行业大模型成功抵达“末了一公里”。

三、软硬结合，布局“大模型+机器人”

如果说行业大模型是旷视的现在，那么“大模型+机器人”便是旷视的未来。

在过去十年里，旷视已将AI落地到了聪慧城市、智能制造、聪慧物流、消费电子等多个行业，这些都可能是未来机器人的核心运用处景。
在这个领域布局行业大模型将为旷视供应自我造血能力，从而支持其进一步探索“大模型+机器人”的研发与落地。

印奇表示，旷视的发展历史清晰地表明，最初其专注于传感器和其运动部件，这些可以看作是机器人的“眼睛”。
随后，旷视在物流领域开拓了类似机器人“腿”的自动化系统。

目前，旷视正在预研机器人的“手臂”，包括工业机器臂和机动手。
未来，旷视期望将眼、手、脚三者结合，打造泛机器人产品。

当前，旷视科技的重点有两个：一是物流领域的机器人，它们在搬运和腿部功能上表现出色；二是赞助和自动驾驶领域，旷视将供应核心的感知-决策-掌握系统部件。

按照旷视的方案，其“大模型+机器人”计策是将愿景与能力结合，追求AGI（通用人工智能）和机器人技能，以实现与人类生活的深度互动和天下实质的美好变革。

在商业模式上，AI与新硬件结合带来巨大商业机会，类比从PC得手机的变革，机器人行业潜力巨大。
技能发展需长期积累和本钱掌握，实现规模化推广。
旷视致力于软硬结合和商业化，通过短期盈利闭环逐步扩大商业规模，目标成为AI机器人领域的环球领先企业。

结语：视觉走向大一统，旷视推动多模态落地行业

当下，随着AI成为发展新质生产力的主要引擎，AI视觉技能也正走向新的大一统。
透过旷视科技在大模型领域的布局，我们看到视觉大模型正与文本模型加快领悟，从而进入多模态大模型新阶段。

布局行业大模型是当下我国“AI+”发展的有效路径之一。
在过去的十几年的韶光里，旷视从技能长期坚持、迭代演进到商业模式不断探索，其技能积累及履历教训都有望促进其在行业大模型落地中，与企业共创攻破“末了一公里”。

本文系作者个人观点，不代表本站立场，转载请注明出处！

模型模态

AI视觉的“大年夜一统”：从CV到多模态旷视若何构造？_模子_行业

热门内容

随机文章

推荐内容

最新内容

TAGS标签

AI视觉的“大年夜一统”：从CV到多模态旷视若何构造？_模子_行业

相关推荐

基于论文贴代码的详细学习模型应用讨论

书模型,引领未来阅读体验的创新探索

R平方在数据分析中的重要性与应用

地理模型语言的魅力,探索地理信息技术的创新与发展

IDLL丢失,介绍人工智能的隐患与挑战

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签