多模态AI崛起2022年人工智能5大年夜成长趋势_人工智能_模子

2025-01-06 20:52:59 绘影字幕

趋势1：大型措辞模型（LLMs），定义交互式人工智能的下一个浪潮

多模态AI崛起2022年人工智能5大年夜成长趋势_人工智能_模子绘影字幕

人工智能的措辞模型是基于自然措辞处理技能和算法创建的。
比如在某一句话说一半的时候，这个模型会根据以往记录的实例，来推断出这句话后面的几个字。
总的来说便是总结文本信息，乃至从纯文本中创建视觉图表。

大型措辞模型（LLMs）是在包含巨大数据量的大规模数据集上演习的。
像是Google的BERT和OpenAI的GPT-2和GPT-3便是LLMs很好的例子。
据理解，GPT-3中约有1750亿个参数，在570千兆字节的文本上进行演习。
这些模型天生的东西可以从大略的文章到繁芜的金融模型。
现如今，包括OpenAI、Hugging Face、Cohere、AI21 Labs以及AI12在内的人工智能初创公司，正在通过演习具有数十亿参数的模型来推动LLMs的发展。

韩国一家叫做Naver的公司宣告，它已经建立了最全面的基于人工智能的措辞模型之——HyperCLOVA，一个类似于GPT-3的韩语模型。
与上述模型不同的是，华为的PanGu-Alpha以及百度的Ernie 3.0 Titan则是在由电子书、百科全书和社交媒体组成的海量中文数据集上进行演习的。

在2022年，我们将看到大型措辞模型成为下一代交互式人工智能工具的根本模型。

趋势2：多模态人工智能的崛起

“模态”（Modality）是德国理学家赫尔姆霍茨提出的一种生物学观点，即生物凭借感知器官与履历来吸收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。
多模态是指将多种感官进行领悟，而多模态交互是指人通过声音、肢体措辞、信息载体（笔墨、图片、音频、视频）、环境等多个通道与打算机进行互换，充分仿照人与人之间的交互办法。

传统的深度学习算法专注于从一个单一的数据源演习其模型。
例如，打算机视觉模型是在一组图像上演习的，NLP模型是在文本内容上演习的，语音处理则涉及声学模型的创建、唤醒词检测和噪音肃清。
这种类型的机器学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。
而多模态人工智能是打算机视觉和交互式人工智能智能模型的终极领悟，为打算器供应更靠近于人类感知的场景。

多模态人工智能的最新例子是OpenAI的DALL-E，该模型利用艺术家萨尔瓦多-达利和皮克斯的瓦力的谐音来命名。
它可以从文本描述中天生对应图像。
例如，当文本描述为\"大众一个甜甜圈形状的时钟 \"大众被发送到该模型时，它就可以天生以下图像。

图片来源TheNewStark

谷歌的多任务统一模型（MUM）是多模态人工智能的另一个例子。
它承诺通过从75种不同措辞中挖掘出的高下文信息对用户搜索结果进行优先排序，从而提高用户的搜索体验。
MUM利用T5文本到文本框架，比BERT中盛行的基于变换器的自然措辞处理模型要强大1000倍。

英伟达的GauGAN2模型则将根据大略的文本输入天生照片般逼真的图像。
它在一个单一的模型中结合了分割映射、内画和文本到图像的天生，使其成为一个强大的多模态工具，可以用笔墨和图画的稠浊来创造逼真的艺术。

在不远的未来我们就可以见到打算机视觉、措辞以及语音模型的领悟，这使得人工智能更丰富，更自然逼真。

趋势3：简化和精简MLOps

机器学习操作（MLOps），是一个将机器学习投入到工业生产中的实践，是机器学习和DevOPs在软件领域交叉的产物，以是它在许多方面与2012年的DevOps相似。
在2012年DevOps上线的时候，许多企业就意识到了它的代价，但是他们在履行DevOps的时候很困难，工具链非常繁芜，生态系统也不足完善。
而MLOps比较来说更加繁芜，它的软件包包括安装、配置演习、推理根本举动步伐、配置特色存储、配置模型注册表、监控模型的衰减以及检测模型漂移等所有的干系内容。
其弘大的软件包也导致MLOps的支配比DevOps还困难。

MLOps是被纳入基于云打算的ML平台的观点之一，平台包括如亚马逊网络做事的Amazon SageMaker, Azure ML, 以及谷歌的Vertex AI。
然而，它所拥有的这些能力却不能用于稠浊和边缘打算这两个环境。
因此，监测边缘打算的环境模型被证明是企业要面临的一个重大寻衅。
在处理打算机视觉系统和交互式人工智能系统时，创建一个为其做事的监测边缘打算的模型就变得更加具有寻衅性。

随着Kubeflow和MLflow等开源项目的逐渐成熟，MLOps实在已经很随意马虎就能获取到。
在未来几年我们或容许以看到一个精简和简化的MLOps方法横跨云领域和边缘打算环境。

趋势4：AI驱动的开拓者生产力

在未来，人工智能险些会影响到IT行业的每个方面，包括编程和开拓。
在过去的几年里，我们已经看到了诸如亚马逊代码大师这样的工具，该产品会在开拓者编程时，为其供应智能建议，以提高代码质量，并识别出运用程序中最主要的代码行。
就在最近，Github Copilot作为一个 \"大众人工智能配对程序员 \"大众首次亮相，帮忙开拓职员编写高效的代码。
而Salesforce的研究团队也推出了CodeT5，这是一个开源项目，将帮助Apex开拓职员进行由人工智能驱动的编码。
Tabnine，即以前的Codata，将智能代码完备带到了主流开拓环境。
Ponicode也是一个AI驱动的工具，可以供应函数创建、可视化和运行单元测试的快捷办法。

图片来源TheNewStark

大型措辞模型（LLMs）的兴起和开源代码更广泛的可用性，使IDE供应商能够再其根本上建立智能代码天生和剖析系统。

展望未来，人们期望看到能够从内联注释中天生高质量和紧凑代码的工具。
它们乃至能够从一种措辞编写的代码翻译成另一种措辞，通过将传统代码转换为当代措辞来实现运用程序的当代化。

趋势5：云平台新的垂直化人工智能办理方案

天下领先的人工智能供应商，包括亚马逊、谷歌和微软，都正专注于将研究和开拓事情商业化。
他们通过旗下的云平台供应托管做事，并建立硬件设备，配备人工智能加速器和针对特定场景的预演习模型。

亚马逊连接和谷歌联结中央AI是垂直整合的范例例子。
两者都利用机器学习能力来实行智能路由，由机器人驱动的客服对话，以及对联络中央代理商的自动帮忙。
AWS Panorama可以连接到现有的IP摄像机，以此来实行基于打算机视觉的推理。
客户可以在其云平台演习新的模型，并将它们支配在全景设备的边缘。
Azure Percept采取了类似的方法，在边缘供应打算机视觉模型和交互式人工智能。
微软基于Azure上现有的物联网、人工智能和边缘打算做事建立了Percept。

末了，亚马逊Lookout for Equipment和谷歌Cloud Visual Inspection AI等做事，利用基于云的人工智能平台，对设备进行预测性掩护和产品的非常检测。
这些做事是专为零售和制造业定制的。

在2022年，我们将看到人工智能平台和云供应商利用前沿研究技能和现有的管理做事，供应针对特定的例子和场景的办理方案。

参考链接：https://thenewstack.io/5-ai-trends-to-watch-out-for-in-2022/

《新程序员003》正式上市，50余位技能专家共同创作，云原生和数字化的开拓者们的一本技能精选图书。
内容既有发展趋势及方法论构造，华为、阿里、字节跳动、网易、快手、微软、亚马逊、英特尔、西门子、施耐德等30多家有名公司云原生和数字化一手实战履历！