GPT-4o 情感交互颠覆认知：钢铁侠的“贾维斯”出生了是个女娃！_用户_模子

2024-11-14 18:17:25 AI简讯

作者 | 王启隆

GPT-4o 情感交互颠覆认知：钢铁侠的“贾维斯”出生了是个女娃！_用户_模子 AI简讯

出品丨AI 科技大本营（ID：rgznai100）

在我们的深夜、太平洋韶光的上午 10 点，OpenAI 召开春季发布会，推出了一款名为 GPT-4o 的“旗舰级”天生式人工智能模型，并将在未来几周内在公司面向开拓者和消费者的产品中迭代推出。
该模型将向免费客户开放，这意味着任何人都可以通过 ChatGPT 访问 OpenAI 最前辈的技能。

GPT-4o 中的“o”代表“omni”，指的是 GPT-4o 的多模态。

会前，OpenAI 首席实行官（CEO）萨姆·奥特曼（Sam Altman）神秘兮兮地发了一条推文，给全体发布会奠定了基调：

“她”（Her）。

此刻该当没有人想得到，OpenAI 真的把 ChatGPT 变成了一个“女机器人”。

发布会全程回顾：她来了

发布会的第一个“她”——OpenAI 首席技能官（CTO）Muri Murati 亮相直播间，迅速带来了关于 GPT-4o 以及 ChatGPT 最新特性的一系列先容。

ChatGPT 桌面版及用户界面优化

会议首先先容了 ChatGPT 桌面版的发布，旨在通过简化用户界面，提升产品的可用性和访问便捷性。
新设计强调简洁直不雅观，确保用户能自然流畅地与 ChatGPT 互动，无论何时何地。

由于重头戏是 GPT-4o，这里就不多先容桌面版 ChatGPT 有多酷了，我们等到后面第三部分讲 OpenAI 官方博客的时候再进一步深入。

GPT-4o 模型发布

Muri Murati 紧接着就把重点转向了 GPT-4o 模型的发布，这是对现有技能的一次重大飞跃，首次将 GPT-4 级别的智能遍及到所有用户，包括免用度户。
GPT-4o 不仅在文本处理方面表现出色，还在图像和音频处理能力上实现了显著增强，标志着人机交互进入了一个更为自然和便捷的新时期。

Murati 接着讲到，OpenAI 的核心义务之一是遍及尖端 AI 工具，通过减少利用障碍，如无需注册即可利用 ChatGPT，以及推出桌面运用程序，让技能触手可及。
这些努力是为了直不雅观展现技能潜力，促进广泛的认知领悟。
GPT-4o 的发布标志着人机交互办法的改造，它能够处理对话的奇妙细节，如自然措辞理解、环境噪音过滤及多声部对话，这些都是传统上对 AI 模型的巨大寻衅。
通过内置转录、智能剖析和文本转语音等功能，GPT-4o 大大降落了交互延迟，提升了沉浸式体验。

以往仅对付用度户开放的一些高等功能，现在得益于 GPT-4o 的效率提升，将免费供应给所有用户。
这意味着更多的用户可以享受定制化体验、视觉上传功能、影象和浏览功能，以及高等数据剖析做事。

Murati 宣告，ChatGPT 的用户已经达到了 1 亿。

ChatGPT 新增的视觉支持功能许可用户上传图片和文档，影象功能确保对话连贯，浏览功能实现实时信息搜索，数据剖析则处理图表和数据信息，供应即时答案，这些都极大增强了 ChatGPT 的实用性。
此外，GPT 4.0 在 50 种措辞上的表现得到了显著的速率和质量提升，这对付环球用户来说是一个主要的进步，确保了做事的广泛遍及。

场面话结束了，接下来将是见证“邪术”的时候。

会前，Altman 曾经这么说过：就像邪术一样。

科幻片上映——GPT-4o 超强现场演示

Murati 约请了两位 OpenAI 的研究主管上台，他们是 Mark Chen（图左，推特：@markchen90）和 Barrett Zoph（图右推特：@barret_zoph）。

未来传授教化人机交互史的时候，这两个人的名字可能会成为考试的一道问题。

无延迟语音实时对话，还能打断发言

本次展示聚焦于 ChatGPT 运用的实时对话语音功能，通过现场演示，展示了用户与 AI 之间流畅无阻的交互体验。
Mark Chen 通过手机上的运用程序，激活了 GPT-4o 的音频功能，与 AI 进行了实时对话，并体验了其即时相应与感情感知能力。

，时长01:07

Mark 见告谈天机器人，他对这次演示很紧张，请 ChatGPT 给他一些建议，帮助他镇静下来。
然后，Mark 对着自己的手机大喘气仿照了一下深呼吸，ChatGPT 调侃了回去：“Mark，你又不是吸尘器！
”

Mark 特殊指出了新功能与旧语音模式的紧张差异：用户现在可以直接打断模型，无需等待模型完成发言即可插话，大大提高了对话的自然流畅度。
此外，新模型肃清了延迟征象，反应迅速，不再有尴尬的等待韶光。
更主要的是，它能够感知用户的感情状态，根据用户的语气和节奏调度互换办法，展现出更人性化的交互体验。

随后，ChatGPT 被哀求用各式各样的腔调来讲述一个故事，在这段演示里，Mark 和 Barret 反复地打断 ChatGPT，并重新哀求她换个腔调讲故事。
她能够根据用户哀求调度语音的语调和情绪色彩，从沉着阐述到充满戏剧性的讲述，再到以机器人的声线讲述故事，乃至通过歌唱来结束故事，极大地丰富了互换的互动性和意见意义性：

，时长01:47

GPT-4o 加持的 ChatGPT 正在变得越来越“感情化”。
感情感知是这次更新的一大亮点，ChatGPT 不仅能够识别用户的感情，还能在对话中应时提出建议。
这种能力让 AI 能够更贴近用户需求，供应更具针对性的帮助和支持。
这与 Inflection.ai 开拓的人工智能运用 Pi 非常相似，但 Inflection.ai 之前就已经被微软收购了（微软又和 OpenAI 有着难舍难分的关系）。

视觉 + 推理

GPT-4o 还改进了 ChatGPT 的视觉能力。
ChatGPT 现在能“瞥见”事物并进行推理。
通过手机摄像头，她看到了一道写在纸上的数学题，并帮助两位演示者解题：

通过一个线性方程的实例（3x + 1 = 4），对话深入到详细的数学问题办理议方案略中。

然后，Barret 在纸上又写了“我爱 ChatGPT”（I love ChatGPT）的字样，她的反应也是相称精彩：

，时长00:25

接下来，她又被哀求阐明一些打算机代码，顺带展示了最新的 ChatGPT 客户端：

Barret 分享的代码旨在处理特定地点及时间段的景象数据，通过移动均匀法平滑温度数据，并可视化整年气温变革。
在代码实行后，通过启用 ChatGPT 的视觉功能，双方共享了图表内容。

图表展示了 2018 年整年温度变革，特殊指出了 9 月末的大雨事宜，以及 7 月和 8 月的最高温区间（约 25 到 40 摄氏度）。
这一环节不仅验证了代码的精确实行，也突显了 ChatGPT 处理数据、天生图表和剖析结果的能力。

能言善辩、感知感情

Mark 之后演示了 ChatGPT 的即时翻译能力：每当他说英语的时候，ChatGPT 要翻译成意大利语并见告阁下的 Murati；而 Murati 用意大利语回合时，ChatGPT 又得翻译成英语给 Mark 做阐明：

，时长00:49

通过英语与意大利语的互译，展示了跨措辞互换的便捷性，强化了其作为一个沟通桥梁的角色。

在另一个互动环节中，通过一张自拍照，ChatGPT 被哀求根据 Barret 的面部表情推断感情，成功识别出他愉快和愉快的感情状态。

发布会发布尾声，三位演示者表示 GPT-4o 未来即将向更广泛的用户群体开放新功能，并对 OpenAI 团队和 NVIDIA 团队的支持表达了感谢。

会后“众生相”：像推土机一样摧毁行业！

AI 春晚的影响力不可小觑，全体圈内都陷入了激动的状态，只可怜谷歌来日诰日的 I/O 大会了。
在浩瀚反应里，几位 AI 圈的名人也先后出来展示了自己的意见：

Andrej Karpathy 曾担当特斯拉的人工智能和自动驾驶视觉总监，卖力领导 Autopilot 团队，这是从 2017 年开始的，当时埃隆·马斯克从 OpenAI 将他挖角至特斯拉。
在此之前，他还是 OpenAI 的创始成员之一，拥有在斯坦福大学的学术背景，并且是“AI 教母”李飞飞的学生。

这位大神第一韶光分享了自己的 reaction：

OpenAI 正在发布一个集成了文本-音频-视觉的模型，该模型在一个单一的神经网络中处理全部三种模态。
这样一来，只要你哀求，它就能够作为分外情形下的一个补充功能，实现实时语音翻译。

引得马斯克在底下评价：“这是个更好的表达办法”。

英伟达研究科学家 Jim Fan 是 AI 圈的“网红”，他一向走在 X 的资讯前沿，这次同样也是揭橥了相称深度的解析：

现在你的动态可能满是诸如“不可思议的打破、《HER》、本次发布会你错过的十大特性、王者归来”这样的字眼。
不妨静下心来，随着我的节奏一步步阐发。

高质量的数据至少可以从两个来源得到：

1. 来自 YouTube、播客、电视剧、电影等自然发生的对话。
Whisper 可以被演习来识别对话中的发言者轮换或分离重叠的语音以进行自动标注。

2. 合成数据。
利用最强大的模型运行慢速的三阶段管道：speech1->text1（ASR），text1->text2（LLM），text2->speech2（TTS）。
中间的 LLM可以决定何时停滞，也可以仿照被打断后如何接话。
它可以输出未被口头化的额外“思维轨迹”（也便是它内心的想法），以帮助天生更好的回答。

然后 GPT-4o 直接从 speech1->speech2 进行蒸馏，基于三阶段数据的可选赞助丢失函数。
蒸馏后，这些行为现在内置于模型中，不再输出中间文本。

系统方面，如果每个***帧都解压缩为 RGB 图像，则延迟将无法知足实时阈值。
OpenAI 可能已经开拓了自己的神经优先、实时***编解码器，将运动增量作为 token 进行传输。
通信协议和神经网络推理必须共同优化。
例如，可以在边缘设备上运行一个小型、高能效的神经网络，如果***有趣，它就会决定传输更多 token，反之则更少。

我没想到 GPT-4o 会更靠近传闻中的 GPT-5，即“Arrakis”模型，它能实现多模态输入和输出。
实际上，它可能是 GPT-5 的一个早期检讨点，尚未完成演习。

品牌命名也透露出某种不屈安感。
在 Google I/O 之前，OpenAI 宁肯超预期地推出 GPT-4.5，也不想因 GPT-5 的高期待而栽跟头。
这算是一种争取韶光的明智之举。

值得把稳的是，这个语音助手变得更加活泼，乃至有点轻佻。
GPT-4o 正在努力（大概有点太努力了）让自己听起来像《HER》。
OpenAI 在蚕食 Character AI 的市场份额，两者在形态上险些完备重合，并拥有弘大的分销渠道。
这是向更具情绪、个性更强的人工智能发展的一个迁移转变点，而 OpenAI 过去彷佛一贯在积极压制这一点。

谁先赢得苹果，谁就将大获全胜。
我认为与 iOS 的集成有三个层次：

1. 放弃 Siri。
OpenAI 为 iOS 精简出一个纯粹的设备端 GPT-4o，可选择付费升级以利用云做事。

2. 将摄像头或屏幕串流到模型中确当地功能。
芯片级支持神经音频/***编解码器。

3. 深度融入 iOS 行动接口和智能家居生态。
Siri Shortcuts 曾遭冷遇，但这次，它将以十亿用户级别的 AI 助手身份华美回归。
智好手机的 FSD，具有特斯拉级别的数据飞轮。

Jim Fan 文中提到的 HER 正是 Sam Altman 在发布会前暗示的那部电影。
这部由 Spike Jonze 执导的电影《Her》是一部科幻爱情片，设定在未来不远的洛杉矶。
故事环绕一位名叫西奥多·托姆布雷（Theodore Twombly）的男子展开，他是一名信件代笔人，专门为那些不长于表达情绪的人撰写动听信件。
西奥多生活在一个高度发达的科技天下中，人类与技能的互动变得日益亲密和繁芜。

而本次演示的 ChatGPT，其声音险些和电影里的“Her”千篇一律——电影的女主角正是一款前辈的人工智能操作系统 OS1，这个别系具有高度发达的人格化特色，并自称萨曼莎（Samantha）。
OpenAI 用非常浪漫的办法完成了一次致敬。

如果你对这场直播还没看够，那么 OpenAI 联合创始人 Greg Brockman 肯定能知足你的需求。
Greg 直接在 X 上追加了五分钟的演示***，让 ChatGPT 即兴创作了一首歌曲，歌词中奥妙融入了房间的装潢风格、在场人物的穿着特色以及其间发生的趣事：

，时长05:54

进一步解析：原来你便是 gpt2？

发布会刚结束，OpenAI 技能职员 William Fedus 便在 X 上发布了一项重磅。
此人师承“AI 三巨子”之一的 Yoshua Bengio，还曾在 Google Brain 镀过金。

Fedus 表示，前段韶光在“AI 竞技场” LMSys 打遍天下无敌手的“im-also-a-good-gpt2-chatbot”，实在便是 GPT-4o！
并且，Fedus 还公布了一则更详细的数据：

Fedus 说，ELO 评分终极可能会受到提示难度的限定（即，在诸如“最近怎么样”这样的提示上无法达到任意高的胜率）。
且他们创造，在更难的提示集上——尤其是编程任务中——这种差距乃至更大：GPT-4o 比较 OpenAI 之前最好的模型，ELO 评分赶过 100 多分。
差距大到令人绝望。

下一环节，让我们深入本次发布的详细内容，看看 ChatGPT 和 GPT-4o 未来的发布操持都有哪些。

详细发布内容

OpenAI 流传宣传，GPT-4o 在理解和磋商用户分享的图片方面已超越所有现存模型。
举例来说，你只需拍摄一份外语菜单，GPT-4o 就能帮你翻译内容、理解菜品背后的文化故事并供应建议。
未来，技能升级将实现更加流畅、实时的语音交互，以及通过实时***与 ChatGPT 对话的能力。
比如，我们可向 ChatGPT 展示正在进行的体育赛事，让它讲解规则。
接下来数周内，OpenAI 将启动带有这些新功能的语音模式 Alpha 测试，Plus 用户将首批体验，随后逐步扩大覆盖范围。

目前，ChatGPT 已支持超过 50 种措辞，覆盖注册、登录、用户设定等多个环节。
GPT-4o 正逐步向 ChatGPT Plus 和团队用户开放，企业版也将很快面世。
同时，免用度户今日起也可体验，但设有利用配额。
Plus 用户的发送上限将是免用度户的 5 倍，团队和企业用户则享有更高额度。

借助 GPT-4o，免用度户将能体验：

GPT-4 级别的智能互动结合模型与网络的回答数据剖析与图表制作图片话题谈论文件上传以赞助总结、创作或剖析探索并利用 GPT 及 GPT 商店利用影象功能构建更佳体验

根据利用量和需求，免用度户利用 GPT-4o 的数量将有限定。
一旦达到上限，ChatGPT 将自动切换至 GPT-3.5，确保对话延续。

无论是免费还是付用度户，OpenAI 都推出了全新的 macOS ChatGPT 桌面运用，无缝融入日常电脑操作。
只须要大略快捷键（Option + Space）即可随时提问 ChatGPT，还能直接在运用内截图并谈论。
从本日开始，用户就可以直接通过电脑与 ChatGPT 进行语音互换，初期会以 Voice Mode 形式呈现，未来将集成 GPT-4o 的音频***新功能。
无论是公司创意头脑风暴、口试准备还是话题磋商，只需点击桌面运用右下角的耳机图标即可开始语音对话。

参数 pk 环节

GPT-4o 能在 232 毫秒内对音频输入做出反应，均匀反应韶光为 320 毫秒，这与人类在对话中的反应韶光附近。

未来，就变成了我们讲话比 ChatGPT 慢半拍了……

GPT-4o 在英语和代码文本方面的性能与 GPT-4 Turbo 相称，在非英语措辞文本方面也有显著提高，同时在运用程序接口（API）方面速率更快，价格便宜 50%。
与现有模型比较，GPT-4o 在视觉和音频理解方面尤其出色。

本次升级是多模态方面的飞跃，我们会创造 GPT-4o 的文本、推理和编码水平仍和 GPT-4 Turbo 相称。

真正“遥遥领先”的，显然是多语种交互、音频对话、视觉等方面。

末了总结，从本日开始，GPT-4o 强大的文本理解与图像处理能力会逐步融入 ChatGPT。
不仅限于免用度户群体，Plus 用户更能享受到高达标准用户 5 倍的发送限额。
此外，一个整合了 GPT-4o 的语音模式 Alpha 版本，估量在未来数周内上岸 ChatGPT Plus。

对付开拓者而言，GPT-4o 现已通过 API 开放，成为可调用的文本和视觉识别模型。
与 GPT-4 Turbo 比较，它在速率上快出两倍，本钱减半，且要求频率上限提升至原来的五倍。

末了的末了，以一个令工资难的推文结尾。

15 日的 GoogleIO 大会，CSDN AI 科技大本营仍将连续奉上详细资讯整理，欢迎连续关注。