马斯克的首款多模态大年夜模型来了GPT-4V又被超越了一次_年夜众_模子

2024-11-22 15:26:14 计算机

学习群｜扫码在主页获取加入办法

马斯克的首款多模态大年夜模型来了GPT-4V又被超越了一次_年夜众_模子计算机

打算机视觉研究院专栏

Column of Computer Vision Institute

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。
在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。
」 xAI 还表示，在接下来的几个月里，估量将在图像、音频和***等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试比拟。
个中特殊提到的是：「Grok 在理解物理天下方面的能力尤其令我们愉快。
在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。
对付下面的所有数据集，我们都是在没有思维链提示的情形下对 Grok 进行评估的。
」

如果 Grok-1.5 能在类似于 Grok-1 的开源容许证下发布，这将成为当下 LLM 竞争格局的一个主要节点。

Grok-1.5V 表现如何？

目前，Grok-1.5V 还没有完备开放，但会很快供应给早期测试者和现有的 Grok 用户。
不过，博客中展示了 Grok-1.5V 的七个示例。

第一个是将流程图的白板草图转换为 Python 代码：

Prompt：Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

Grok：当然！
您供应的流程图描述了一个大略的竞猜游戏：打算机天生一个随机数，用户必须猜出它。
下面是表示流程图中逻辑的 Python 代码：

import randomdef guess_number(): # Generate a random number between 1 and 10 target = random.randint(1, 10) while True: guess = int(input(\"大众Guess a number between 1 and 10: \"大众)) if guess == target: print(\"大众You won!\"大众) break else: print(\"大众Wrong guess, try again!\"大众)if __name__ == \公众__main__\"大众: guess_number()

第二个是打算卡路里：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路里？）

Grok：如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大约 100 卡路里。
打算方法是首先确定每片的热量：60 卡 / 3 片 = 20 卡 / 片。
然后，将每片的卡路里乘以片数：每片 20 卡路里 5 片 = 100 卡路里。

第三个是将草图转化为睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（这是我儿子画的，你能根据他的画讲一个简短的睡前故事吗？）

Grok：

良久良久以前，在一个充满冒险和奇迹的国度里，有一个年夜胆的小男孩，名叫提米。
提米和家人住在舒适的小房子里，他最喜好的事情便是探索周围的天下。
在一个阳光明媚的日子里，提米决定去附近的森林探险。
他带上了自己最喜好的零食、指南针和他最信赖的条记本，准备把看到的所有令人愉快的事物都画下来。
当 Timmy 走进森林深处时，他创造了一条在阳光下闪闪发光的神奇河流。
这条河是如此迷人，以至于提米决定做一艘小纸船，顺流而下，作为给森林精灵的特殊讯息。
提米小心翼翼地折好纸船，在上面画了一个笑脸，希望能给森林精灵带来欢快。
然后，他把小船放在河面上，看着小船载着他的友情和对大自然的爱漂走了。
夕阳西下，提米知道是时候回家了。
他为自己在森林里度过的神奇的一天感到光彩，他知道自己将永久铭记这次探险。
回到家后，提米和家人分享了他的故事，家人听到他在森林里度过的神奇一天都非常高兴。
他们同等认为，提米年夜胆、善良的精神是一种真正的勉励，他们知道，提米今后还会有更多精彩的冒险经历。
就这样，带着满心的爱和满脑筋的梦想，提米逐渐进入了梦乡，他渴望创造在他的想象天下里还有什么新的冒险在等着他。
第四个是阐明梗图：
Prompt：I don't get it, please explain（我不理解，啥意思？）
Grok：
这幅图诙谐地将初创公司和大公司作了比拟。
在标有 \"大众初创企业\"大众的左侧，有一群人在一起挖洞。
他们都在积极参与，洞已经挖得很深了。
在标有 \"大众大公司\"大众的右侧，有一群人围着一个洞站着。
然而，与初创公司不同的是，只有一个人真正在挖洞，其他人都在不雅观看或从事其他活动。
这幅图的诙谐感来自于对初创企业和大公司之间差异的浮夸。
在初创公司，人们每每有一种紧迫感，希望每个人都能直接为手头的任务做出贡献。
比较之下，大公司每每被描述为官僚主义更严重，所有团队成员对每个项目的直接参与更少。
第五个是将表格转换为 CSV 文件格式：
Prompt：Please convert this table to csv.（请将此表转换为 csv。
）
Grok：
medal,name,sport,event,date1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
CSV 格式不支持样式或格式设置，因此信息以纯文本格式呈现。
第六个是辨别木头的腐烂程度：
Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（这些孔涌如今我的甲板上的螺钉周围。
是不是烂了？我该当改换吗？）
Grok：
甲板上的木材彷佛已经开始糜烂。
这表现在螺丝周围涌现孔洞，这是木材糜烂的常见迹象。
为了确保露台的安全和利用寿命，建议改换受影响的木板。
这将有助于防止其受到进一步破坏，并保持其构造的完全性。
如果您不愿定如何改换木板，咨询专业的露台建造商或承包商可能会有所帮助。
他们将能够评估破坏的程度，并就最佳行动方案向您供应专家建议。
第七个是办理编程问题：
Prompt：Can you write Python code that solves this?（你能编写 Python 代码来办理这个问题吗？）
Grok 回答如下：
def find_triplets(nums): result = [] nums.sort() for i in range(len(nums) - 2): if i > 0 and nums[i] == nums[i - 1]: continue target = -nums[i] left = i + 1 right = len(nums) - 1 while left < right: if nums[left] + nums[right] == target: result.append([-target, nums[left], nums[right]]) left += 1 right -= 1 while left < right and nums[left] == nums[left - 1]: left += 1 while left < right and nums[right] == nums[right + 1]: right -= 1 elif nums[left] + nums[right] < target: left += 1 else: right -= 1 return result
RealWorldQA 基准
本次发布还有一个亮点：xAI 推出了一个新的基准「RealWorldQA」。
「为了开拓有用的真实天下人工智能助手，提高模型对物理天下的理解至关主要。
」xAI 希望借助该基准更好地评估多模态模型的基本真实天下空间理解能力。
「虽然当前基准中的许多示例对人类来说相对随意马虎，但它们每每对前沿模型构成寻衅。
」
目前，RealWorldQA 包含 700 多张图片，每张图片都有一个问题和易于验证的答案。
在真实天下的图像外，该数据集还包括从车辆上拍摄的匿名图像。
这对付自动驾驶领域来说，或许是个好。
巧合的是，微软研究院前段韶光更新了跨措辞、模态、模型和任务的基准测试 MEGAVERSE，包含 22 个数据集，涵盖 83 种措辞（包括资源匮乏的非洲措辞）。
微软还在基准测试中加入了两个多模态数据集，并比较了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。
Meta 在前几天也开源了衡量人工智能系统详细问答能力的基准数据集 OpenEQA，包含家庭和办公室等 180 多种不同现实环境的 1600 多个问题，超过七个种别，全面测试 AI 在物体和属性识别、空间和功能推理以及知识知识等技能方面的能力，加深大模型对现实天下的理解。
纵然是最前辈的 AI 模型，如 GPT-4V，在 OpenEQA 上也难以与人类表现相媲美。
OpenEQA 是衡量人工智能系统理解和回答现实天下问题能力的新基准。
在这些研究的推动下，我们可以期待一下 2024 年大模型在现实天下任务取得更多的进展。
参考链接：https://x.ai/blog/grok-1.5v
END
转载请联系本"大众年夜众号得到授权
打算机视觉研究院学习群等你加入！
ABOUT
打算机视觉研究院
打算机视觉研究院紧张涉及深度学习领域，紧张致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型支配等研究方向。
研究院逐日分享最新的论文算法新框架，供应论文一键***，并分享实战项目。
研究院紧张着重”技能研究“和“实践落地”。
研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习气！
🔗