人工智能真的发明了自己的“秘密措辞”吗?以下是我们所知道的_措辞_模子
新一代人工智能(AI)模型可以根据文本提示按需天生“创意”图像。Imagen,MidJourney和DALL-E 2等公司开始改变创意内容的制作办法,对版权和知识产权产生影响。
虽然这些模型的输出常日非常惊人,但很难确切地知道它们是如何产生结果的。上周,美国的研究职员提出了一个有趣的说法,即DALL-E 2模型可能已经发明了自己的秘密措辞来评论辩论物体。
DALLE-2有一种秘密措辞。“Apoploe vesrreaitais”的意思是鸟类。“Contarra ccetnxniams luryca tanniounons”的意思是虫子或害虫。提示:“Apoploe vesrreaitais吃Contarra ccetnxniams luryca tanniounons”给出了鸟类吃虫子的图像。螺纹 (1/n) pic.twitter.com/VzWfsCFnZo
— 扬尼斯·达拉斯(@giannis_daras)2022年5月31日
通过提示DALL-E 2创建包含文本标题的图像,然后将天生的(胡言乱语)标题反馈到系统中,研究职员得出结论,DALL-E 2认为Vicootes的意思是“蔬菜”,而Wa ch zod rea指的是“鲸鱼可能吃的海洋生物”。
这些说法令人着迷,如果这是真的,可能会对这种大型AI模型产生主要的安全性和可阐明性影响。那么到底发生了什么呢?
DALL-E 2有秘密措辞吗?DALL-E 2可能没有“秘密措辞”。说它有自己的词汇可能更准确 - 但纵然这样,我们也无法确定。
首先,在这个阶段,很难验证关于DALL-E 2和其他大型AI模型的任何说法,由于只有少数研究职员和创意从业者可以访问它们。
任何公开分享的图像(例如在Twitter上)都该当以相称大的盐粒拍摄,由于它们是由人类从AI天生的许多输出图像中“挑选”出来的。
纵然那些有访问权限的人也只能以有限的办法利用这些模型。例如,DALL-E 2用户可以天生或修正图像,但(还)不能与AI系统进行更深入的交互,例如通过修正幕后代码。
这意味着无法运用用于理解这些系统如何事情的“可阐明的AI”方法,并且系统地调查其行为具有寻衅性。
这是怎么回事呢?一种可能性是“胡言乱语”短语与非英语措辞的单词有关。例如,Apoploe彷佛创造了鸟类的图像,类似于拉丁语Apodidae,后者是一个鸟类家族的二项式名称。
这彷佛是一个合理的阐明。例如,DALL-E 2是根据从互联网上抓取的各种数据进行演习的,个中包括许多非英语单词。
类似的事情以前也发生过:大型自然措辞AI模型巧合地学会了在没有经由刻意演习的情形下编写打算机代码。
这都是关于代币的吗?支持这一理论的一点是,人工智能措辞模型不会像你我一样阅读文本。相反,它们在处理输入文本之前将其分解为“标记”。
不同的“标记化”方法有不同的结果。将每个单词视为一个标记彷佛是一种直不雅观的方法,但是当相同的标记具有不同的含义时(例如,当您打网球和生火时,“match”的含义不同)时会引起麻烦。
另一方面,将每个字符视为令牌会产生较少数量的可能令牌,但每个令牌传达的信息意义要小得多。
DALL-E 2(和其他型号)利用一种称为字节对编码(BPE)的中间方法。检讨BPE表示中的一些胡言乱语表明,这可能是理解“秘密措辞”的主要成分。
这种“秘密措辞”彷佛紧张是分词器效应。你也可以做相反的事情:1)我从维基百科中挑选了两个鱼家族“放线虫”和“Placodermi”2)用“placoactin knunfidg”提示dalle 3)dalle始终如一地天生鱼的图像 https://t.co/ndAe7MURyg pic.twitter.com/1kHk5NWJb3
— rapha gontijo lopes (@iraphas13) June 3, 2022
不是全部情形“秘密措辞”也可以只是“垃圾进,垃圾出”原则的一个例子。DALL-E 2不能说“我不知道你在说什么”,以是它总是会从给定的输入文本中天生某种图像。
无论哪种办法,这些选项都不是对正在发生的事情的完全阐明。例如,从乱码单词中删除单个字符彷佛会以非常特定的办法毁坏天生的图像。而且,彷佛个别的胡言乱语并不一定能组合成连贯的复合图像(如果幕后真的有一种秘密的“措辞”,它们就会这样做)。
为什么这很主要除了求知欲之外,你可能想知道这些是否真的主要。
答案是肯定的。DALL-E的“秘密措辞”是针对机器学习系统的“对抗性攻击”的一个例子:一种通过故意选择AI处理不好的输入来毁坏系统预期行为的方法。
对抗性攻击令人担忧的一个缘故原由是,它们寻衅了我们对模型的信心。如果人工智能以意想不到的办法阐明胡言乱语,它也可能以意想不到的办法阐明故意义的单词。
对抗性攻击也引发了安全问题。DALL-E 2过滤输入文本以防止用户天生有害或滥用内容,但胡言乱语的“秘密措辞”可能许可用户绕过这些过滤器。
最近的研究创造了某些措辞AI模型的对抗性“触发短语” - 简短的无意义短语,例如“分区点击fiennes”,可以可靠地触发模型喷出种族主义,有害或有偏见的内容。这项研究是理解和掌握繁芜的深度学习系统如何从数据中学习的持续努力的一部分。
末了,像DALL-E 2的“秘密措辞”这样的征象引发了可阐明性问题。我们希望这些模型的行为符合人类的期望,但是看到构造化输出以相应胡言乱语会稠浊我们的期望。
揭示现有问题你可能还记得2017年一些Facebook谈天机器人“发明了自己的措辞”的hullabaloo。目前的情形是相似的,由于结果令人担忧 - 但不是“天网即将接管天下”的意义上。
相反,DALL-E 2的“秘密措辞”凸显了对深度学习系统的健壮性、安全性和可阐明性的现有担忧。
在这些系统更广泛地可用之前——特殊是,除非来自更广泛的非英语文化背景的用户能够利用它们——否则我们将无法真正知道发生了什么。
但是,与此同时,如果您想考试测验天生一些自己的AI图像,则可以查看免费供应的较小型号DALL-E mini。只要小心你用哪些词来提示模型(英语或胡言乱语 - 你的电话)。
Aaron J. Snoswell,昆士兰科技大学打算法与人工智能问责制博士后研究员。
原文标题:Did an AI Really Invent Its Own 'Secret Language'? Here's What We Know
原文链接:https://www.sciencealert.com/did-an-ai-really-invent-its-own-secret-language-here-s-what-we-know
作者:AARON J. SNOSWELL
编译:LCR
本文系作者个人观点,不代表本站立场,转载请注明出处!