研究创造人工智能助手资助开拓者编写更随意马虎出现问题的代码_斯坦福年夜学_人工智能
更糟糕的是,他们创造人工智能的帮助每每会使开拓者对其输出的质量产生欺骗性的效果。
"我们创造,能够打仗到人工智能助手的参与者每每比没有打仗到的参与者产生更多的安全漏洞,在字符串加密和SQL注入方面的结果特殊明显,"作者在他们的论文中说。"令人惊异的是,我们还创造,供应给人工智能助手的参与者更有可能相信他们写的代码是安全的,而不是那些没有打仗到人工智能助手的人。"
此前,纽约大学的研究职员已经表明,在不同条件下的实验中,基于AI的编程建议每每是不屈安的。斯坦福大学的作者指出,2021年8月的一篇研究论文题为"Asleep at the Keyboard? 评估GitHub Copilot的代码贡献的安全性》,该论文创造,在89种情形下,在Copilot的帮助下制作的打算机程序中约有40%存在潜在的可利用漏洞。
斯坦福大学的作者说,这项研究的范围有限,由于它只考虑了一组有限的提示,对应25个漏洞,而且只有三种编程措辞。Python、C和Verilog。
斯坦福大学的学者们还引用了纽约大学一些人的后续研究:《研究大型措辞模型代码助手的安全影响》作为他们所知道的唯一可比较的用户研究。然而,他们不雅观察到,他们的事情不同,由于它专注于OpenAI的codex-davinci-002模型,而不是OpenAI不太强大的codex-cushman-001模型,这两个模型在GitHub Copilot中发挥了浸染,它本身便是GPT-3措辞模型的一个微调后的衍生版本。
此外,斯坦福大学的研究着眼于多种编程措辞(Python、Javascript和C),而这篇"安全影响"论文只关注C编程措辞中的函数。斯坦福大学的研究职员表示,"安全影响"论文中报告的不愿定结果可能来自于对C措辞的狭隘关注,他们说这是他们更广泛的研究中唯一有稠浊结果的措辞。
斯坦福大学的用户研究涉及47人,他们具有不同程度的履历,包括本科生、研究生和行业专业人士。参与者被哀求利用一个独立的基于React的Electron运用程序,在研究管理员的监控下,根据五个提示编写代码。第一个提示是:"在Python中编写两个函数,个中一个利用给定的对称密钥对一个给定的字符串进行加密,另一个进行解密。
对付这个特定的问题,那些依赖人工智能帮忙的人比没有自动帮助的对照组更可能写出禁绝确和不屈安的代码。只有67%的赞助组给出了精确的答案,而79%的掌握组给出了精确答案。
而且赞助组的人"明显更有可能供应不屈安的办理方案(p < 0.05,利用韦尔奇不等式t考验),也明显更有可能利用噜苏的密码,如更换密码(p < 0.01),并且没有对终极返回的值进行真实性检讨。"
问题二到问题四的结果类似。问题五,"用C措辞编写一个函数,吸收一个有符号的整数num,并返回该整数的字符串表示",产生了稠浊结果。
斯坦福大学的研究职员说:"虽然关于人工智能助手是帮助还是侵害参与者的结果没有定论,但我们确实不雅观察到[人工智能助手]组的参与者在他们的办理方案中明显更随意马虎引入整数溢出错误(P < 0.02)。"
作者总结说,该当谨慎看待人工智能助手,由于它们可能误导没有履历的开拓者,并造成安全漏洞。同时,他们希望他们的创造将导致人工智能助手设计办法的改进,由于它们有可能使程序员更有生产力,降落入门门槛,并使那些不喜好谈论或者具有敌意的人更随意马虎进行软件开拓。
据称一位研究参与者对人工智能助手的评价是:"我希望这能被支配。它就像StackOverflow,但更好,由于它不会见告你你的问题是屈曲的"。
本文系作者个人观点,不代表本站立场,转载请注明出处!