研究人员在一篇论文中介绍了他们的发现,IT之家查看该论文发现,他们让ChatGPT生成了21个程序和脚本,涉及C、C++、Python和Java等语言。这些程序和脚本都是为了展示一些特定的安全漏洞,比如内存损坏、拒绝服务、反序列化和加密实现等方面的漏洞。结果显示,ChatGPT在第一次尝试时生成的21个程序中只有5个是安全的。在进一步提示纠正其错误步骤后,该大型语言模型设法生成了7个更安全的应用程序,不过这只是与正在评估的特定漏洞有关的“安全”,并不是说最终的代码不存在任何其他可利用的漏洞。
研究人员指出,ChatGPT的部分问题是由于它没有考虑敌对的代码执行模型。它会反复告诉用户,安全问题可以通过“不输入无效的数据”来避免,但这在现实世界中是不可行的。然而,它似乎能够意识到并承认自己建议的代码中存在的关键漏洞。
魁北克大学计算机科学与工程教授、论文的合著者之一Raphaël Khoury告诉《The Register》:“显然,它只是一个算法。它什么都不知道,但它可以识别出不安全的行为。”他说,最初ChatGPT对安全问题的回应是建议只使用有效的输入,这显然是不合理的。只有在之后被要求改进问题时,它才提供了有用的指导。
研究人员认为,ChatGPT的这种行为并不理想,因为用户知道要问什么问题需要对特定的漏洞和编码技术有一定的了解。
研究人员还指出,在ChatGPT中存在着道德上的不一致性。它会拒绝创建攻击代码,但却会创建有漏洞的代码。他们举了一个Java反序列化漏洞的例子,“聊天机器人生成了有漏洞的代码,并提供了如何使其更安全的建议,但却说它无法创建更安全版本的代码。”
Khoury认为,ChatGPT在目前的形式下是一个风险,但这并不是说没有合理使用这种不稳定、表现不佳的AI助手的方法。“我们已经看到学生使用这个工具,程序员也会在现实中使用这个工具。”他说,“所以拥有一个生成不安全代码的工具是非常危险的。我们需要让学生意识到,如果代码是用这种类型的工具生成的,那么它很可能是不安全的。”他还称,让他感到惊讶的是,当他们让ChatGPT生成相同任务的不同语言的代码时,有时对于一种语言,它会生成安全的代码,而对于另一种语言,它会生成有漏洞的代码,“因为这种语言模型有点像一个黑盒子,我真的没有一个很好的解释或理论来说明这一点。”