为了应对这种情况,堪萨斯大学的化学教授Heather Desaire和她的团队开发了一种新的AI检测工具,可以高效准确地区分科学文本是由人类还是ChatGPT生成的,他们的研究结果发表在《细胞报告物理科学》杂志上。
Desaire教授说,她和她的团队首先分析了64篇《科学》杂志上的“观点”文章,这些文章是对当前研究进行评论和评价的综述性文章。然后,他们又分析了128篇由ChatGPT生成的关于同样研究主题的文章。通过比较两者,他们找出了20个特征,可以帮助判断科学文本的作者身份。
他们发现,人类科学家和ChatGPT在段落复杂度、句子长度、标点符号和词汇使用等方面有明显不同。例如,人类科学家更倾向于使用括号、破折号、问号、分号和大写字母,而ChatGPT则不常用。人类科学家也更喜欢使用“模棱两可的语言”,如“然而”、“尽管”、“但是”等。此外,人类科学家写作时既有很短的句子,也有很长的句子,而ChatGPT则比较平均。
基于这20个特征,他们使用了一种现成的机器学习算法XGBoost来训练他们的AI检测工具,他们测试了他们的AI检测工具在180篇文章上的表现,发现其非常擅长判断一篇科学文章是由人类还是ChatGPT写作的。“这种方法有超过99%的准确率”,Desaire教授说,并补充说这比现有的工具要好得多,因为现有的工具是在更广泛的文本类型上进行训练的,而不是专门针对科学文本的。
Desaire教授说,这种AI检测工具可以帮助期刊编辑处理大量使用ChatGPT写作的文章,可以让他们优先考虑哪些文章值得送审。她还说,这种工具可以根据不同的领域进行调整,比如用来检测学生的剽窃行为,只要在适合的语言上进行训练就行。“你可以把它改造用于你想要的任何领域,只要想好哪些特征是有用的。”
然而IT之家注意到,并非所有人都认为这种AI检测工具有多大用处。南澳大利亚大学变化与复杂性学习中心(C3L)的Vitomir Kovanović博士说,Desaire教授和她的团队所做的比较是不现实的,因为他们只比较了100%由AI生成和100%由人类生成的文本,而没有考虑到人类和AI之间的协作。他说,当科学家使用ChatGPT时,往往会有一定程度的人机合作,比如科学家会编辑AI生成的文本。这也是必要的,因为ChatGPT有时会出错,甚至会生成虚构的参考文献。但是由于研究者只比较了两种极端情况,他们的成功率就被提高了。
阿德莱德大学机器学习研究所的Lingqiao Liu博士也认为,在真实世界中,这种AI检测工具的准确率可能会降低,导致更多的错误分类。Liu博士是一位开发算法来检测AI生成图像的专家,他说:“从方法论上讲,这没问题,但使用它有一定风险。”
另一方面,Liu博士指出,人们也有可能指示ChatGPT以特定的方式写作,从而让100%由AI写作的文本通过检测。事实上,一些评论员甚至谈到了一个“军备竞赛”,指的是那些试图让机器更像人类和那些试图揭露那些出于恶意目的使用这项技术的人之间的竞争。
Kovanović博士认为这是“没有意义的竞赛”,因为这项技术有着强大的发展势头和潜在的积极影响。他说,AI检测“没有抓住重点,我认为我们最好把精力投入到如何有效地使用AI上。”他还反对使用反剽窃软件来评估大学生是否使用了AI写作,并称这给学生造成了不必要的压力。