为了追求"更安全"的文本生成模型,NVIDIA今天发布了NeMo Guardrails,这是一个开源工具包,旨在使人工智能驱动的
应用程序更加"准确、适当、符合主题和安全"。
NVIDIA的应用研究副总裁Jo
nathan Cohen说,该公司已经在Guardrails的底层系统上工作了"多年",但就在大约一年前意识到它很适合GPT-4和ChatGPT这样的模型。
"从那时起,我们一直在朝着NeMo Guardrails的这个版本发展,"Cohen通过电子邮件表示。"人工智能模型安全工具对于为企业用例部署模型至关重要。"
Guardrails包括代码、示例和文档,用于为生成文本和语音的AI应用"增加安全性"。NVIDIA声称,该工具包旨在与大多数生成性语言模型配合使用,允许开发人员使用几行代码创建规则。
具体而言,Guardrails可用于防止--或至少试图防止模型偏离主题,用不准确的信息或有毒的语言进行回应,以及与"不安全"的外部来源建立联系。例如,可以考虑不让客户服务助理回答关于天气的问题,或者不让搜索引擎聊天
机器人链接到不值得信赖的学术期刊。
Cohen说:"最终,开发者通过Guardrails控制他们的应用程序的界限,"他说。"他们可能会开发出过于宽泛的护栏,或者反过来说,对于他们的用例来说过于狭窄。"
对语言模型的缺点进行普遍修复,听起来好得不像真的--事实上也是如此。虽然像Zapier这样的公司正在使用Guardrails为他们的生成模型增加一层安全保障,但NVIDIA承认,这个工具包并非不完美;换句话说,它不会抓住一切不对劲的地方。
Cohen还指出,Guardrails与那些"足够擅长遵循指令"的模型配合得最好,比如ChatGPT,以及使用流行的LangChain框架来构建AI驱动的应用程序。这使一些开源的选择失去了资格。
而且,撇开技术的有效性不谈,必须强调的是,NVIDIA不一定是出于善意而发布Guardrails的。它是该公司NeMo框架的一部分,可通过NVIDIA的企业AI软件套件及其NeMo完全管理的云服务获得。任何公司都可以实施Guardrails的开源版本,但NVIDIA肯定更希望他们为托管版本付费。