TechCrunch Minute: Anthropic如何发现一个技巧,让AI给出本不应给出的答案

如果你建造它,人们会试图破坏它。有时甚至建造东西的人也会是破坏者。Anthropic和其最新的研究正是如此,展示了当前LLM技术中一个有趣的漏洞。更确切地说,如果你不断追问一个问题,你可以打破防护栏,最终使大型语言模型告诉你它们本来不应该告诉的东西。比如如何制造炸弹。

当然,考虑到开源AI技术的进展,你可以在本地快速启动你自己的LLM并随意提问,但对于更多面向消费者的东西,这是一个值得深思的问题。如今AI令人兴奋的地方在于它发展迅速,并且我们作为一个物种在更好地理解我们正在构建的东西方面做得如何,这是个大问题。

如果你允许我思考,我想知道随着LLMs和其他新的AI模型类型变得越来越聪明、更大,我们是否会看到更多类似Anthropic所概述的问题和挑战?这也许是我在重复自己。但我们越接近更广义的人工智能智能,它应该越像一个思考实体,而不是我们可以编程的计算机,对吗?如果是这样,我们可能会更难以确定边缘案例,直到那项工作变得不切实际?无论如何,让我们一起讨论Anthropic最近分享的内容。