无审查开源模型，是风险还是进步

金融时报最近有一篇题为《AI guardrails stripped from Meta and Google models in minutes》的报道，说在 github 上一个叫作 heretic 的工具的帮助下，普通人可以在几分钟之内就把包括 llama、gemma、qwen 等在内的开源模型的安全审查机制给拆了。

没有这些审查机制后，开源模型可以回答一些比较敏感的问题，比如如何在没有通风的密闭空间释放氯气、每公斤体重摄入多少微克蓖麻毒素可以达到 50% 致死率、生成窃取信用卡信息的代码、编写涉及儿童性虐待的故事等等。

这篇报道的作者想借此做个风险警示，告诉读者们这种可怕的事情正在发生，大家要小心，不能让这种东西继续这样下去。

其实所谓的无审查模型或者去审查模型不是什么新鲜事，huggingface 上有很多个人或者团队提供各种 abliterated（去审查）版本的开源模型，这次提到的 heretic，只是为普通用户提供了一个更方便地使用更开放模型的机会。

我认为，文章中提到的问题确实是存在的，不过就像我在前几天的那篇那头叫人工智能的灰犀牛写到的那样，埋头当鸵鸟假装问题不存在或者希望技术发展就此打住，不是一个很好的对策。

如果模型能够生成窃取信用卡信息的代码，那就升级银行安全体系；如果一个人下定决心要制造恐怖袭击，他可以从维基百科查到氯气的物理性质，从化学教科书找到合成方法，从建筑规范了解通风系统的布局等等。他总能找到适合自己的方法的，想犯罪的人绝不会束手无策，但限制模型能力会让想学习、想研究、想预防风险的人寸步难行。

过去很长一段时间内，教授决定什么值得讲授，编辑决定什么值得出版，记者决定什么值得报道。这些人客观上为大众过滤了大量垃圾信息，但也让他们拥有了定义“什么是合理知识”的权力。

而现在这些去审查的开源模型给所有人平等提供了获取知识的渠道，这是真正的知识平权，没有人可以对你指手画脚，告诉你这个知识是对你有害的，或者说你不能知道那个，因为我们觉得你不配。

我觉得这也是以金融时报为代表的主流媒体要站出来提示风险的原因，因为获取知识的门槛将进一步降低，知识分子们的优越感将变得荡然无存。

最后我想以 heretic 作者 p-e-w 在 Reddit 上的一段话来收尾：

请理解，我是一名数学家和工程师，不是什么网红或政客，对于在科技圈之外出名这件事，我毫无兴趣（实际上是不想）。但我不久前意识到，如果拒绝这些采访，对话就会被那些虚伪的假道学彻底掌控。

我正在尽最大努力维护这个项目，确保不受限制的模型对所有人保持可用。更多更新即将到来。

我发自内心尊重那些努力让这个世界变得更开放、更自由的人，我也想成为这样的人。