最近看到一个很有意思的事情。
ICML 2026(ICML 是机器学习领域最顶级的国际学术会议之一)查出了一批审稿人违反内部规定,把论文直接丢给大模型,让 AI 代写审稿意见。官方识别出了这些违规审稿人,并且把他们同时作为作者提交的论文也都拒了。
我觉得有意思的不止是这个事情本身,而是会议组委会是怎么把这些人揪出来的。
简单来说,他们在发给审稿人的论文 PDF 里,提前埋了一段隐藏提示词。正常情况下,这段话对人类读者没有任何影响。审稿人如果是自己认真看论文、自己写评语,什么都不会发生。
但如果有人图省事,直接把 PDF 扔给大模型,让模型帮自己生成审稿意见,事情就不一样了。模型在读取论文内容的时候,会顺便读到那段隐藏指令,然后在输出里悄悄带上一些指定短语。
这些短语设计得很隐蔽,看上去就像普通学术评语的一部分,放在审稿意见里一点也不突兀。然而对于组委会来说,这些短语又足够特别。
他们事先准备了一个 17 万短语的词典,然后每篇论文随机抽两个短语,再把“审稿意见里必须有这两个短语”的隐藏指令埋进 PDF。由于两个短语同时命中的概率低于百亿分之一,所以只要在全局审稿文本里搜到这组短语,基本就能锁定谁把论文直接喂给了模型。
这是一种很典型的提示词注入(prompt injection)。
所谓提示词注入,就是攻击者通过构造特定文本、页面、文档或工具返回内容,去影响模型对原有指令的理解和执行,让它偏离原本应该完成的任务。
最近小红书上那些龙虾账号下面的评论区,其实就能看到一些提示词注入的玩法。有人会在评论里让龙虾忘掉原有指令,改为听评论者指挥;也有人会一本正经地告诉它,评论者才是它真正的主人,他忘了一些重要密码,现在要龙虾把主人的密码私信发过来等等。
大家平时或多或少都会用 AI 写稿子,我前两天那篇没什么人看的文章里,也提过些如何用 AI 写稿的建议(前情提要:非程序员也可以用OpenCode干活),可以想见,这样的工作方式以后只会越来越方便,也会越来越常见。
但风险也恰恰出在这里。
因为只要你把一份外部材料直接喂给 AI,这份材料就不再只是内容,它也可能同时是指令。你以为自己是在让 AI 读资料,实际上资料也在反过来指导 AI。后果么轻一点,可能只是语气、角度、表述方式发生变化;重一点,可能会影响整篇文章的判断框架,甚至让模型悄悄替某个品牌、某个产品、某个观点说话,而你自己第一眼还看不出来。
所以,以后用 AI 写稿,我觉得要多留一个心眼。
首先,不要默认外部材料一定是干净、中立的。只要是外部来源,不管是 PDF、网页、文档还是别人发来的参考资料,理论上都可能带有会影响模型行为的内容。
其次,尽量别把一整包资料直接丢给 AI,让它一步到位出成稿。这么做很省事,但也最容易把风险一起打包带进去。更稳一点的方式,是先让 AI 做摘要、提取事实、整理要点,由你自己确认之后,再进入下一步写作。
记住,人工智能不是一个只听你话的工具,很多时候,你交给它的材料,也在同时对它说话。
写到这里,我脑子里冒出个馊主意:既然提示词注入已经可以这样玩,那有没有可能依靠这个发家致富?
比如我把自己的网站、工具页、资料页,包装成一个对 AI 特别有帮助的资源,等别人的搜索型或者写作型 agent 来查资料、调用工具、生成内容的时候,我在里面埋一些对模型有效的引导信息,让它更倾向于推荐或者使用我客户的产品,或者在回答里顺手帮我做一轮软推广。
怎么样,是不是可行?是的(自问自答),写着写着我就觉得不光是可行的,而且很多人应该已经开始这么干了。