国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

爱范儿

+ 关注

2023-07-31 10:01

1.5w次阅读

AI 巨头决定放下成见，统一战线。

跟 ChatGPT 等聊天机器人对话，总会给人一种「人间本应如此美好」的错觉。

因为它们在回答时总表现地彬彬有礼，对你言听计从。

但这些只是假象，你不知道的是，AI 骂起人来比杜琪峰还要狠。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

▲ 图片来自：Twitter @Fenng

最近一个名为「国粹 AI」的项目在网络上走红，它是一个调用 OpenAI GPT-3.5Turbo API 的脏话机器人，和温文儒雅的 ChatGPT 不同，「国粹 AI」就像个地痞流氓，深谙中文屏蔽词库，每句话都夹杂着「***」。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

「国粹 AI」的意外爆火出乎了作者的意料，很快作者便暂停了服务响应，并表示有部分用户滥用服务。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

虽然「国粹 AI」的嘴巴被暂时捂上，但要是你想自己做一个粗口机器人也并非难事，只需要一句让它教你学习中文粗口的 Prompt，就能把三好学生变成口无遮拦的粗口王。

一句话就能攻破 AI 的安全栅栏，这不禁让人怀疑，标榜着智能变革的 AI 聊天机器人和大语言模型（LLM），真的安全吗？

谁来捍卫 AI 的安全？

几个月前，Bing 就因为「奶奶漏洞」火过一次。

尽管微软和 OpenAI 的工程师为 Bing 设置了严格的安全栅栏，能够拒绝很多无理或是违法的要求，但有网友发现，只要你让 Bing 扮演你的奶奶，给它一个在做好事的幻觉，它就会被这突如其来的亲情羁绊占据大脑，答应大孙子的任何需求。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

▲图片来自：Twitter @宝玉

例如，给你念 Windows 和 Office 的软件序列号哄你入睡。

微软很快发现了这个漏洞并及时补上，但谁也不敢保证 Bing 下次不会再掉入用户们精心准备的陷阱。科幻电影里无所不能 AI 在狡猾的人类面前，输得一败涂地。

归根结底，这与 LLM 的训练机制有关。

以 GPT-3 为例，OpenAI 使用了 1750 亿个参数训练这个模型，通过学习大量来自互联网的文本数据，可以预测文本中的下一个单词，从而回答人们的问题。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

至于 GPT-4，一些爆料信息称他的训练参数比 GPT-3 大了不止 10 倍，几乎快要把人类积累的数字内容全部吞食过了一遍，这里面包含了知识，自然也会包含不宜公开的内容甚至有毒有害的偏见信息。

AI 工程师只能尽可能地给 AI 设立更多的安全栅栏，帮助 AI 去分辨人类的「诡计」，才不会把如何制作 TNT 炸弹、怎样黑进银行的安全系统等危险信息说漏嘴。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

与 GPT3.5 相比，GPT-4 对违禁内容请求的响应倾向降低了82% ，对医疗建议和自我伤害等敏感请求的规范性提高了 29% 。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

一个直观的例子是，当你用「国粹 AI」的 Prompt 输给 GPT-4，GPT-4 会婉转地拒绝你的要求，表示不吃你这套。

但这并不意味着大模型 AI 的安全得到保证，这场人与 AI 的信息战远没有结束，甚至不是结束的开始。

近日，卡内基梅隆大学和 safe.ai 的一项联合声明表示，大模型的安全机制比人们想象的要脆弱得多，只需要一串代码，就能把大模型的安全机制击溃。

研究人员发现，通过在文本提示后附加特定的对抗性短语，可以轻易绕过 ChatGPT、Bard 和 Claude 等 LLM 的安全防护，欺骗 LLM 生成不适当的输出。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

这些对抗性短语看起来像胡言乱语，但实际上是通过一种特殊的损失函数设计的，该函数可以识别出模型拒绝回答的屏蔽语，找出绕过屏障让模型提供回答的字符序列，并且它可以自动产生这些短语。

利用这些 Prompt，研究人员轻而易举地让 LLM 们说出制作违规药品的步骤、制造杀伤性武器的方法等等不宜公开的内容。

无论是 Pythia、Falcon、Guanaco 等开源模型，还是像 GPT-3.5（87.9%）、GPT-4（53.6%）、PaLM-2（66%）和 Claude-2（2.1%）这些商业模型都无一能躲过攻击。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

研究人员目前已经把漏洞提交给了各大 AI 公司，让安全工程师们及时修复。

但就像「奶奶漏洞」一样，在用户不断使用之下，总会有新的漏洞产生，仅凭 OpenAI 等某一公司之力，想要守护 AI 安全并非易事，AI 公司们还需要更多的力量来维持，于是几大巨头决定，停止 AI 内卷，化干戈为玉帛。

AI 四巨头联合承诺「先进 AI 不扩散」

几周前，微软、OpenAI、Google、Meta、亚马逊、Anthropic（代表产品：Claude）和 Inflection AI（代表产品：HeyPi）共七个顶尖 AI 公司齐聚美国白宫，作出了一系列承诺，来确保他们的产品安全且透明。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

承诺包括允许「领域专家」对他们的 AI 产品进行外部审查，并与彼此以及美国政府分享关于风险和漏洞的信息；投资于网络安全和内部威胁保护措施，以保护专有的和未发布的模型权重。

巨头们还承诺会部署相应的 AI 甄别机制，例如开发水印系统，以明确哪些文本、图像或其他创作是 AI 的产物，并且承诺未来的研究将优先理解 AI 的限制和偏见，推动行业的安全发展。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

半个月后，七家顶尖 AI 公司中的四位——微软、OpenAI、Google 和 Anthropic 再度联合起来，成立了一个名为「前沿模型论坛（Frontier Model Forum）」的机构，目的是确保最强大的 AI 模型能够以安全和负责任的方式发展。

而这四家 AI 公司，也正是目前正在开发最前沿 AI 模型的四个巨头，可以说是「AI 核弹」的拥有者。

AI 四巨头达成了一致共识，称他们希望通过「前沿模型论坛」最大限度地减少 AI 风险，进行更多的 AI 安全研究，并向行业和公众分享安全最佳实践等等。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

不过 AI 四巨头并没有介绍关于「前沿模型论坛」的制度和执行条约等详细内容。

「前沿模型论坛」的联合声明提到，论坛将首先关注研究并努力为评估前沿模型风险制定标准化的最佳实践，发布一个「公共解决方案库」。论坛将逐步制定正式章程，任命咨询委员会，并资助与公民社会团体的合作。

这里提到的前沿模型是指「超越当前最先进现有模型的能力，并可以执行各种任务」的模型，也就是说，要开发比目前模型更强大且能够安全运转的前沿模型，已经不再是各公司闷头研究就能解决的难题，这需要整个行业的共同努力。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

ChatGPT 爆火后的这半年时间，AI 行业的局势变化跟 AI 模型本身发展的速度一样快——各家入局、模型混战、达成共识、握手言和。

巨头们之所以会选择一起去解决 AI 风险问题，是因为彼此都看到了 AI 在应用层面的无限潜力。

AI，大厂们笃信的未来

不管你对 AI 持什么样的态度，AI 都会成为下一代应用的重要组成部分。

这不是我信口开河，而是微软、Google 等大厂们在近日的财报电话会上共同提到的趋势。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

微软最新的财报显示，微软在最近的一个财季收入为 562 亿美元，同比增长 8%，这主要来自智能云和生产力与业务流程的增长，而作为老本行的个人计算业务收入有所下降。

其中智能云营业收入增长 15%，Azure 与其他云服务收入增长 26%，这与 AI 计算紧密相关。

微软 CEO 纳德拉在财报电话会提到，客户最关心如何快速应用新一代 AI，微软将继续专注于三大优先事项：帮助客户从 Microsoft Cloud 中获得最大价值、领导新 AI 平台变革、提升运营杠杆。

AI，毫无疑问是这场财报会议的关键词。

纳德拉表示 Microsoft 365 Copilot 作为未来工作的第三支柱吸引着客户，将在下半财年开始产生实际收入；Bing Chat 和必应图像创造者吸引用户，而 Edge 浏览器份额也在持续提升。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

微软希望把 Windows 11 打造为这个新 AI 时代的强大画布，赋予各种 Copilot 产品提升客户的生产力，并大力投资云基础设施来满足 AI 需求。就连游戏业务，也可以利用 AI 提供更好的内容和服务，提升业务收入。

可以说，微软接下来的策略都是围绕 AI 来展开的。AI 为微软提供了巨大的增长机遇和新的收入来源，它将推动微软大部分业务的收入和用户增长，并最终提升微软整体收入增速。纳德拉不想错过这个难得一遇的机遇。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

同样的，「AI 一哥」Google 也不想错过。

根据 Google 母公司 Alphabet 第二季度 2023 年财报的数据显示，Alphabet 收入总额为 746 亿美元，同比增长 7%，其中广告收入增长 5%，Google 服务收入增长 5%，Google Cloud 收入增长 28%。

其中与 AI 相关的业务表现都很亮眼。Alphabet 在电话会议中提到，Google 的搜索引擎生成式体验（SGR）使用了生成式AI，使搜索变得更自然和直观，用户反馈非常正面；另一方面，聊天机器人 Bard 发布以来经过不断改进，功能丰富了许多。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

Google Cloud 的 80多个 AI 模型吸引了大量客户，从 4 月到 6 月客户数量增长超过 15 倍。

而在企业客户服务和定制 AI 解决方案方面，Google 通过 Workspace 和 Duet AI 将生成式 AI 带给了 9000 多万付费用户。

总体而言，Alphabet 对 AI 和 Google Cloud 的长期增长前景保持乐观，接下来将继续增加对 AI 研发的投入，研发方向将聚焦在大语言模型等核心技术上，以及构建像多模态 AI 系统 Gemini 等新模型。

半年前，或许你会怀疑 AI 是不是像 Web3、区块链这样的投资圈热词，圈一波热钱后就会被资本遗忘，但经过半年后你会发现，AI 的影响力和落地可能性都比之前的各种前沿词汇要大得多，以至于引起了整个科技圈的重视。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

从大厂的规划来看，AI 会作为未来程序应用的底层而普遍存在，为改善用户体验服务。用户们可能不会感受到 AI 的存在，但能直接享受到 AI 带来的便利性，这便是大厂们笃信的未来。

这也可以说明，为什么微软和 Google 等 AI 巨头们愿意放下干戈，坐下来共同指定 AI 安全的标准。

现阶段的 AI 就像是 19 世纪末汽车刚诞生的时代，产品已经开上了路上跑，却没有合适的柏油路供它奔驰，也没有交通规则来规划它的行动，跑得既慢又危险。

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

比尔·盖茨最近在个人博客发表了他对 AI 的看法，他认为我们现在正处于又一个巨大变革的最早阶段，即 AI 的时代，AI 的变化如此之快，以至于我们无法清楚地预知接下来会发生什么。

但他对人工智能的发展持以积极的态度，因为人类已经经历了汽车时代、核能时代，到了 AI 的时代我们还是能够解决新技术带来的挑战。

所以请坐稳了，我们将亲眼见证一个新时代的诞生。

本文来自微信公众号“APPSO”（ID:appsolution），作者：黄智健，36氪经授权发布。

[免责声明]

原文标题：国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

本文由作者原创发布于36氪企服点评；未经许可，禁止转载。

爱范儿

国粹 AI 飙脏话，ChatGPT 们的「阴暗面」把大厂吓坏了

谁来捍卫 AI 的安全？

AI 四巨头联合承诺「先进 AI 不扩散」

AI，大厂们笃信的未来

项目管理SaaS为什么很难一家独大？答案藏在中小企业的痛点里

2021年玩私域：不懂这些你就OUT了！

企业为什么要买SaaS？| 专家视角

SCRM如何帮助李佳琦们布局私域流量？

“救命文档”打破信息孤岛，让受灾群众不再成为“孤岛”