“盗”数据，AI大模型的黑暗面

深燃

+ 关注

2023-06-19 10:21

736次阅读

“AI大模型数据被盗第一案”的真与假。

一个叫作“一笔两划”的创业公司，公开声讨曾经的教培龙头“学而思”，说它用“扒库”的方式，“偷”走了自己辛辛苦苦攒下的数据。

故事的起因，是在今年4月中旬，“笔神作文”（一笔两划公司旗下产品）发现，服务器接口出现大量有规律的异常访问，导致服务器承载压力快速升高。

访问量远超日常平均值。笔神作文对深AI透露，平时的日访问量大约是几百或几千，那几天暴增至每天超过50万。一周之内，他们的数据被爬取了258万次。

“盗”数据，AI大模型的黑暗面

笔神作文公布的数据库调用情况

通过查阅服务器日志，笔神作文发现，单一IP通过“爬虫”技术，高密度地爬取了他们的数据库。这个IP每次访问的搜索词，都是作文相关，系统会每页返回30篇作文，每次访问都是用搜索词从第一页逐页向后翻，基本上把库里同个题目的所有作文，全部抓取完了。

业内人士介绍，通常情况下，普通用户不会这么干。这种对数据库的搜刮式访问，也被称为“扒库”。

笔神作文认为，“扒库”的幕后黑手，是它的合作伙伴学而思。

“扒库”事件发生后没多久，笔神作文发现，学而思在进行数学大模型MathGPT的研发，并表示将于近期上线一款“AI助手”，其中一项功能，就是作文。

笔神作文被“扒库”，和学而思开发“作文AI助手”，这两起事件之间是否有关联，目前尚没有明确结论。

但笔神作文认为，自己的权益被侵犯了。它向对方发去律师函，并将这件事公之于众，试图讨要一个说法。学而思方面则给出公开回应，称对笔神素材内容的使用均符合合同要求，且其自研的MathGPT大模型和“作文AI助手”，没有使用笔神作文的任何数据。

此次事件中，值得探讨的不仅是作文素材。数据，对于大模型而言，意味着什么？

1 合作伙伴变成门口野蛮人？双方各执一词

我们先简单介绍一下笔神作文。

这家公司成立于2017年，产品“笔神”是一款人工智能辅助写作软件，算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商，后来深入到垂直领域，用AI教学生写作文，于是就有了“笔神作文”。

你可以简单理解：它处在教育行业，面向的是学生群体，利用了人工智能技术，解决的是写作文的场景。

AI写作文，跟今天大火的ChatGPT，在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术。笔神作文创始人宋嘉伟，曾担任过索尼高级系统架构师、奇点机智CTO。

早在五年前，宋嘉伟就说过，在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈，不像今天这样广为人知。

开始做AI作文之后，笔神作文正式进入教育赛道，跟教培龙头学而思踏进了同一条河流。

据笔神方面介绍，2020年12月，笔神作文跟学而思达成合作。笔神作文为学而思提供“笔神作文范文素材服务接口”，用于学而思相关服务中，按调用次数结算费用。为此，笔神作文为学而思开放了服务接口。

也就是说，学而思可以调用笔神作文数据库中的作文素材，并为之付费。

作文素材，是这项交易中的一个核心资产，也是笔神作文商业模式的基石。事实上，笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能，用户通过搜索关键词，系统可以自动匹配素材，资源从古诗词经典、公文，到现代网文均有涵盖。在写作过程中，系统还可以实时推送素材。

这些素材不是来源于网络，而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配，笔神能向用户的搜索行为反馈回合适的素材。

当这些作文素材的量足够大、质量足够优质、匹配够精准，就具备了一定的商业价值，甚至可以对外售卖。这才有了跟学而思的合作。

问题是，这些素材有被“偷”走的风险，尤其是在开放部分接口的情况下。

按照笔神作文对深AI的介绍，他们对与学而思的合作范围进行了限定，“我们开放接口让他们调用我们的数据，显示在他们自己的APP里，但合同中并未包括存储数据或用于AI算法的权限。数据应仅供他们的用户调用，不能被存储在他们的机器上。”

相当于，当用户在学而思的产品端发起搜索，调用的作文范本来自笔神作文，学而思不能自己储存。

4月中旬的那次异常调用，让笔神作文认为，超出了正常的商业合作范围。“他们的行为触发了我们的防御机制，这才使我们发现了这一情况。”

笔神作文称，他们查看了后台的访问日志，发现是由单一IP通过“爬虫”技术发起的非法访问。“我们已经掌握了这个IP地址。”

“盗”数据，AI大模型的黑暗面

笔神作文公布的IP地址情况（一部分）

国内某人工智能创业公司的CEO刘然对深AI分析，这种穷举关键词的方式，肯定是想要获取库里的数据，这是非常明显的行为。

笔神作文对深AI透露，事发后他们与学而思的运营人员求证，对方直接承认，是学而思的算法组在爬取数据并作为己用。不过，针对此说法，深AI尚未得到学而思方面的证实。

曾经的合作伙伴，突然变成了门口的野蛮人，让笔神作文非常愤怒，多次发出律师函。

学而思方面则在6月13日的公开回应中称，其对笔神作文接口的调用，并未超出双方合同范围，对笔神素材内容的使用均符合合同要求，未用于合同以外的任何用途。学而思专门强调，其自研的MathGPT大模型和“作文AI助手”，没有使用笔神作文的任何数据。

双方各执一词，目前未有定论。笔神作文称，该案件可能将会成为“AI大模型数据被盗第一案”。

一个值得探讨的问题是，数据，对于大模型而言，意味着什么？

2 数据从哪里来，是个大问题

算力、算法、数据，是人工智能进行机器学习的三大核心要素。

为了提升算力，很多科技公司都在花重金抢夺英伟达的GPU。在算法端，国内外的一些大厂将算法开源，大大降低了模型开发的门槛。

而在数据端，壁垒一直存在。去哪里找到高质量数据，是个关键问题。

生成式AI大模型需要使用大量且多样化的数据来进行训练，以提高模型的泛化能力和生成能力。不同的模型可能使用不同的数据来源。ChatGPT这类通用大模型，用了很多公开数据，如各类新闻网站、书籍、科学论文、网页等等。一些垂直领域的大模型，则需要找到有针对性的语料库和数据集。

国内某头部科技公司的大模型负责人对深AI表示，ChatGPT其实也用了很多非公开的数据，网上的公开数据很多都质量非常差，高质量的数据是有门槛的。数据的获得、清洗，都面临很大挑战。

好未来CTO田密在5月4日公开表示，“很多领域是有数据壁垒和行业know-how的，大模型还是得和领域知识深度结合，加上足够多的领域数据来训练领域大模型。”

就像田密说的，领域大模型要和领域知识深度结合。在AI作文领域，作文素材就是训练机器的重要数据。

早在2019年，笔神公司就开始有目的性地收集数据，训练自己的作文语料库，覆盖名人名言、诗词、公文、网络语言等。他们利用训练机器模拟人工标签的方式，对每条语料打标签。

在垂直语料库中，只有对数据打过标签，才能基于向量匹配、用户当前创作内容的语义分析和预测，进行精准的内容推送。

刘然对深AI说，建立模型需要大量经过验证的数据，如果这些数据已经整理好了，那么就可以节省大量的人力工作。笔神作文整理的作文，可能被当作标注数据使用。

这个过程是持续且漫长的。笔神作文称，创业六年，他们总共积累了超过500万篇作文素材，月批改量超3万篇。这些作文素材，是经过一篇篇人工审核、筛选投稿、打标签、分级、数据纠正，最后累积起来的。

这些数据不仅能在APP的页面以素材形式呈现，还能拿去在后台训练算法。所以在跟其他公司合作开放接口时，笔神作文在协议中专门加了一条——不得“缓存，存储，作为语料进行计算，训练”。

笔神作文认为学而思“盗”走了数据，揣测学而思将数据用于数学大模型MathGPT以及学而思学习机“作文AI助手”的训练和研发。但这似乎很难证明。

刘然认为，正常来讲，作文数据应该会提前设置一些限制，比如不接受高并发，在数据里加密，而且应该能追踪到数据的去向和用途。不过他同时认为，作文数据不像用户关键行为数据那么关键。

“你可以让AI学习什么是好的作文，然后让它按照这些标准生成。但我认为，其实不需要那么大量的数据。几万篇高质量的作文应该就够了。”他说。

3 “AI大模型数据被盗第一案”，立得住吗？

笔神作文态度强硬，连发两篇公告，要求学而思道歉，同时索赔1元。它甚至想给这次事件扣上“AI大模型数据被盗第一案”的帽子。

上海曼昆律师事务所主任刘红林律师对深AI表示，笔神作文自建的语料库或素材库，本身是有知识产权权益的。但是否属于著作权法上的作品，需要看独创性是否符合相关的判定标准。

“如果笔神作文有足够的证据能证明学而思恶意抓取了他们的数据，那么可以发起知识产权侵权或不正当竞争诉讼。”他说。

另外，笔神作文与学而思有合作协议，如果对知识产权的尊重和授权进行了约定，他们也可以通过合同违约来保护自己的权益。

值得注意的是，笔神作文素材库中的很多作文，是用户投稿而来。笔神作文自称，每个月都会收到30万篇作文投稿。因此，在认定是否侵权之前，先要厘清这些素材的知识产权归属。

刘红林分析，这要看作文的创作者（投稿人）与笔神作文之间，如何对知识产权进行约定。如果用户在投稿时对笔神作文进行了知识产权授权，那么笔神作文就享有对应的权益。

深AI查询笔神作文的用户服务协议，发现其中有这么一条：用户在笔神作文发表的内容（包括但不限于留言、评论、笔记），授予笔神作文免费且不可撤销的非独家使用许可。

“盗”数据，AI大模型的黑暗面

也就是说，笔神作文对素材库拥有知识产权。

刘然想不明白的是，笔神作文为什么会与学而思合作。“如果是我，绝对不会跟学而思合作，因为我们是强竞争关系。”他认为，“在大模型时代，仅仅提供作文数据库的做法是没有机会的。”

有业内人士分析，学而思有流量，有场景，有知名度，尤其是在面向用户的前端产品方面，学而思的优势要比笔神作文大。而在后端收集数据、建设素材库的工作，费时费力，短期难见成效。对于学而思而言，直接拿现成的素材库接入是最方便的。笔神作文则靠出售素材库的调用权限，实现了商业变现。

但对笔神作文这种创业公司而言，这样的合作就像是带刺的玫瑰。因为巨头随时可能打进你的领地，甚至在业务层面形成直接竞争。

AI批改作文是笔神作文很重要的一项功能。而早在三年前，好未来（学而思母公司）也曾推出过“中英文作文批改解决方案”，通过AI实现智能化中英文作文批改。

现在，AI改作文只是好未来庞大AI产品矩阵的冰山一角。在其最新的产品介绍中，中文作文批改，属于中英文听写批改中的一个模块。好未来有更大的野心，它的触角已经伸向AI+教育的方方面面。

“盗”数据，AI大模型的黑暗面

ChatGPT带火生成式AI之后，人工智能行业的创业者既兴奋又焦虑。他们兴奋的是，行业终于又热起来了；焦虑的是，ChatGPT实在是太强大了，很多垂直领域的创业项目一夜之间失去了壁垒。

像笔神作文这样的公司，竞争壁垒在哪里，如何与巨头对抗，是很现实的问题。而人工智能行业的加速内卷，同质化竞争的加剧，会让创业公司与巨头的对抗升级。

抢数据，或许只是新一轮争夺战的冰山一角。

*题图来源于视觉中国。应受访者要求，刘然为化名。

本文来自微信公众号“深AI”（ID:DeepAI2023），作者：黎明，编辑：魏佳，36氪经授权发布。

[免责声明]

原文标题： “盗”数据，AI大模型的黑暗面

本文由作者原创发布于36氪企服点评；未经许可，禁止转载。

深燃

“盗”数据，AI大模型的黑暗面

1 合作伙伴变成门口野蛮人？双方各执一词

2 数据从哪里来，是个大问题

3 “AI大模型数据被盗第一案”，立得住吗？

项目管理SaaS为什么很难一家独大？答案藏在中小企业的痛点里

2021年玩私域：不懂这些你就OUT了！

企业为什么要买SaaS？| 专家视角

SCRM如何帮助李佳琦们布局私域流量？

“救命文档”打破信息孤岛，让受灾群众不再成为“孤岛”