在开源面前,OpenAI没有护城河:今天,大模型的安卓时刻来了
过去半年里,OpenAI 正通过 GPT 惊艳所有人。
人们普遍认为 GPT 的诞生是新时代的 “ iPhone ” 时刻,它将像 iPhone 把人们带往移动互联网时代一样,成为新的 AI 大模型时代的门钥匙。
不过,移动互联网的繁荣进程中,不只有 iPhone 的功绩,还有安卓及其背后各大安卓阵营手机厂商的功绩。
甚至,单从出货量角度来看,安卓阵营对移动互联网时代的贡献似乎更大。
而现在,属于 AI 大语言模型的 “ 安卓时刻 ”,要来了。
当地时间 7 月 18 日,北京时间的今日凌晨,Meta 发布了最新一代的开源大模型 Llama 2。
根据 Meta 官网的公开数据,本次发布的 Llama 2 模型系列共包括 70 亿、130 亿 和 700 亿三个参数的变体模型。
Llama 2 经过两万亿个 tokens 的训练,人工注释数据超过 100 万条。而相比于 Llama 1,Llama 2 的训练数据增加了 40%,上下文长度也是前者的两倍。
经过此次升级,根据 Meta 公开的论文显示,虽然目前 Llama 2 在各项大模型测试中仍逊色于 GPT-3.5,但在与目前开源大模型的跑分对比中,已经有了屠榜一般的表现。
Llama 2 与 GPT、PaLM 的跑分对比
Llama 2 与其他开源大模型跑分对比
或许你一看到 Llama 2 逊色于 GPT-3.5 就会觉得嗤之以鼻,毕竟后者已经进化到 4.0 的版本了。
但,你要明白,安卓在刚推出的时候,也是非常拉胯的,而开源让安卓阵营现在能与 iPhone 分庭抗礼。
所以,此次 Llama 2 发布最大的亮点其实在于:
Meta 在开源基础上更进一步,允许了该模型的免费商用。( 月活大于 7 亿的产品需要单独申请商用权限,但很少有企业能达到这个标准 )
图灵奖得主,Meta 首席科学家杨立昆也在推特直言,这将改变大语言模型市场的格局:
知危编辑部也联系到了在学术圈和开源社区都颇具影响力的智源 AI 研究院,他们的评价是:
开源是必由之路, 说 Llama 2 的发布是“ 安卓时刻 ”也不无道理,用开源来占领市场,就是一个竞争策略。
与 Llama 2 商用开源相对应的是,OpenAI 在开源面前的态度一直含糊不清。
开源,或者说是开放源码运动,正式开始于上世纪的九十年代末,参与者们信仰软件的开放源代码、信息共享和自由使用。
Android 的兴起、GitHub 的流行,都和开源脱不了关系。Linux 系统也诞生于这波运动中, 如今的路由器、交换机、智能洗衣机、智能电饭煲、交换机、服务器等等设备上,几乎搭载了各类 Linux 系统。
包括几年前的美国火星车登陆成功,也象征着火星成为第二个 Linux 计算机数量超过 Windows 的星球。
毫不夸张地说,如今开源改变了软件的协作和创新模式,改变了技术格局。
但在大语言模型领域,领头羊 OpenAI 却似乎和名字里的 Open 背道而驰。
即便 OpenAI 创始人山姆·奥特曼多次在公开场合提到,将在未来开放 GPT-3、GPT-4 的源码,但这至今依旧是空头支票。
包括马斯克在退出 OpenAI 之后,也多次公开炮轰 OpenAI,不满 OpenAI 大肆赚取利润, 并逐渐闭源。
OpenAI 首席科学家 Sutskever 对此的回应则是,过早开源会让 OpenAI 失去技术领先的地位,并且大语言模型的威力巨大,开源恐有安全隐患。
马斯克质疑 OpenAI 不 Open
不同于 OpenAI 在开源面前的畏畏缩缩,Meta 则是坚定的开源支持者,并且在一定程度上推动了 AI 的历史进程。
而 Meta 今天的这一决策,和 Meta 的首席科学家杨立昆,势必有着一定的关系。
早在 2014 年,扎克伯格就意识到了 AI 的前景,在 DeepMind 最终被谷歌收购之后, 扎克伯格转头找到了 AI 学术领域的大佬杨立昆。
曾在大名鼎鼎的贝尔实验室工作过的杨立昆,是 “ 卷积神经网络 ” 的开发者之一,彼时的他正在纽约教书。
根据 VOX 的报道,为了得到杨立昆这匹千里马,扎克伯格答应了科研成果必须开源、实验室必须建在纽约、实验团队不需要考虑盈利等等要求。
杨立昆任职期间成果颇丰,诸如开发了风靡全球的 AI 框架 Pytorch,改进了 GAN( 生成式对抗网络 ),推出大语言模型 Llama 和 AI 图像模型 SAM 等等。
正如当年所约定的那样,这些项目已全部开源。
在大语言模型的浪潮之下,Llama 大语言模型也备受开源社区的欢迎。
诸如 Hugging Face 等开源社区中,充斥着各种被魔改后的羊驼( Llama 的中文译为羊驼 )。
包括斯坦福的 Alpaca、UCB 的 Vicuna......各种基于 LlamA 的修改的模型纷纷涌现。
在不少的大模型跑分榜单上,GPT-3.5 和 GPT-4 之下,几乎都是羊驼家族屠榜。
另外,对于 OpenAI 口中出于安全考虑的闭源理由,杨立昆也是不太认同的。
在他看来,使人工智能平台安全、良善、实用的唯一方法就是开源。
换句话说,技术掌握在少数人的手里是危险的,只有让监管 AI 的力量也同时进化,才能尽可能地管住 AI。
在目前看来,暂时只有开源能办到。
总的来讲,在 OpenAI 领衔的大语言模型浪潮中,Meta 所带领的开源大军,正在开源社区中疯狂攻城掠地。
另一方面,开源和闭源之间的冲突也在逐渐白热化。
在今年的五月份,一位谷歌研究人员 “ 不小心 ” 泄露的备忘录,就把这场大战摆在了台面上。
知危编辑部简单总结了一下这份备忘录中,谷歌研究员的提到几个要点:
①开源 AI 正在蚕食谷歌和 Open AI 的领地;
②小模型比大模型更具有竞争力;
③数据质量远比数据数量更重要;
④谷歌打不过开源;
⑤相比于开源需要谷歌,谷歌更需要一个开源生态。
再简短点讲,这份洋洋洒洒上千字的文章就透露着一个最核心的信息:
在开源面前,谷歌和 OpenAI 都没有护城河。
所以,再回看这次发布的 Llama 2 ,Meta 直接把商业用途的限制给去掉了,实属是又给闭源阵营将了一军。
开源的 Llama2 不仅免费,还更能供开发者自行调整,从而满足大部分商业公司的低成本和个性化需要。
但,最终开源和闭源谁才是胜者,知危编辑部觉得并不好下定论。
毕竟开源也并不是万能解药,开发人员良莠不齐、公开的一些安全隐患等等,都是开源经常遇到一些问题。
开源和闭源之争,归根结底是竞争策略不同,一个更注重扩大市场和制定标准,一个更看重盈利和本身技术的领先。
诸如安卓与 iOS、Linux 与 Windows,最后或许并无真正的输赢之分,而是在不同的需求下,找到自己的合理定位。
但,毫无疑问,Llama 2 搅动了整个市场,已经让生态开始有微妙的变化:
① OpenAI 股东之一的微软,这次成了 Llama 2 的首选合作伙伴,微软似乎正在两头押注。
② Meta 宣布 Llama 2 将能在高通芯片上运行,这对 AI 芯片霸主英伟达而言势必是种挑战。
总之,这大语言模型圈儿的戏,是越来越复杂,越来越有趣了。
如果因为 Llama 2 搅的这场浑水,让 AI 时代能更快来临的话,请大家记得,这不仅是 Meta 的功劳,也是开源社区的功劳:
开源推动进步,开源万岁~
本文来自微信公众号“知危”(ID:BusinessAlert),作者:知危编辑部,36氪经授权发布。