2024-06-03 斯坦福回应抄袭清华系大模型

日期：2024-06-03 13:32:53 来源：量子位浏览：499次栏目：热点

金磊西风发自凹非寺
量子位 | 公众号 QbitAI

家人们，大模型圈儿出了个惊天大瓜——

斯坦福

AI团队，竟然曝出了抄袭
事件，而且抄袭的还是中国国产的大模型成果——模型结构www.czybx.com和代码，几乎一模一样！跟任何BcXdKjN抄袭事故一样……AI圈内都惊呆了。

斯坦福的这项研究叫做

Llama3-V

，是于5月29日新鲜发布，宣称只需要500美元就能训出一个SOTA多模态大模型，比GPT-4V、Gemini Ultra、Claude Opus都强。

Llama3-V的3位作者或许是拥有名校头衔加持，又有特斯拉、SpaceX的大厂相关背景，这个项目短短几天就受到了不小的关注。

甚至一度冲上了HuggingFace趋势榜首页：

然而，戏剧性的一幕开始上演了。

有位细心的网友发现，咦？这“配方”怎么如此的熟悉？

然后他定睛一看，好家伙，这不就是

MiniCPM-Llama3-V 2.5

（出自清华系明星创业公司面壁智能
）嘛。

于是这位网友便跑到面壁智能GitHub项目下开始爆料了：

你们家大模型被斯坦福团队抄袭了！

并且他还附上了一堆的证据，最直接的莫过于这张2个模型代码的对比图了：

Emmm……用这位网友的话来说就是：

模型结构、代码、配置文件，简直一模一样，只是变量名变了而已。

至于为什么这位网友要跑到面壁智能GitHub项目下面留言，是因为他之前已经给Llama3-V作者留过言了，但斯坦福团队的做法竟是

删库跑路

……

没错，现在不论是GitHub还是HuggingFace，

统统都是404

：

并且这事现在还在持续发酵的过程中，网上吃瓜的群众也是越来越多。

那么我先来一同回顾一下这件drama事情的始末。

“代码和架构一模一样”

正如刚才所述，一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.5，跑到面壁智能的GitHub主页提醒团队注意，并把关键证据都一一截图列举整理了下来，这才有了整个抄袭门的还原现场。

以下是来自这位网友的证据。

证据一，Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同：

看下面的例子，配置文件就改了图像切片、分词器、重采样器和数据加载等格式化和变量名：

Llama3-V作者表示参考了LLaVA-UHD架构，在ViT和LLM等选择上有一些差异。但实际上，网友发现他们的具体实现在空间模式等很多方面都与LLaVA-UHD不同，却出奇与MiniCPM-Llama3-V 2.5一致。

甚至，Llama3-V还用了MiniCPM-Llama3-V 2.5的分词器，连

MiniCPM-Llama3-V 2.5定义的特殊符号都

能“巧合”实属离谱。

证据二，网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。

Llama3-V作者给的回复是这样婶儿的，说是用的面壁智能上一代MinicPM-V-2项目的：

但事实却是，HuggingFace中，MiniCPM-V2与MiniCPM-Llama3-V 2.5分词器分别是两个文件，文件大小也完全不同。

MiniCPM-Llama3-V 2.5的分词器是用Llama3分词器加上MiniCPM-V系列模型的特殊token组成，而MiniCPM-V2的发布都在Llama3开源之前，怎么会有Llama3分词器。

证据三，Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。

而且，他们似乎对MiniCPM-Llama3-V 2.5架构或他们自己的代码都不完全了解。

感知器重采样器

（Perceiver resampler）

是单层交叉注意力，而不是双层自注意力。但是下图所示Llama3-V的技术博客里作者的理解很明显是错的。

SigLIP的Sigmoid激活也不用于训练多模态大语言模型，而仅用于预训练SigLIP。

视觉特征提取不需要Sigmoid激活：

基于以上三点事实，这位网友认为足以证据证明Llama3-V项目窃取了MiniCPM-Llama3-V 2.5项目的学术成果。

但还没完，他随后又补充了两点证据。

几天前，当这位网友尝试运行Llama3-V时，发现他们提供的代码无法与HuggingFace的checkpoint一起使用，反馈问题没有得到作者回复。

于是网友把从HuggingFace下载的Llama3-V模型权重中的变量名改成了MiniCPM-Llama3-V 2.5的，惊奇发现模型居然可以用MiniCPM-V代码成功运行。

此外，如果将高斯噪声

（由单个标量参数化）

添加到MiniCPM-Llama3-V 2.5的checkpoint，结果就是会得到一个行为与Llama3-V极其相似的模型。

收到网友的提醒后，MiniCPM-Llama3-V 2.5团队这边也迅速展开了调查，他们按照网友的在GitHub上的说明，使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代码和配置文件正确获取了推理结果。

于是，一个更为关键性的证据出现了。

Llama3-V在一些未公开的实验性特征上表现出与MiniCPM-Llama3-V 2.5高度相似的行为，而这些特征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。

例如，

识别清华简

！

MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简，这是一种非常罕见、于战国时期写在竹子上的中国古代文字。

训练图像是从最近出土的文物中扫描出来的，由MiniCPM-Llama3-V 2.5团队进行了标注，尚未公开发布。

而Llama3-V的识别情况和MiniCPM-Llama3-V 2.5极为相似。

识别错误的情况竟也出奇一致：

MiniCPM-Llama3-V 2.5团队还在1000 张竹简图像上测试了几种基于Llama3的视觉-语//www.czybx.com言模型，并比较了每对模型的预测精确匹配。

结果，每两个模型之间的重叠为零，而Llama3-V和MiniCPM-Llama3-V 2.5之间的&&重叠达到了惊人的87%**。

此外，MiniCPM-Llama3-V 2.5和Llama3-V

甚至具有相似的错误分布

。Llama3-V和MiniCPM-Llama3-V 2.5分别做出 236和194个错误预测，重叠部分为182个。

且按照网友在GitHub上的指令获得的MiniCPM-Llama3-V2.5-noisy显示出与Llama3-V几乎相同的定量结果，真令人匪夷所思……

在另一个MiniCPM-Llama3-V 2.5内部数据上训练的未公开功能——WebAgent上，也出现了同样的情况。

Llamwww.czybx.coma3-V甚至和MiniCPM-Llama3-V 2.5团队新定义的WebAgent模式中犯的错误都一样。

鉴于这些结果，MiniCPM-Llama3-V 2.5团队表示很难将这种不寻常的相似性解释为巧合，希望Llama3-V作者能对这个问题给出一个正式的解释。

斯坦福团队已删库跑路

虽然斯坦福的2位本科生已经下架了几乎所有与之相关的项目，但其实在此之前，他们最初在面对质疑的时候还是做出了些许的解释。

例如他们强调，Llama3-V这项工作的时间是要早于面壁智能的MiniCPM，只是使用了他们的tokenizer。

不过作者对Medium上的声明还是做了保留：

非常感谢那些在评论中指出与之前研究相似之处的人。
我们意识到我们的架构非常类似于OpenBMB的“MiniCPM-Llama3-V 2.5，他们在实现上比我们抢先一步。
我们已经删除了关于作者的原始模型。

对此，一部分网友表示，既然选择删掉项目，那么就表示确实存在一定的问题。

不过另一方面，对于抄袭这事也有不一样的声音——

MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗？不过连tokenizer都直接拿来用就应该不算是借鉴了。

而就在刚刚，另一个戏剧性的事情发生了。

斯坦福的作者在中午时间做出了最新的回应：

但现在……这条回应又删掉了

而面壁智能这边，CEO李大海也做出了正式回应：

参考链接：

[1]https://github.com/OpenBMB/MiniCPM-V/issues/196

[2]https://github.com/mustafaaljadery/Llama3-V

[3]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/

[4]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/?rdt=41696&onetap_auto=true&one_tap=true

[5]https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-50白熊资讯网0-7dd8f1f6c9ee

— 完 —

量子位 QbitAI 头条号签约

关注我们，第一时间获知前沿科技动态

文章标题: 2024-06-03 斯坦福回应抄袭清华系大模型

文章地址: www.czybx.com/redian/429629.html

标签斯坦福回应抄袭清华系大模型

上一篇：2024-06-03 男孩在家练习划龙舟沙发地板都是水下一篇：2024-06-04 泽连斯基菲律宾之行的得与失

2024-11-13 专家带你了解“鸣镝”200飞行器

2024中国航展今后给你送快递的有可能不是快递小哥儿，而是“鸣镝”200...
2024-11-13 18:27:14专家带你了解“鸣镝”200飞行器
2024-11-15 凉粉嬢嬢被李子柒无意间助推走红

复出的李子柒到底有多火？她仅仅在采访中提到了四川绵阳市云台观一位“凉粉嬢嬢”，便让这个距离县城约40公里的凉粉摊销量翻了三倍。11月14日，极目新闻记者在云台观见到了“凉粉嬢嬢”张清秀。她表示2022...
2024-11-15 10:18:58凉粉嬢嬢被李子柒无意间助推走红
2024-11-13 赵晴在线感谢于正力挺

张婉莹回应被诽谤，谣言不攻自破于正刚刚签约的网红博主张石头上午刚晒出照片，下午就被爆出当年知三当三霸凌同学。这塌房速度太快了。于正陪着新艺人去报警。之后张婉莹晒出和解书，称已经和当年诽谤自己的人形成和...
2024-11-13 11:53:28赵晴在线感谢于正力挺
2024-11-14 伊朗驻黎大使寻呼机爆炸事件后首露面

【#伊朗驻黎大使遭寻呼机爆炸后首露面#：右眼肿胀左手缠绷带】11月12日，伊朗驻黎巴嫩大使穆杰塔巴·阿曼尼在寻呼机爆炸事件后首次露面。当天阿曼尼准备启程返回派驻国黎巴嫩，临行前与外长阿拉格齐在首都德...
2024-11-14 14:02:23伊朗驻黎大使寻呼机爆炸事件后首露面
2024-11-15 欧盟对Meta罚款7.98亿欧元

美东时间11月14日，据彭博社报道，Meta被欧盟罚了7.98亿欧元（约合8.41亿美元），原因是Meta把在线分类广告服务FacebookMarketplace和它的社交网络平台Facebook捆...
2024-11-15 02:53:52欧盟对Meta罚款7.98亿欧元
2024-11-08 刀郎《川江号子》响彻澳门

刀郎《川江号子》响彻澳门...
2024-11-08 23:24:39刀郎《川江号子》响彻澳门
2024-11-10 日产净利润暴跌94%

【CNMO科技消息】近期，日本7家主要汽车制造商今年上半财年（今年4月至9月）的财报已全部出炉，表现可以说不甚理想。在七家主要车企中，丰田、本田、日产、三菱和马自达五家车企净利润和去年同期相比均出现下...
2024-11-10 22:52:40
2024-11-13 《小巷人家》黄玲开怼吴建国

《小巷人家》黄玲开怼吴建国...
2024-11-13 15:28:42《小巷人家》黄玲开怼吴建国
2024-11-12 粉丝偶遇华晨宇的反应

在繁华都市的某个角落，或是静谧小镇的街道上，当粉丝偶遇华晨宇，那瞬间仿佛时间都停止了。世界变得只剩下华晨宇那独特的身影，周围的一切都沦为模糊的背景有的粉丝会瞬间呆立在原地，瞪大了眼睛，仿佛不敢相信自己...
2024-11-12 09:51:52粉丝偶遇华晨宇的反应
2024-11-09 黄健翔淘宝开播首场3D空间直播

今年双11，淘宝再一次引领潮流，推出首场3D空间直播，为消费者带来全新的购物体验！在3D空间直播中，消费者将仿佛置身于真实的购物场景，360度无死角地查看商品细节，感受商品的真实质感。这...
2024-11-09 15:58:42黄健翔淘宝开播首场3D空间直播