7月初,华为盘古大模型陷入一场“抄袭门”风波。
起因是一位开源社区GitHub用户HonestAGI发表报告,称盘古Pro MoE模型注意力参数分布与阿里通义千问Qwen-2.5 14B模型相似度极高,平均相关系数达0.927(接近完全一致的1.0),而且代码文件中含阿里Qwen的版权声明。该报告作者认为,盘古模型可能在千问模型的基础上进行了增量训练,而非完全从零训练。
随后,一份自称为“华为盘古大模型团队、华为诺亚方舟实验室员工”的用户HW-whistleblower(华为吹哨人)在GitHub发表博文《盘古之殇》,以“亲历者”的口吻,讲述了他眼中的“盘古套壳”事件,进而将此事推向舆论漩涡。
7月5日,华为“诺亚方舟实验室”发表声明,称盘古Pro MoE开源模型基于昇腾硬件平台开发训练,并非基于其他厂商模型增量训练,在架构设计等方面有关键创新,创新性提出分组混合专家模型(MoGE)架构,解决了大规模分布式训练的负载均衡难题。
不过,“诺亚方舟实验室”也表示,模型部分基础组件代码实现参考业界开源实践,涉及其他开源大模型部分开源代码,且严格遵循开源许可证要求,清晰标注了版权声明。
“盘古此前一直未开源,有一定神秘感,如今开源自然成为争议焦点。但就目前网络上的公开信息,很难判断盘古是否‘套壳’千问。”多位大模型行业人士告诉《IT时报》记者,HonestAGI所用的“模型指纹”技术,目前并没有得到业内的大多数认同。
截至记者发稿,HonestAGI的报告已被删除,阿里Qwen团队对此事也未有公开回应。然而,关于“自研”和“开源规范标注”的争议,还远未停止。
专业人士:
“模型指纹”并不科学
引发此次争议的导火索,是一份名为《LLMs(大语言模型)的内在指纹:继续训练并不是窃取AI模型一切》的报告,其中提出一种新的判断大语言模型是否抄袭的办法——“模型指纹”(LLM-Fingerprint),即通过分析模型注意力参数的标准差模式,来识别两个大模型之间是否有相似性。其中盘古Pro MoE模型与通义千问Qwen-2.5 14B模型注意力参数分布平均相关系数达0.927,高于其他模型间0.7的阈值。
这种方式在业内并未形成共识。
上海软件中心人工智能部副部长马泽宇告诉《IT时报》记者:“当模型参数矩阵足够庞大时,任意两个架构相似的模型参数分布都可能呈现高相似度,这是因为它们学习的世界知识存在共性认知基础。比如拿Llama和其他任意模型去做参数对比,参数分布可能相差都不大。”
多位技术专家补充说明,当前主流大模型均基于Transformer架构衍生,训练数据重合度高(互联网公开语料占比超60%),参数分布趋同具有一定必然性。
Pine AI联合创始人、首席科学家李博杰也坦言:“即便完全独立训练的模型,在基础数学、常识判断等任务上的参数响应模式也会高度相似,这是模型学习人类知识的自然结果”。
行业现状:
抄袭判定的技术困局
尽管报告结论并不能形成共识,但HonestAGI在开篇提及的一个核心问题,的确是当前大模型公司颇为在意的难点:随着训练成本的飙升和模型重复使用的普遍化,大规模语言模型面临着严重的版权和知识产权盗窃问题,传统的水印方法在面对持续的训练攻击时十分脆弱——不良行为者只需继续训练就能轻易抹掉水印。
所谓传统水印方法,是指在模型输出中植入某种“可检测”的模式,以此标记“这个模型来自某个机构”。比如,可以让大模型在处理某些触发输入(trigger inputs)时,输出特定的单词、短语或其他标记,这些标记可以作为水印的证据。
如果“有心人”想抹掉水印,便可以在原始模型基础上继续训练,改变模型参数,由于继续训练会改变模型的权重,之前植入的水印信息就被“洗掉”了,导致无法再证明模型的归属。
因此,“有厂商为了让自己的大模型不被抄袭,会使用一些冷门数据,比如将自家公司冷门赛道的冷门知识喂给大模型,不是自己公司的人一般想不到,想到了也拿不到数据。”李博杰提到,如此一来,其他公司想要“套壳”就非易事,通过这些冷门数据则可检测出大模型底座。
在2024年备受关注的斯坦福大学团队抄袭中国公司面壁智能开源大模型的事件中,最终关键判断证据,便是在斯坦福大学团队的模型中发现了面壁智能的独家数据集。
然而,类似明确的证据链,并不常见。
现实情况是,当前判断模型水印、AI溯源的技术在学术领域虽有讨论,却尚未形成行业共识,实际应用中也很难完全依据这些技术确定模型来源。如果训练数据未清理干净,混入大模型生成的“幻觉数据”,便可能导致模型回答出现偏差,也很难将此作为判断模型抄袭的铁证。
在《盘古之殇》一文中,也提到“为了续训洗参数,甚至很长时间从头训练一个同档位的模型”,以及“采取可行的办法,甚至包括故意训导脏数据”。
此外,对于大模型能力的评测也变得愈发困难。随着大模型整体能力提升,除了像Llama 4因大幅度性能下降被明显评测出来外,主流大模型的日常评测分数差异极小,“如99.6与99.3之间的差异可能在合理误差范围内,过分追求这种细微差距意义不大。”马泽宇表示。
自研还是“站在巨人肩膀上”?
尽管诸多业内人士对这份报告所用的测试方式并不完全认同,也无法判断盘古是否抄袭Qwen,但此事之所以在Github上成为热门话题,是因为它正中“程序猿”最在意的核心问题:究竟什么是自研基础大模型?
自2022年底OpenAI掀起大模型风暴后,经过两年半的快速更新迭代,开源和闭源、基础大模型和垂类大模型、大模型和小模型……AI的路径和方向正逐步确立,而“百模大战”之后,完全从零开始自研的大模型竞赛已基本落幕,绝大多数大模型公司选择在主流开源基础大模型,如Llama、Qwen、DeepSeek等上面做后训练,针对特定任务进行优化,也即所谓的“垂类大模型”。
“这并不代表后训练就比预训练花费的精力和成本更低。”李博杰认为,这种模式并非“套壳”,而是技术效率的一种选择,“并不是所有公司都必须从零开始做大模型,没有足够的算力资源和过硬的技术,其实会造成资源浪费。在开源基础大模型上做创新,也是很好的选择”。
此前,诺亚方舟实验室在回应中强调盘古是“基于昇腾硬件平台开发训练的基础大模型”,并创新性提出MoGE架构。业内分析认为,这一表述指向其在软硬件协同上的差异化,而非否定对开源技术的借鉴。
马泽宇表示,盘古在全新的昇腾硬件平台而非英伟达平台上做开发,已是一种全新挑战。只要遵循MIT等开源协议,基于开源代码进行二次开发完全合规,关键在于是否明确标注来源。
业内普遍共识是,如果是在开源大模型基础上创新研发的大模型,不适合称之为自研基础大模型。不过,由于基础大模型训练门槛极高,涉及算法、数据、算力等各方面要求,进行大规模架构创新既困难又昂贵,每次训练成本可能高达数百万甚至数十万元,且难以验证效果。
对于进行微调的厂商,马泽宇认为,明确下游任务性能对基础大模型的依赖关系至关重要,即便使用其他大模型微调,清晰声明也不影响商业利益。
然而,此事持续发酵也意味着,在数据和模型架构方面,建立有效的模型水印机制十分必要。
