广告

Minimax开源M1推理模型:支持百万token输入与8万token输出,成本仅为DeepSeek R1的30%

文章摘要:Minimax推出开源推理模型M1,采用混合注意力架构,支持100万token输入和8万token输出,深度推理成本仅为DeepSeek R1的30%,强化学习阶段使用512块H800显卡训练三周,总成本53.74万美元,推动大模型应用发展。
Minimax在6月17日正式推出了开源推理模型M1。该模型采用了创新的混合注意力架构,结合了Lightning Attention机制,极大提升了性能表现。M1能够支持高达100万token的上下文输入以及最多8万token的输出,在行业内处于领先地位。值得注意的是,M1的成本效益也非常显著。当进行8万Token深度推理时,仅需使用DeepSeek R1约30%的算力。此外,团队透露,在强化学习阶段,M1仅用512块H800显卡耗时三周完成训练,租赁总成本约为53.74万美元。这标志着M1不仅性能强大,还具备较高的经济性。'|'这一技术突破将为大模型领域带来新的发展方向,同时也降低了高性能推理模型的应用门槛。

广告