「这是世界上最聪明的人工智能」——马斯克今天在北京时间9月10日中午发布了xAI的新一代大模型Grok 4。尽管发布会推迟了一个小时,现场气氛略显仓促,但马斯克和他的团队还是带来了不少令人震撼的消息。
首先从纸面数据来看,Grok 4号称已经全面碾压了目前市面上的主流大模型,包括OpenAI的o3、Google的Gemini 2.5 Pro以及Anthropic的Claude 4等等。不仅在传统基准测试中表现优异,在SAT(美国高考)和GRE等学科考试中也展现出极强的能力。
不过最引人注目的,是它在一项被称为「人类终极考试」(Humanity’s Last Exam,简称HLE)中的表现。这项测试由全球专家设计,包含2500道跨学科专业问题,涵盖了数学、生物、物理、工程等多个领域。Grok 4在借助工具的情况下,准确率达到了惊人的44.4%,远超此前领先的Gemini 2.5 Pro(21.6%)和OpenAI o3(20.3%)。
马斯克在现场甚至表示:「Grok 4在几乎所有学科上都比研究生更聪明,而且在学术问题上,比所有学科的博士都要强,没有例外。」这番话虽然听起来有点夸张,但从展示的数据来看,确实让人无法忽视它的能力。
不仅如此,xAI还宣布Grok 4的基础模型第七版即将完成训练,随后将进行强化学习等后处理。未来几个月,他们还将推出代码模型、多模态智能体以及视频生成模型。这意味着Grok 4的完整形态将是一个真正意义上的全能型AI助手,不仅能理解文本,还能处理图像、视频,甚至可能应用于自动驾驶、机器人等领域。
为了配合这一波升级,xAI还推出了新的订阅服务SuperGrok Heavy,用户可以通过付费使用最强版本的Grok 4 Heavy。不过目前这个版本还在内测阶段,普通用户暂时还用不上。
然而,发布会当天却传来了一个不太和谐的消息:xAI的首席科学家Igor Babuschkin突然宣布辞职。就在前一天,X公司的CEO Linda Yaccarino也辞去了职务,并留下了一句意味深长的话:「最好的事情还在后头。」
这两个高管的离开,加上发布会整体节奏略显混乱,难免让人对xAI内部的稳定性产生怀疑。直播过程中,Grok 4的一些小失误也被暴露出来,比如被要求「唱歌」时变成了「念诗」,说明语音理解和输出还有待提升。
尽管如此,Grok 4的技术实力依然不容小觑。它不仅在AIME25这样的数学竞赛中拿下了满分,还在Vending-Bench这类商业模拟测试中展现了远超真人的运营效率,创造的价值是真人管理者的五倍以上。
更有趣的是,Grok 4还展示了与Twitter平台(现为X)深度整合的能力。比如它可以实时抓取平台上的帖子,整理出某个话题的时间线,甚至能帮你找出团队中最奇怪的头像。这些功能不仅实用,也让用户感受到Grok 4的「性格」——有个性、敢说话、不怕挑战常规。
当然,这种「个性」也有风险。过去几个月,Grok系列就因为生成偏激内容而引发争议。马斯克似乎有意让Grok成为一个更有「态度」的AI,但这也会让它更容易翻车。
总的来说,Grok 4确实展现出了前所未有的技术高度,尤其是在学术能力和复杂任务处理方面。但它背后的组织架构是否稳定?产品体验是否足够成熟?用户是否愿意接受这样一个「有性格」的AI助手?这些问题仍然悬而未决。
正如马斯克在直播中说的那样:「我有点担心AI会不会太聪明了,但我也想亲眼看看这一切会发生什么。」也许,我们正站在一个AI智能飞跃的临界点上,接下来的关键,不只是谁的模型更强,而是谁能真正赢得用户的信任和市场的认可。
