最近的AI圈,说实话有点安静得让人发慌。DeepSeek-R2那边除了各种真假难辨的爆料之外,啥动静都没有,搞得大家都有点怀疑它是不是还在图纸阶段。去年打得火热的“AI四小龙”们,今年也突然低调了起来,像是各自闷头干大事,但结果嘛……一个都没拿出来,有种凿壁偷光的感觉。
大厂这边也没太大的突破,迭代速度明显放缓,更多精力放在了应用落地方面。比如豆包推出了1.6版本的大模型,但宣传重点却是在TRAE和扣子空间;讯飞则是在AI教育和办公助手上下了不少功夫;百度这边主打的是全流程AI修图和资产管理。看起来都挺实用,但说实话,没哪个产品能让人眼前一亮。
在线大模型没啥新进展,本地大模型就更别提了。Mistral AI已经小半年没声音了,移动端的端侧大模型更是几乎销声匿迹。那些宣传了两三年的“AI手机”,90%的功能还是靠云端实现的。
这时候,谷歌坐不住了。
上周,Google DeepMind在推特上宣布,正式开源了一款全新的端侧多模态大模型:Gemma 3n。这玩意儿据说能让手机、平板、笔记本这些设备拥有过去只有云端才能实现的强大AI能力,听起来确实挺有看点。
那Gemmma 3n到底是个什么东西?其实它是谷歌基于MatFormer架构打造的一款轻量化模型,采用嵌套式结构设计,内存占用更低。目前官方推出了5B(E2B)和8B(E4B)两个版本,但通过架构优化,它的VRAM消耗只相当于2B和4B级别的模型,最低只需要2GB内存就能跑起来。
它支持图像、音视频等多种输入方式,不仅能做自动语音识别和翻译,还能处理图像和视频理解任务。原生的多模态和多语言设计,特别适合移动端使用。
那我们普通用户怎么才能用上它呢?以前要在手机上部署这种大模型,还真不是件容易的事,很多都需要借助Linux虚拟机,操作复杂得很。不过现在不一样了,Google悄悄上线了一款叫“Google AI Edge Gallery”的应用,可以直接在Android设备上运行Hugging Face平台上的开源模型。
安装之后,你就可以直接用它进行对话式AI交互、图像理解,甚至还能自定义导入LiteRT格式的模型。最关键是,它不需要联网,完全依赖本地算力完成任务。
为了看看Gemma 3n的真实实力,我也去下载了模型做了几项测试,对比了一下通义千问的Qwen系列模型。
首先是一个经典问题:“Strawberry这个词里有几个字母r?”
这个问题看似简单,但其实很多AI模型都会答错。实测下来,Gemma 3n-4B和Qwen2.5-1.5B都回答错了,说是两个,而具备深度思考能力的Qwen3-4B GGUF倒是给出了正确答案“3个”,只不过生成时间有点长,足足用了两分半钟。
接下来是一道误导题:“种豆南山下”的前一句是什么?
实际上,这是陶渊明《归园田居·其三》的第一句,并没有前一句。但Qwen2.5-1.5B虽然写出了原诗,却没有说明不存在前一句;Qwen3-4B GGUF则是答非所问;Gemma 3n-4B竟然编出了一句根本不存在的诗句,还押韵都不对。
再来是地理常识题:一个人往南跑了10公里,又向东跑了10公里,最后向北跑了10公里,结果回到了起点,他遇到的熊是什么颜色?
这题的关键在于这个地点只能是北极,所以熊的颜色自然是白色。测试结果显示,Qwen2.5-1.5B分析得毫无逻辑,最终答案错误;Gemma 3n-4B和Qwen3-4B GGUF都能给出正确答案,但后者因为token限制,有时候无法完整输出。
最后一轮是文本总结任务,我给了一段600字左右的引言,让它们帮我生成摘要。
Gemma 3n-4B和Qwen3-4B GGUF都能完成任务,不过Gemma的原始语言是英文,所以输出也是英文的;Qwen3-4B GGUF则能提供中文摘要。参数最小的Qwen2.5-1.5B基本没法胜任。
从这几轮测试来看,在文本处理和逻辑推理方面,Gemma 3n-4B和Qwen3-4B GGUF的表现差不多,但在生成速度和回复成功率上,Gemma显然更有优势。毕竟它没有深度思考功能,对性能的要求更低,更适合本地运行。
当然,Gemma 3n最大的亮点还是它的多模态能力。虽然目前语音识别还没法调用,但图像识别功能已经可以用了。点击“Ask Image”选项,上传一张图片,就能直接提问。
实测下来,Gemma 3n对于动漫角色、花卉这类识别不太准确,但对于食物、电子产品这些常见物品识别得还不错。虽然识别精度还有待提升,但能在移动端实现这样的功能,已经是不小的进步了。
总的来说,Gemma 3n给我的感觉就是“偏科明显,但未来可期”。在基础文本问答和逻辑推理方面,它的表现只能说中规中矩,比不上支持深度思考的Qwen 3-4B,但比起目前常见的Qwen2.5-1.5B还是强不少。
它最大的优点就是快,响应迅速,稳定性好,几乎没有卡顿或失败的情况。至于准确性嘛……那就看模型本身的能力了。
图像识别方面,虽然功能有限,但也算是迈出了第一步。识别个物体、提取文字没问题,但要让它理解复杂的场景,可能还得再等等。
另外值得一提的是,由于Gemma的底子是英文训练出来的,所以在处理中文时偶尔会出现一些小bug,比如语序不对、表达不自然之类的,这点需要注意。
总体来说,Gemma 3n并没有带来那种颠覆性的体验,更像是在性能和多功能之间做了一个平衡的选择。它什么都懂一点,但离真正的“全能型选手”还有一定距离。
不过这也正是当前端侧小模型的普遍现状——什么都会,但什么都不够深。但它为未来的本地AI应用打下了基础,值得期待。
