广告

离开百川去创业,8个人用2个多月肝出一款热门Agent产品,创始人:Agent技术有些玄学

文章摘要:徐文健,一位94年技术理想主义者,从创业失败到加入“大模型六小虎”百川智能,再到二次创业做AI播客ListenHub,始终保持着对AI的热情与执着。他坚信Agent将重构内容消费方式,并与合伙人打造了一个小而美的AI音频产品。尽管面临质疑和大厂竞争,他坚持打磨产品、构建价值观统一的团队,立志出海,走出一条属于自己的AI创业之路。

“在百川智能的那段时间,我和同事们始终处在一种很亢奋的状态。尽管我们常常工作到深夜,甚至一两点钟才下班,但内心非常地充实和开心。”如今回忆起那段经历时,前百川工具链负责人徐文健的眼中依然有光。

徐文健在百川最负盛名的时候加入,半年多后又选择离开,再次踏上了自己的创业之路。

94 年的徐文健现在身上依然保有“技术理想主义”的影子,人到中年依然可以说出:“创业是一项复杂的工作,我们需要在不改变初心的前提下赚钱。”

从徐文健身上,我们可以看到“大模型六小虎”时代下那批怀揣理想的技术人,至今依然保持热情。他们带着从“大模型六小虎”时代积累的成长经验,正在开启 Agent 时代新的创业故事。

成长,始于一次次“祛魅”

徐文健毕业于南京工程学院,刚进入大学时期的他性格内向,于是就刻意强迫自己在公开场合发言,尽管当时会紧张的手指发抖。除此以外他还积极参与各种大学生创业的活动。“虽然学校并非顶尖但创业氛围很浓,我很感谢这个过程中身边的老师同学给到我的帮助和启发,母校塑造了创业者徐文健这个身份的雏形。”

像很多刚毕业的人一样,徐文健也想进大厂。在创业公司工作了段时间后,他如愿去了滴滴。当时,他耗时一年半利用业余时间重构了一套技术架构。起初没人支持他,甚至有人质疑这是在重复造轮子,但随着项目的推进,徐文健逐渐赢得了同事、领导以及其他事业部同学的认可。这段经历也让他对大厂“祛魅”:好像也没那么了不起。

但大厂的经历也给他埋下了创业的种子,当时徐文健的领导对他的评价是:你很有创业的潜力。因此在离开滴滴后,徐文健没有着急找工作,而是开始探索创业这条路。

那段时间,徐文健并行参与了两个创业项目。

第一个是他在六人小团队中担任核心技术负责人,着手开发了一款云 Coding 产品。现在看来,这仍然是一个极具前瞻性的项目,团队当时甚至凭借一份 PPT 就获得了 200 万美元的投资。但还是遇到了成员流失、海外市场毫无进展等问题,团队压力很大,徐文健甚至每天质疑自己是否还要继续坚持。最后这个项目失败了,徐文健现在谈起也充满惋惜,“尽管过程中还存在诸多其他问题,但缺乏坚持无疑是致命的。”

另外一个则是徐文健利用业余时间独自探索的 AI 教育产品,最初他只是想通过开展一个学习交流会来认识前沿世界,但期间却意外组织了一个团队,包括四位北师大的教育学博士以及一些研发人员,最后大家一起开发出来了这个应用。遗憾的是,这个项目仅仅持续了四个月后也宣告失败。

“作为当时的 CEO,我在创业的认知和履历上存在着明显的不足。尽管我能够吸引到众多优秀人才加入我的团队,但缺乏持续的正向反馈和清晰的战略方向,最终导致了项目的失败。”徐文健反思道。

“百川给我添上了 AI 标签”

经历了两次挫折后,徐文健没有立即投入到下一次创业中,而是选择先积淀更多关于 AI 认知和实践的经验。当时,百川智能在 AI 领域有着良好的口碑和卓越的技术实力,他便给百川智能投了简历。这是他那时候投出的唯一一份求职简历,最终也如愿以偿。

身处大模型公司,徐文健能清楚地感受到这些公司的压力和的焦虑比做应用的公司要大得多,“因为一直要做 Benchmark,厮杀很严重。”但大家的状态也因这种竞争更加亢奋。

“我接触到的第一批加入六小虎的从业者,都是想做一些事情的,或者说是些有理想主义的人。当时这六家公司,虽然融了很多钱,但规模肯定不如大厂,所以大家当时的心态可能都比较纯粹,就是想投入到 AI 事业。“徐文健说道,“六小虎对国内最大的贡献,就是培养了一大批 AI 创业者。”

如今,“大模型六小虎”都在大模型研发之外寻求自己的生存之道,各有取舍。现在回过头看,徐文健只是感叹大模型时代的变化之快:曾处顶峰的 ChatGPT 迅速被对手分去市场、各种技术每天都学不过来、各种突破不断刷新认知,然后他说出了那句经典台词:眼看它起高楼,眼看它楼塌了。

“回顾百川的经历,也不得不承认它存在一些问题。归根结底,这些都与组织文化价值观有关。我们似乎过于依赖运气,而忽视了自身努力和团队凝聚力的重要性。”徐文健坦言。

在徐文健看来,百川智能或许过早地陷入了类似大厂的运营节奏中,高管众多、各部门的工作方向也较为分散,导致整个公司难以形成合力,因此影响了公司的整体发展。

这其实在王小川 4 月份的公开信中也有提到:“两年的长途奔袭,战线拉得过长,不够聚焦。”而在战略聚焦医疗后,“没有让每个团队在医疗价值创造中深度思考‘why’和‘how’。进而部分团队工作目标出现了摇摆和偏差。”

感叹之余,徐文健更多还是感激在百川的日子,“百川为我贴上了‘AI’这一标签,这个标签不仅代表着一种身份的转变,更意味着我有机会在 AI 领域继续深入探索、走得更远。”徐文健说道。

徐文健起初去百川是想了解国内顶尖 AI 公司是怎么认识 AI 、做 AI 产品,但他在那里的意外收获确实 Agent。

在百川内部,徐文健团队进行了许多 Agent 相关的研究和尝试,包括国内第一代 Agents Workflow 的开发。“我们算是第一批意识到 Agents 价值的团队”,当时徐文健团队在内部很快速的产出了一个 demo 版本,但在后续过程中,由于各种问题,这个项目最终被叫停。

在那之前,市场上只有 LangChain 和微软的 Prompt Flow 框架,大家对 Agent 工程的必要性还缺乏足够的认识,徐文健也坦言自己之前对 Agent 的理解相对浅薄,“但在百川,我接触到当时最前沿的 Agent 相关知识,这完全颠覆了我之前的认知。”

2023 年年底,徐文健的态度已经变成:Agent 有潜力重构整个世界,它与大模型同等重要。到了 2024 年初,Dify 和扣子等项目逐渐崭露头角,Agent 也引起业界的广泛关。徐文健与另一个合伙人冯雷也在当年 12 月成立了火星电波。

开启 Agent 创业

徐文健与冯雷是在创业过程中认识的,当时冯雷经人介绍帮徐文健找投资,后来二人发现彼此理念契合,因此决定一起做些事情。有趣的是,两人在性格、经历上是互补的:徐文健偏感性,擅长给要做的事情注入动量,负责往前冲;冯雷则更加理性,负责往回拉;徐文健之前主要在 To B 领域,C 端的实践经验相对不足,而冯雷则对 C 端的理解和经验更加丰富。

在决定创业方向的时候,两人一直在思考“AI 将如何成为互联网时代最大的变量”这个问题。最终,他们的答案是内容消费,其中包括创作者和消费者两个维度:

创作者层面,时间、创作能力和业务知识可以称为互联网时代的创作三要素,AI 带来的变化则是弥补缺少某要素的创作者能力,比如有创作能力和业务知识但没有时间的人,还有为满足三要素创作者带来百倍加成、扩大创作规模。

消费者层面,现实中的人比传统算法给的“标签”更加立体和多面,AI 能够更智能地分析和提取人的记忆,为消费者提供更个性化、定制化的内容。

他们希望实现的个性化体验是这样的:AI 能够记录人们生活中的重要时刻,如升职、恋爱,这些经历形成了用户的人格,AI 则根据用户当下经历生成不同的适配内容。

为此,火星电波规划了三个发展阶段:第一步,实现“有人味”,即让 AI 的表达达到人类创作水平,让用户能够接受;第二步,实现“个性化”,做到真正的千人千面;第三步,在垂直领域进行深度挖掘,实现更深度的定制化。目前,其正处于第一个阶段。

确定大方向后,他们再细化到了 AI 音频方向,理由是“技术相对成熟,成本可控”。落地中,则率先选用了爆火的 AI 播客场景,对应的产品就是 ListenHub。

不过,两人并未在创业初期就投入到了产品研发上,而是花了很长的时间专注在构建团队上,他们希望这个团队足够 AI Native 以及高度自转。

团队搭建:品质比履历更重要

现在,包括徐文健与冯雷在内,火星电波一共 8 人。团队成员之间的责任界限并不是那么明确,每个人有自己的主要职责,但也可以根据兴趣参与其他工作。

在招聘时,徐文健更注重人的品质。“品质是第一优先级,甚至比履历更重要。”对徐文健来说,一个人的成长性、意识和自驱力是更为珍贵的。因此,尽管火星电波团队成员的学历背景各不相同,从大专到名校硕士,甚至还有清华的实习生,“但这些人都展现出了极高的成长性。”

从筛选结果看,团队中的年轻人居多。“一些经验丰富的求职者可能会因为移动互联网时代的包袱太重而不愿意改变,他们的经验反而成为了限制他们成长的束缚。这其实是一个讽刺。”徐文健感叹。

火星电波有一套自己的筛选流程来找到符合画像的人才。火星电波设置了三轮面试,对候选人的品质面试其实从第一轮就已经开始,比如对于同一道题目,不同的人就会展现出不同的解法和态度。徐文健后面还会花很多时间与候选人反复沟通、确认。

徐文健希望团队成员是因为有着共同的动机而聚集在一起。“创业不仅是一场技术竞赛,更是组织文化、价值观的竞争。”百川的经历让徐文健深刻认识到组织文化价值观的重要性,因此他投入了大量的时间和精力,持续地与大家进行理念更新和价值观拉齐。

徐文健他们会提前思考未来几个月的事情,阶段性地给团队一个大目标,并及时与成员们同步背景等信息。“我们相信,只要团队成员理解了目标和背后的动机,他们就能自主地安排工作,推动项目向前发展。”

当前,这种模式运行很顺利。“让我最为自豪的是,只要我们为团队设定了一个明确的大目标,即使我和冯雷暂时离开一两个月,团队依然能够高效运转。他们会主动完善目标和方向,并将成果呈现给用户。在这个过程中,我们完全可以放手,让他们自主决策和执行。”徐文健开心地说道,“这种团队运作模式背后的理念是文化和价值观的统一。”

这种管理方式让团队的每个人都获得了非常迅速的成长。“回溯过去三到六个月,我可以清楚地看到每个人的变化。他们从最初可能只擅长某个领域的单一技能,逐渐成长为具备多维度能力的复合型人才。这种快速成长和变化,也是我们团队的一大特色。”

在内部决策时,团队更多地是通过充分讨论、常识判断和数据分析来判断方向,而不是依赖于权威。“因为整个团队有这样的一个共识:每个人都需要不断进步,没有人是一定正确的,包括我。”徐文健说道。

2 个多月做出 ListenHub

团队真正开始投入到 ListenHub 的研发是在今年的 3 月份,整个研发周期其实就两个多月,5 月份就正式发布了。

目前,ListenHub 内部有三个引擎,分别负责不同的任务:第一个引擎负责用户输入的意图分析,会针对不同问题扩展出不同结构、深度分析后的文章;第二个引擎负责生成生成具有人情味和高度个性化的内容;第三个引擎则负责将文字内容转化为各种形态的音频。

Agent 目前并没有一套统一的标准或框架,大家都在摸着石头过河。虽然从更宏观的角度看,各家的流程可能相似,比如分析、规划、执行、归因和反思,但在具体的实现方式上,每个团队的理念和实践方式大相径庭,这种差异带来了完全不同的效果。

“Agent 技术确实有些玄学的成分。我们研究了许多开源 AI 播客生成工具,发现它们的结构不尽相同。通过不断尝试和探索,我们找到了一种比开源结构更有效的实现方式。这可能是一种幸运,也可能是一种天赋,就像在 50 种材料中找到了最佳的组合方式。”徐文健说道。

团队还尝试了多个不同的模型,在不同的场景下调用不同的模型来完成不同的任务,还有一些理念和架构则参考了徐文健之前创业的产品开发经验。

团队也会使用 AI 工具提效。徐文健也会使用 AI 编程工具来开发产品。“过去,一个优秀的工程师可能比普通人强十倍;而现在可能要强一百倍。”

但在现有架构下,从预处理到内容生成,再到多模态的转化,每个环节都有大量的细节需要处理。研发期间,团队人员并未完全到位,因此团队的一个重要工作就是反复斟酌哪些功能是必要的、有能力先实现的,在资源有限的情况下推出一个最小可用版本。

比如,团队延迟了对反思机制的引用。背后的考量是:反思机制在某些场景下是必要的,尤其是在更强调行动准确性的通用 Agent 中;而在垂直领域,生成的内容已经相对符合用户预期且较为准确,因此反思机制并不着急现在上线。

另外一个重要但尚未完全实现的功能是 RAG 技术和更智能化的机制。RAG 主要侧重于通过检索来寻找与用户查询最接近的信息, 无法实现记忆的提取和理解,而智能体的记忆则更为复杂,依赖于更复杂的推理和分析过程。因此,团队需要构建一套更智能化的信息分析和提取机制,这将是产品中极为关键的部分,能在不同场景下有效地整理出对用户具有高价值的信息。

而对于爆火的 MCP,研发团队在架构设计中预留了各种接口,但目前这也并非最重要的事情,“用户并不关心使用的是 MCP、Coding server 还是某种特定协议,他们真正关注的是能否使用我们的产品。”

在徐文健看来,AI 产品的本质在于构建一个完整的链路,涵盖产品设计、技术能力,再到 Agent 的各个环节。因此,研发团队的目标是将链路中的每个节点都做到最好,把看似简单的事情做到极致。

“如果链路中每个环节的完成度是 0.8,那最终效果是 0.8^4;但如果每个环节完成度能达到 1.2,那将是 1.2^4 的效果,两者几乎是五倍的差距。这种差距在用户体验上会尤为明显。”徐文健解释道。

但将每一件简单的事情做好,并非易事。徐文健认为其中的关键是做好平衡:局部最优解并不一定是全局最优解,背后需要进行大量的决策,并在性能、质量以及扩展性等反复权衡,最终才能达成一个较为理想的效果。

在这个理念下,相较于 2024 年底最初提供给投资人的 Demo 版本,ListenHub 性能已经提升了 5~6 倍。

6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,徐文健将发表演讲《AI Agent 如何重塑有声内容的生产与分发》,分享他们的“音频 Agent 之路”,包括如何在资源有限的情况下如何做 AI,以及音频内容的自动化生产链路构建经验。 敬请期待: https://aicon.infoq.cn/2025/beijing/presentation/6528

支持和质疑同起

发布以来,大众对 ListenHub 的效果是非常惊喜的,ListenHub 也凭借不错的生成和拟人效果迅速俘获了一批用户。据悉,目前 ListenHub 的注册用户数量大约为一万,日活跃用户数(DAU)超一千。

不过,徐文健反思 ListenHub 的首发,直言虽然影响超出预期,但许多操作没有做到位。比如,从开始宣发到正式发布,中间隔了大约一周多,时间跨度过长,导致宣发不够集中。很多早期了解到 ListenHub 的人,可能因为无法立即使用产品而失去兴趣。宣发当天,徐文健和冯雷还因前一天加班太晚导致第二天未能按时上线。

“首发当天,ListenHub 的 DAU 达到了 5000 多,但从宣发过程中的影响力和关注度来看,如果我们做得更好,这个数字翻倍是完全有可能的。”徐文健也遗憾地说道。冯雷也在 x 上复盘:“本来可以一万 DAU 的,还是没有完全运营好,有些遗憾。”在回复网友评论中他解释是精力有限导致。

一个新产品总是有人支持、鼓励,也有人批评、质疑,ListenHub 也不例外。

比如,产品端还有一些设计可能不符合部分用户习惯,有人提出希望将音频时长延长到半小时,现在三、四分钟的内容会被严重压缩。徐文健对此的解释是,产品核心理念是想让用户轻松地听,不要有太大压力。

“相较于视频或文字消费,音频消费方式更轻松,不会给用户带来视觉疲劳。例如,刷完抖音或小红书后,人们往往会感到焦虑和空虚,而音频则能让人在闭目养神时享受碎片化的内容。因此,ListenHub 目前生成的音频长度不会超过十分钟,希望用户能够在碎片化的时间安静地听完感兴趣的内容,获得知识或情感共鸣,感受到陪伴。”

别做“一句话生成 xx”生意?

没有让每个人都满意的产品,产品是一直更新迭代的。而大众对 AI 播客商业化的质疑则关系到了这个赛道能否一直走下去。

曾有人直言不讳:别做“一句话生成文章、一句话生成视频、一句话生成播客”的 AI 产品,没有价值。原因与上文提到用户增加时长的建议本质上是一样的:AI 播客容易成为“高级摘要工具”,信息密度低,内容会被过度压缩。

徐文健并不认同“没有价值”的评判。“问题的关键在于用户是否使用你的产品,使用就意味着价值。”

他指出,这类产品的核心属性在于能否真正被用户使用和消费,这是一套非常明确的标准。“一句话生成播客”功能与一个真正成熟产品之间的差距是巨大的,前者可能只是一个有趣的小玩具,后者则需要能够持续被用户认可、使用和消费。具体到 ListenHub,其最大特点是用户既是创作者也是消费者,它可以作为一种音频搜索引擎,根据需要生成专属音频内容。

从公司战略角度看,ListenHub 只是火星电波的一个起点,公司通过它来完成技术链路积累,包括基础设施的搭建以及对特定垂直领域需求的深入理解,最终是要借助音频 Agent 的技术路径,打通 AI 音频内容生产与消费的完整链路

在商业变现方面,ListenHub 采用了订阅模式。目前新注册用户主要还是来源于之前的宣发活动。徐文健透露,自然流量获得的用户增长相当可观,主要来自谷歌以及其他多个渠道。

“产品是否成功,最终还是要看那些真正使用它的人。”徐文健表示,并不需要让每个人都使用自己的产品,只要能让一小部分人使用,公司就能获得可观的收益,并持续成长。“数量很重要,但核心是拥有一批忠实的付费用户。”

徐文健坦言,在产品上线初期,团队其实并没有十足的把握,他本人也十分忐忑。然而,上线后却收获了许多积极反馈,让他意外也备受鼓舞。“这让我们意识到,那些给我们提建议的用户,往往是我们的高价值用户。他们愿意使用我们的产品,并且愿意花时间去反馈,这本身就是对我们产品的认可。而那些不喜欢我们产品类型的人,可能根本就不会使用,更不会提出反馈。”

“创立之初就立志出海”

尽管火星电波的音频成本已经控制得相对较低,但在国内让用户每月支付 70 元的订阅费用仍然很难。因此,火星电波选择在国内接受用户反馈不断改进产品,提升影响力,而将商业变现的主力放到海外用户上。

“我们这批 AI 创业公司实际上是第一批从创业之初就立志要出海、要做全球化业务的中国企业。”徐文健解释道,与先辈们不同,现在这批创业者从一开始就坚定地想要在国际舞台上竞争,这种改变不仅来自国家发展和环境变化,也来自于这代人的自身积累和沉淀,让其在创业之初就具备了更广阔的视野和更大的野心。

徐文健没有给团队制定特别宏伟的计划,他更愿意“遇到一个坑,就解决一个坑”。“我们没有太多资源,也没有太多专业知识,但我们始终保持高度的敏感性,努力学习、不断尝试。我们专注于每天完成一个小目标,而不是被宏大的目标所困扰。”

但实际上,他对现在产品的出海表现也很有信心,“团队现在做得也并不差,例如在宣发中,ListenHub 零成本吸引了 20 多个海外大 V 转发。”徐文健表示,这其中就有他们摸索出来的一种能走得通的方式。

ListenHub 研发团队建立了一套包含 20 多个维度的评测标准,从多种维度与市场上其他产品进行对比,包括谷歌的 NotebookLM 等。“目前来看,我们在国内处于相对领先的位置,虽然可能不如 NotebookLM,但在国内市场上还是具有一定优势的。”

如何与大厂竞争?

巧的是,ListenHub 发布后,豆包就发布了与其功能类似的大模型语音播客模型。这是很多创业公司都会面临的问题:相似产品非常容易会被大厂做出来,甚至被超越。

“ListenHub 可能看起来与其他播客产品相似,但它所传递的理念以及用户在使用过程中的感受是完全不同的。”徐文健认为,虽然竞争激烈,但注意力还是应该放在自身产品的打磨上。

“我们不是特别关注竞争对手。”徐文健说道,“创业其实并不需要关注太多其他因素。你只需要清楚自己要做什么,并且把它做好。”这是以往创业经历给他的体会。在他看来,一件事会有无数种实现的方式,但最终决定成败的只有一个关键点,那就是产品的理念是否能够被用户接受,而在这个过程中,过多地关注竞争对手对你没有任何好处。

徐文健并不把自己与大厂的关系定义为“竞争对手”,在他看来双方是“合作伙伴”。创业公司会使用大厂的一些 infra 能力,双方虽然都在开发自己的 AI 产品,但大厂有些产品可能发布之后就不再迭代了。

徐文健进一步解释道,虽然要考虑变现、盈利,但作为一家创业公司,成本低、规模小,团队真正需要做的是专注于完善、细化理念,并把它做到最好。

另外,他也不认为大模型可以作为产品存在,否则世界上所有的 AI 应用公司都将不复存在。“模型公司与应用公司之间存在明显的差异,模型公司专注于基础设施建设,也可能探索一些 Agent 层面的事情,而 AI 应用公司则专注于开发特定领域的应用。这种差异是相当显著的。”

在一定程度上,徐文健认为其团队所面临的选择并不出于 ROI 计算,而是一个更根本的问题:是否要去做这件事。例如,出海面临的文化差异、公司成员是否需要去美国与国内团队的沟通等。团队要在人力、时间和资源有限的情况下,明确最重要的关键点。

“虽然我们认识到某个方向可能有价值,但无法百分之百确定,或者是否能够与那些大型 AI 公司竞争。这种不确定性会带来困惑,但也让我们保持谨慎和谦逊。当团队里的每个人逐渐对某个问题形成自己的见解时,团队的力量就会显现出来。”徐文健说道。

徐文健强调,企业的护城河并不仅仅指技术或产品,核心在于组织和理念,后者才是无法被复制的。“在这个世界上,没有什么东西是不可被复制的。即使是像 GPT 这样强大的技术,也很快有了许多后来者。但从创业的那一刻起,创始人的基因、理念和思想就已经定义了公司,这些是无法被改变或根本性颠覆的。”

原本非常成功的价值观很容易随着企业员工增多而被稀释和裂化,进而出现大公司常被吐槽的效率低等问题。在徐文健看来,这背后的核心问题就是成员不断增加后,那些与企业价值观一致的创业团队成员逐渐流失,公司的价值观随之被稀释,这是一个必然的过程。

因此,徐文健更倾向于将火星电波做成一个小而美的公司,预期规模在 20 人以内,“不希望有太多人”。

结束语

在决定再创业前,徐文健已经准备好了接受各种好或不好的结果。

“创业就像一个黑洞,它会吞噬你之前赖以生存的所有利益,包括稳定的薪酬。你会担心创业失败后,是否还能回到原来的职业轨道。但当面对这些现实利益的诱惑,你仍然愿意勇敢地迈出那一步,去踏入那个未知的领域时,你的内心反而会获得瓶颈。即使我失去了技术工作,不再是工程师,我也心甘情愿。”

但他认为自己还算是幸运,家人、朋友都很支持自己的选择,他可以专心做自己喜欢的事情,并且也有了一些不错的成果。

徐文健很享受现在忙碌的创业生活,用他自己的话说就是:在 30 岁找到了真我。

本文来自微信公众号 "极客邦科技InfoQ",由AI智榜收集发布,撤稿请联系运营。
广告