AI · 企业软件

OpenAI 对决 Anthropic: AI 竞争与智能体未来

当 OpenAI 和 Anthropic 的产品路线图越来越相似,Box CEO Aaron Levie 从企业内容管理第一线指出:AI 竞争的本质不是谁有更强的模型,而是谁能更好地解决企业数据的"最后一公里"问题。

主持人
Alex Kantrowitz
嘉宾
Aaron Levie (Box CEO)
时长
约 56 分钟
观看完整视频

核心要点

01

产品路线趋同

OpenAI 和 Anthropic 的产品路线正高度趋同,都朝着编码、企业和智能体三个方向发力。

02

30-50倍市场扩张

AI 智能体从"聊天机器人"进化为"智能工作马",市场规模从工程师扩展到所有知识工作者。

03

AI 问题本质是数据问题

企业在 AI 上的最大障碍不是模型能力,而是数据的混乱组织方式——缺乏统一的真相来源。

04

编码是特例非常态

编码成为 AI 突破口是因为它具有可验证、文本化、技术用户等独特优势,其他知识工作并不具备。

05

速度与准确性的永恒权衡

AI 中没有免费的午餐——你可以选择极快但不够准确,或者极其准确但很慢。

06

市场大到足以容纳多个赢家

参考云战争历史,AI 市场足够大,所有主要玩家都可能成为 5-10 倍于当前规模的公司。

深度洞察

01

从双雄对垒到殊途同归

00:00:00 → 00:03:36
核心观点

OpenAI 和 Anthropic 的产品路线正在高度趋同,两者都朝着编码、企业和智能体三个方向发力。

深度阐述
趋同的必然性

一年前,行业还在讨论 Anthropic 专注企业市场、OpenAI 专注消费者的差异化战略。但到了 12 月,编码模型出现了质的飞跃——它们能够长时间无中断地完成编程任务,这使得非技术人员也能从中受益。

云战争的历史启示

Levie 指出,这种趋同本质上是不可避免的。当你将"超级智能"压缩进一个模型时,它必然会收敛到相同的应用场景。这就像云基础设施战争一样,AWS、Azure、GCP 最终都提供了相似的服务,但每家都发展成了数百亿美元级别的业务。

ChatGPT 的企业渗透

ChatGPT 实际上已经通过员工自发使用渗透到了企业环境中,很多公司将其作为标准的企业 LLM(大语言模型)。因此,现在 OpenAI 和 Anthropic 在企业领域展开正面竞争,竞争的焦点包括编码能力、API 服务以及终端用户的知识工作用例。

02

AI 智能体的下一个前沿

00:03:36 → 00:06:47
核心观点

AI 的真正机会在于从"聊天机器人"进化为"智能工作马",市场规模将从工程师扩展到所有知识工作者。

深度阐述
革命性概念

Levie 提出了一个革命性的概念:如果每个人都能像程序员一样熟练使用电脑,能为任何任务编写代码,世界会变成什么样?现在,这个愿景正在通过 AI 智能体成为现实。

协同工作(Co-work)用例

协同工作(Co-work)用例是这场变革的早期体现。智能体可以:访问你计算机上的所有工具;针对从未见过的新问题即时编写代码;调用预设的"技能"脚本。

从聊天到执行的范式转变

这标志着 AI 从"你问我答"的聊天模式,转向"你给任务,我去执行"的智能体模式。智能体可以独立工作几分钟、几小时甚至几天,最终产出可供审查和使用的工作成果。

市场规模扩张

从市场规模来看,这是 30 到 50 倍的扩张——从数千万工程师扩展到全球所有知识工作者。Levie 认为,尽管个人用户也会使用,但真正的经济价值将来自企业应用,因为企业场景的 ROI(投资回报率)远高于个人场景。

03

编码为何成为突破口

00:06:47 → 00:13:51
核心观点

编码之所以成为 AI 的首个突破性应用,是因为代码世界具有独特的结构性优势,这些优势在其他知识工作领域并不普遍存在。

深度阐述
编码的独特优势

编码的优势包括:完全基于文本(没有复杂的非结构化数据);访问完整代码库(智能体可以看到所有相关代码);可验证性(代码能运行就是对的,不能运行就是错的);技术用户群体(开发者知道如何把跑偏的智能体拉回正轨)。

一般知识工作的挑战

一般知识工作的挑战包括:数据分散在 20 多个系统中(需要逐一连接);用户非技术背景(学习新工具是负担而非乐趣);缺乏即时验证(智能体产出的内容必须人工审查);治理和合规限制(企业有各种安全政策)。

"外推谬误"

Levie 强调,这解释了为什么 AI 在硅谷内部(大量编码工作)看起来进展神速,但在传统企业中推广缓慢。我们容易犯"外推谬误"——因为 AI 擅长编程,就假设它同样擅长法律、医疗、建筑等其他领域。

"这波技术扩散将需要'很多很多年'。对于能够搭建桥梁、帮助企业完成这段旅程的公司来说,这反而是巨大的机会。"
04

企业 AI 的"最后一公里"难题

00:13:51 → 00:31:40
核心观点

AI 在企业中的最大障碍不是模型能力,而是企业数据的混乱组织方式——AI 问题本质上是数据问题。

深度阐述
新员工比喻

Levie 用一个生动的比喻说明问题:想象一个刚入职一天、拥有博士学位但完全不懂公司情况的新员工。你给他访问所有系统的权限,让他 30 秒内找到某个新产品的研发资料。

部落知识困境

他会面临什么困境?资料可能分散在 5 个不同的系统中,哪个是权威版本?哪些是过时的草稿?这些知识属于"部落知识"(tribal knowledge)——通过多次会议、试错、询问同事才能获得。

AI 智能体的更糟糕处境

AI 智能体处于更糟糕的境地:它不仅缺乏这些上下文,甚至不知道"自己不知道什么"。它会自信地找到第一个看似相关的文档,就把答案交给你,完全意识不到还有其他系统需要查询。

企业 AI 部署的现实

Levie 指出,这就是企业 AI 部署的现实:数据分散在 20、30、50 甚至 100 个不同系统中;文档没有统一的真相来源(source of truth);流程和元数据缺失或不一致。

"企业在 AI 问题上的挣扎,本质上是数据治理问题的爆发。"
机会所在

对于 Box 这样的企业内容管理公司来说,这正是机会所在。Levie 认为,未来几年企业会逐渐意识到:要让 AI 有效工作,必须先建立统一、结构化的信息基础设施。

05

信任与控制的困境

00:31:40 → 00:36:44
核心观点

要让 AI 智能体真正发挥作用,用户需要放弃大量控制权,但安全和信任问题使得这种放弃变得极其困难。

深度阐述
理想场景 vs 现实困境

主持人 Alex 描述了一个理想场景:AI 智能体可以读取他的所有邮件、起草回复、处理播客广告脚本、调用语音合成生成音频……这听起来极其高效,但他"做不到"——给 AI 这种级别的权限让他感到不安。

企业环境最佳实践

Levie 给出了企业环境的最佳实践建议:为智能体创建独立账户(不要让它访问你的个人账户);分区数据访问(只给它完成任务所需的特定文件);将其视为同事(用协作而非授权的方式交互)。

新的安全风险

但这又引出了新的安全风险:提示注入攻击(攻击者可能通过精心设计的邮件骗取智能体泄露数据);责任归属问题(当医疗 AI 开错处方时,责任在谁?);法律框架滞后(现有法律假设交易双方都是人类,这需要全面更新)。

Karpathhy 的观察

Levie 特别提到 Andrej Karpaththy 的有趣观察:同一个 AI 对同一个问题,只要提示词稍作调整(正面 vs 负面措辞),就能给出完全相反但都"有理有据"的答案。这让用户面临一个严峻挑战。

"你必须深刻理解这些系统如何工作,才能确保不被'平均化'的回答误导。"
06

速度与准确性的永恒权衡

00:36:44 → 00:43:23
核心观点

AI 中没有免费的午餐——你可以选择极快但不够准确,或者极其准确但很慢,这是一道没有完美答案的选择题。

深度阐述
Box 智能体的真实困境

Levie 分享了 Box 智能体开发中的一个真实困境。他们测试了一个查询任务:查找多个城市的办公室地址,其中包含一些假地址。

关键决策点

智能体面临一个关键决策:找不到某个地址时,应该搜索多少次?搜索 1 次:5 秒返回,但 50% 错误率;搜索 10 次:15 秒返回,95% 正确率。

Perplexity 的成功之道

用户根本不知道背后的 trade-off(权衡)是什么。这正是 Perplexity AI 等产品成功的原因——它们愿意做"工作马",不惜花 15 分钟完成一个查询,只要答案正确。

ChatGPT 的"懒惰"问题

Levie 调侃 ChatGPT 的"懒惰"问题:你让它找 100 家公司,它只给你 25 家然后说"如果您需要可以继续问"。这就像雇了一个会主动偷懒的员工。

关键洞察
这个问题没有技术解决方案,只能通过用户教育——让用户理解"我需要多快的答案"和"我能接受多高的错误率"之间的必然联系。
07

横向 vs 垂直:谁将获得价值?

00:43:27 → 00:50:32
核心观点

AI 价值的最终归属尚未定论,横向通用平台和垂直专用解决方案都可能胜出,实验室无论如何都是赢家。

深度阐述
AI 领域的激烈辩论

这是 AI 领域最激烈的辩论之一。垂直派论点:特定行业的智能体能深刻理解行业上下文;可以连接专有数据系统;能进行深度的工作流变革管理;客户更信任"每天早上都在想我工作流"的专用供应商。

横向派(苦涩的教训)论点

随着模型能力提升,垂直优势会被侵蚀;特定领域知识可以通过技能和工具调用获得;通用平台终将吞噬垂直应用。

SaaS 历史的启示

Levie 认为,现在下结论为时过早。他引用了传统 SaaS 软件的历史:即使在有强大横向产品(如 Salesforce)的情况下,仍然诞生了数十家垂直软件巨头(如 Veeva、ServiceTitan 等)。

"每天只关心一个工作流的公司,终究比什么都做的公司更能赢得客户信任。"
实验室是最终赢家

但无论如何,实验室(OpenAI、Anthropic)都是赢家——它们提供的是"智能层",无论上面是横向应用还是垂直应用,都需要调用它们的模型。真正的问题是:应用层能捕获多少价值?

Levie 的判断

Levie 的判断是,这会因行业而异:高度监管、高价值工作(如法律、医疗)更可能倾向垂直专用方案;通用性任务(如写邮件、日程管理)则适合横向智能体。

08

没有撞墙,只是换挡加速

00:50:32 → 00:54:17
核心观点

AI 模型能力的进步远未触及天花板,新一代模型将在所有维度上带来显著提升。

深度阐述
撞墙论已被证伪

一年前,业界还在讨论"AI 是否撞墙了"。Levie 表示,这个问题已经有了明确的答案:没有。

Box 的评估体系

Box 有自己的评估体系——给 AI 智能体一组复杂文档,然后提出高难度知识工作问题。在过去四个月的模型更新中:Opus 从 5 分提升到 52 分;Sonnet 从 4 分提升到 46 分。

两位数百分点提升

这是两位数的百分点提升,而且是在"已经很强大"的基础上的提升。

新一代模型的确定方向

关于传闻中的 OpenAI "Spud" 模型和 Anthropic 的新模型,Levie 认为有几件确定的事情:我们远未触及能力天花板;改进将在所有维度上体现(智能体能力、编码、工具使用、特定领域知识工作);每次突破都会解锁新的企业应用场景。

算力扩张的产品化成果

他特别提到,这些模型是基于两年前开始的算力扩张计划构建的。现在我们才开始看到大规模数据中心投资的产品化成果。

09

云战争的启示:所有人都是赢家

00:54:17 → 01:00:37
核心观点

用 2008 年云基础设施战争的历史来类比今天的 AI 竞争,结论是:市场大到足以容纳多个赢家。

深度阐述
令人深思的数据对比

Levie 分享了一组令人深思的数据:2010 年——AWS 收入约 5 亿美元,Azure 刚刚推出,GCP 还叫 Google App Engine(标志是个卡通喷气发动机);2025 年——全球云基础设施市场达到数千亿美元。

历史视角

如果在 2010 年做播客讨论"云战争谁会赢",正确的答案应该是"这不重要"——因为所有主要玩家都发展成了数百亿美元级别的巨头。

当前的云市场格局

现在美国有四大云服务商(AWS、Azure、GCP、Oracle),还有 Neo 云厂商、国际云厂商(如中国的阿里云、腾讯云),至少有 10 家企业在云基础设施领域建立了可持续的商业模式。

"当市场如此巨大时,日常的战术竞争反而不如战略定位重要。"
AI 的类似属性

Levie 认为 AI 具有类似的属性:没有独家突破(所有重要技术最终都会在整个生态系统中出现);领先窗口很短(任何实验室的优势最多维持 6-12 个月);网络效应有限(除了 API 生态,其他护城河并不深)。

结论

他的结论是:5-10 年后,OpenAI、Anthropic 以及其他主要玩家都将成为比现在大 5 倍、10 倍甚至 50 倍的公司。与其纠结谁会"赢",不如关注谁能在自己的领域内建立独特的价值。

精华收获

🗂️

数据优先于模型

企业 AI 的成败不在于你有多强的模型,而在于你的数据组织得有多好。AI 问题本质上是数据问题。

⚙️

编码是特例而非常态

不要因为 AI 在编码上表现出色,就假设它在其他领域也会同样快地突破。编码具有独特的结构性优势。

🔐

信任需要架构设计

不要让 AI 智能体直接访问你的核心账户。创建独立账户、分区数据访问、将其视为协作对象,这是当前最佳实践。

⚖️

没有免费的午餐

AI 的速度和准确性是一对永恒的 trade-off。你需要根据任务的重要性,选择"快但不完美"还是"慢但准确"。

🔀

垂直 vs 横向未定论

特定行业的专用 AI 解决方案和通用平台都有胜出的可能。高度监管、高价值的领域更可能倾向垂直方案。

🌊

市场大到足以容纳多个赢家

参考云基础设施的历史,AI 市场足够大,不需要只有一个赢家。所有主要玩家都可能成为 5-10 倍于当前规模的公司。

📉

网络效应被高估

AI 领域的网络效应(如 API 生态)存在但有限。技术突破在生态系统中快速扩散,任何实验室的领先优势通常只有 6-12 个月。

🐢

企业转型比想象中慢

硅谷 10 人初创公司和传统 10,000 人企业面临的挑战完全不同。后者需要多年才能解决数据治理和系统集成问题。

💬

提示词敏感性

AI 的回答可能因提示词的细微措辞差异而截然相反。用户必须深刻理解系统如何工作,才能确保不被误导。

😴

"懒惰"是个产品特性

有些 AI 产品(如 ChatGPT)会主动"偷懒",限制自己的输出。这是设计选择,而非技术限制。选择愿意"不知疲倦"工作的 AI 工具很重要。