你可能在找的答案
- 苹果 WWDC26 发布了什么 AI 新功能?
- Siri Agent 和过去的 Siri 有什么本质区别?
- Apple Intelligence 为什么说「重新出发」而不是「升级」?
- Foundation Models 2.0 开发者能用它做什么?
- 苹果的隐私 AI 路线能在商业上打赢 OpenAI / Google 吗?
2022 年 11 月,ChatGPT 上线。接下来整整三年,科技圈都在问同一个问题:苹果在哪里?
Siri 还是在问你「我可以帮你搜索吗?」,Bing Chat 已经能帮你写周报;Google Gemini 深度整合进 Android,而 iPhone 用户打开 Siri 依然是那颗熟悉的彩色球——然后它说「抱歉,我没听清楚」。
2024 年,苹果发布 Apple Intelligence,承诺要「重新定义 Siri」。然后——延期。再延期。一些功能悄悄在 iOS 18.4 出现,再悄悄在 iOS 18.5 消失。
苹果没有赢下 AI 的上半场,这是事实。但 WWDC26,Tim Cook 和 Craig Federighi 站在台上,发布的不是一个补丁,而是一个完整的反击宣言——Siri Agent、Foundation Models 2.0、Apple Intelligence 全面铺开,以及一个关于隐私 AI 的长期主义押注。
这篇文章,我们从头捋清楚:苹果为何输掉上半场,WWDC26 具体发布了什么,以及它下一个十年想走的那条路,究竟是缩减战线的保守主义,还是一场更大的赌注。
1 · 上半场:苹果为何落后?
1.1 Siri 的结构性困境
Siri 在 2011 年就已推出,比 ChatGPT 早了整整 11 年。但早发布不等于早领先——Siri 的底层架构是「规则引擎 + 语音辨识 + API 桥接」的组合,而不是语言模型。这意味著它能做的事被事先写死了:设闹钟、播音乐、查天气。一旦你偏离这些场景,它就交出答案——「我在网页上找到了一些结果」。
而 GPT-4 展示的是完全不同的能力:它能理解意图、能推理、能跨上下文工作。这不是 Siri「落后一代」的问题,这是两种根本不同的系统设计——一个是状态机,一个是语言模型。
1.2 Apple Intelligence 的延期之谜
2024 WWDC 上,苹果宣布 Apple Intelligence——端侧智慧、重写的 Siri、ChatGPT 整合、Private Cloud Compute。发布会现场掌声雷动。然后,大多数功能要等到 iOS 18.1、18.2、18.4……
延期的背后,还有一个结构性原因很少被讨论:苹果做 AI 的方式,天然比 OpenAI 慢。OpenAI 可以在服务器端偷偷把模型换掉,用户感受不到任何中断;苹果的每一次更新都必须通过 App Store 审查,都必须在 iOS 新版本里出货,都必须在四十亿设备上稳定运行——这是世界上最严苛的 AI 部署条件。
1.3 感知落差:输掉了叙事,不一定输掉了技术
这里有一个容易被忽略的细节:苹果的 Neural Engine 从 2017 年的 A11 就开始内建,比大多数 AI 玩家更早布局边缘 AI 硬件。M 系列芯片的 NPU 效能在业界处于顶尖水准。Foundation Models 的端侧 3B 参数模型,能做的事情已经超过很多人的预期。
苹果输的,更多是「可见的 AI 产品体验」——那些让媒体截图分享、让用户在朋友面前炫耀的时刻。输掉上半场,不代表输掉了未来的牌面。
2 · WWDC26 全解析:它实际发布了什么?
2.1 Siri Agent:终于能「做事」而不只是「说话」
这是 WWDC26 最重要的一个转变。过去的 Siri 是一个问答介面——你问,它答。新的 Siri Agent 是一个行动执行者——你说目标,它去完成。
核心能力的差距在于两点:App 间行动串接,以及多步骤任务规划。
| 能力 | 旧版 Siri | Siri Agent(WWDC26) |
|---|---|---|
| 任务类型 | 单一指令,结果即答 | 多步骤任务,自动拆解执行 |
| App 整合 | 限定 SiriKit 支持的 App | 通过 App Intents 跨 App 行动 |
| 个人上下文 | 基本:姓名、日历 | 深度:邮件、消息、照片、健康数据 |
| 错误处理 | 失败则放弃,建议用户手动 | 中途卡住时询问确认后继续 |
| 推理引擎 | 规则树 + 语音辨识 | 语言模型 + 计划执行图 |
具体的例子:你对著 Siri Agent 说「把昨天开会的录音整理成待办清单,发到工作群组,然后在日历上帮我排明天的跟进会议」——这是一个跨越备忘录、消息、日历三个 App 的四步骤任务。旧 Siri 面对这句话只能说「我帮你搜索看看」;Siri Agent 会真的去执行它。
实现这个的底层机制是 App Intents 2.0——苹果把系统内建 App 的几百个「意图」开放给 Siri Agent 呼叫,第三方开发者也可以通过 AppIntent 协定把自己 App 的核心动作暴露出来。Siri Agent 本质上是一个 LLM 驱动的 Intent 路由引擎,而 Intent 是它操作世界的手。
2.2 Apple Intelligence 全面铺开:从「预览」到「正式」
WWDC26 最直白的一个信号,是苹果终于去掉了 Apple Intelligence 旁边那个「Beta」标签。这不只是一个词的变化——这意味著苹果认为它已经足够稳定、足够完整、足够自信对外宣称这是一个产品而非一个承诺。
具体落地的能力包括:
- Writing Tools 全语言支持:改写、摘要、调整语气,扩展到包括繁体中文、日文、韩文在内的 20+ 语言
- Image Playground 升级:从卡通风格扩展到更多画风,新增「个性化 Genmoji」可基于你的联络人生成贴图
- Photo Intelligence 增强:搜索「去年夏天在海边的照片」这种自然语言查询,准确率大幅提升
- 通知摘要优化:解决了去年被广泛批评的「摘要把新闻误读成标题党」问题,新增重要度分层显示
- 萤幕感知(Screen Awareness):Siri 现在能看懂你正在看什么,并基于当前画面回答问题或执行操作
2.3 Foundation Models 2.0:开发者的真正弹药
去年的 Foundation Models 框架已经相当惊艳——零 token 费、无需 API Key、数据不出设备。WWDC26 的 Foundation Models 2.0,在此基础上走得更远:
import FoundationModels
let session = LanguageModelSession()
// 新增:视觉理解(传入图片直接推理)
let image = UIImage(named: "receipt.jpg")!
let result = try await session.respond(
to: "帮我把这张发票的项目整理成 JSON",
including: [.image(image)]
)
// 新增:结构化输出(直接返回 Swift Codable 物件)
struct Invoice: Codable {
let vendor: String
let total: Double
let items: [InvoiceItem]
}
let invoice = try await session.respond(
to: "解析发票",
including: [.image(image)],
generating: Invoice.self
)
核心升级点:
- 多模态支持:可直接传入图片,模型在端侧完成视觉 + 语言联合推理
- 结构化输出:直接生成 Swift Codable 物件,不再需要手动解析 JSON 字串
- Streaming 回应:逐字流式输出,适合需要即时显示的对话场景
- 工具呼叫(Tool Calling):模型可在推理过程中呼叫你定义的函式,完成 Agent 式任务
- Python SDK + fm CLI:开放非 Swift 语言接入,脚本、后端工具都可调用
- 框架开源:Foundation Models 框架本身在 GitHub 开源,社群可贡献
| 能力 | Foundation Models(2025) | Foundation Models 2.0(WWDC26) |
|---|---|---|
| 语言理解 | ✓ 文字输入 | ✓ 文字 + 图片输入 |
| 输出格式 | 纯文字字串 | 文字 / JSON / Swift Codable |
| 输出方式 | 等待完成后返回 | Streaming 逐字输出 |
| Agent 能力 | 无 | Tool Calling 框架 |
| 语言支持 | Swift only | Swift + Python SDK + CLI |
| 开源状态 | 闭源 | 框架开源 |
2.4 Private Cloud Compute 2.0:云端推论也能做到隐私可验证
对需要比端侧 3B 模型更强能力的任务,苹果的答案不是「就送给 OpenAI 吧」,而是 Private Cloud Compute(PCC)——一个苹果自己运营的云端推论丛集,专为 AI 任务设计,但对隐私的承诺与端侧相同。
PCC 2.0 的关键改进:Security Research Virtual Machine——任何安全研究者都可以申请启动一个 PCC 节点的虚拟机器复制,用于验证苹果的隐私声明是否属实。这是对外说「trust but verify」的最强表达:不要相信我的说法,自己去验证我的代码。
2.5 macOS 26 Tahoe × iOS 26:AI 渗透系统每一层
WWDC26 还宣布了 macOS 26 Tahoe 和 iOS 26,AI 不再是一个独立的「功能模组」,而是渗透进操作系统的每一层:
- Xcode 27 本机补全:多行程序补全在 Apple Silicon 本机执行,不走云端
- Safari 智能摘要:网页摘要在端侧生成,不上传给任何服务器
- Finder 语意搜索:「找上个月那个和财报有关的 Excel」——自然语言查本机文件
- 邮件智慧起草:基于你的历史邮件风格生成回复,完全离线
- 健康 App AI 教练:基于你的健康数据给出个性化建议,数据一律不出设备
图 1 · Apple Intelligence 架构分层:从端侧到 PCC,再到第三方 AI
3 · 战略解析:苹果在押注什么?
3.1 隐私作为护城河,而不是行销口号
理解苹果 AI 战略的关键,是把「隐私」从一个品牌标语还原成一个商业壁垒。
OpenAI 和 Google 在 AI 赛道的优势是:大量数据、大量算力、快速迭代。苹果没有办法在前两项上追上——它没有那么多 AI 用户数据,也没有那么多 A100 / H100。它选择的是另一条曲线:把最强的 AI 能力搬到端侧,让「数据不需要上云」本身成为特性,而不是限制。
这个选择的副产品,是一个 OpenAI 很难复制的护城河:你无法在租用的服务器上做到真正的「用户数据不出设备」。这个架构优势,随着 AI 法规(GDPR 执行、各国数据主权法)的收紧,只会变得越来越值钱。
3.2 生态锁定:AI 功能 × Apple Silicon × App 生态
WWDC26 的一个精心设计:几乎所有新 AI 功能都需要 A17 Pro 以上或 M 系列芯片才能完整运行。这是一个清晰的升级换机驱动力——想用 Siri Agent?换 iPhone 17。想在 Mac 上跑 Foundation Models 2.0 本机推理?M 系列的效能优势非常明显。
同时,App Intents 的深度整合,让整个 iOS / macOS 生态的 App 开发者都必须跟上——接入 App Intents 的 App 获得 Siri Agent 的自然曝光,不接入的 App 逐渐被边缘化。这是苹果惯常的生态治理手法:用功能引导开发者,而不是强制命令。
3.3 长期主义的赌注:OS-level AI vs API-level AI
OpenAI、Anthropic、Google DeepMind 的路线,本质上是提供「AI 即服务」——你呼叫它们的 API,支付每百万 token 的费用,享受最强的模型能力。这个模式在 2025~2026 年的商业化非常成功,但它有一个根本性的脆弱点:任何人都可以替换 API——包括苹果。
苹果的赌注是:把 AI 做成操作系统的一部分,而不是一个可替换的服务。Siri Agent 对设备上下文的感知,Foundation Models 对 NPU 的深度整合,PCC 对 Secure Enclave 的架构依赖——这些都在让「苹果的 AI」越来越难被第三方替换。
4 · 开发者视角:WWDC26 改变了什么?
4.1 App Intents 从「可选」到「必选」
如果你在维护一个 iOS App,WWDC26 之后有一件事值得立刻排进 backlog:审查你的核心功能,哪些可以暴露为 App Intent。
Siri Agent 的能力边界 = 已接入 App Intents 的动作集合。每一个你暴露的 Intent,都是一个 Siri Agent 可以帮用户完成的动作。用户说「帮我在 [你的 App] 里做 X」,如果你没有 Intent,Siri 只能说「抱歉,这个 App 还不支持」。
import AppIntents
struct CreateNoteIntent: AppIntent {
static var title: LocalizedStringResource = "建立新笔记"
static var description = IntentDescription("在 App 中建立一则新笔记")
@Parameter(title: "内容") var content: String
func perform() async throws -> some IntentResult {
// 你的业务逻辑
let note = NoteService.create(content: content)
return .result(value: note.id)
}
}
4.2 Foundation Models 2.0 的实际使用场景
有了多模态、结构化输出和 Tool Calling,Foundation Models 2.0 的可用场景大幅扩展:
| 场景 | 实现方式 | 适合层级 |
|---|---|---|
| 发票 / 收据解析 | 拍照 → 图片输入 → 结构化 JSON 输出 | 端侧完成,零 API 费 |
| 本地文件摘要 | PDF 文字 → 端侧摘要 → Streaming 显示 | 端侧完成,隐私可保 |
| 智慧表单填写 | 自然语言输入 → 解析为 Codable 物件填表 | 端侧完成,UX 大幅提升 |
| 医疗 / 健康数据分析 | HealthKit 数据 → 端侧推理 → 个性化建议 | 必须端侧,法规要求 |
| 企业内部文件搜索 | 语意搜索 + Tool Calling 查询本地数据库 | 端侧 + PCC,数据不出企业 |
4.3 开发环境的新挑战:Xcode 27 + iOS 26 SDK 的版本钉定
所有这些新功能,都依赖 Xcode 27 和 iOS 26 SDK。这意味著你的建置环境需要跟上——而这是真正麻烦的地方。
Foundation Models 2.0 的 API 在模拟器和真机上行为不同;Siri Agent 的 App Intent 整合需要特定版本的 Xcode 才能正确索引;PCC 的整合测试需要特定的 entitlement。如果你的 CI 环境跑在 GitHub hosted runner 上,你正在等待一个不确定的 Xcode 27 支持时间表——而如果你的 CI 跑在 Cloud Mac 上,你可以在 WWDC26 结束后几小时内就把环境更新到 Xcode 27 beta。
5 · 未来十年的棋局
5.1 监管的顺风:隐私法规让苹果的架构越来越值钱
2026 年,全球 AI 监管正在加速:欧盟 AI Act 进入执行期,美国多州相继通过 AI 透明度法案,中国的 AI 生成内容管理办法持续更新。在这个监管环境里,「能通过审计的隐私架构」越来越稀缺,越来越值钱。
苹果的 PCC 可验证架构、Foundation Models 的端侧设计、Differential Privacy 在健康数据上的应用——这些在消费市场可能只是品牌加分项,但在企业市场、医疗市场、金融市场,这些是合规采购的门票。
5.2 硬件 × 软件协同:其他人很难复制的飞轮
一个很少被讨论的现实:苹果是这个星球上唯一同时设计 AI 芯片、AI 操作系统、AI 应用框架和 AI 终端设备的公司。Google 设计 TPU 但 Pixel 不是主流设备;Qualcomm 设计 NPU 但它不做软件;Microsoft 做 AI 软件但依赖第三方硬件。
这个垂直整合,让苹果可以做很多其他人做不到的优化:Foundation Models 的推理路径可以直接针对 Neural Engine 的指令集调优;Siri Agent 的回应延迟可以压到 50ms 以内,因为底层硬件和软件是同一个团队设计的。
5.3 开源讯号:Framework 开源是信任建设,也是生态引力
Foundation Models 框架开源,是 WWDC26 被低估的一个讯号。苹果不是一个习惯开源的公司——它的核心优势一直是封闭生态的高品质控制。选择在这个时机开源 Foundation Models,更多是一个信任建设动作:让外部研究者、企业客户的安全团队可以审计它,而不只是相信它的说法。
这也是一个生态引力建设:开源的框架吸引研究者,研究者发表论文,论文引用带来更多开发者采用,更多采用带来更丰富的第三方 App,更丰富的 App 让 Siri Agent 变得更强大。这是 Apple Silicon + Swift 生态的重演,只是这次在 AI 层面。
6 · 客观评估:苹果真的赢得了下半场吗?
我不想在这里给出一个过度乐观或过度悲观的结论。让我们看几个真实的挑战:
6.1 苹果面对的真实挑战
- 端侧模型的天花板很真实:3B 参数模型在复杂推理、代码生成、长上下文任务上,和 GPT-5.5 / Claude Opus 4 的差距是结构性的。Siri Agent 做得了「把会议记录整理成待办清单」,做不了「帮我重构这个 Swift 项目的架构」。
- 第三方 App 整合需要时间:App Intents 的生态建设,依赖第三方开发者配合。WWDC26 发布后,要等到有足够多的 App 支持 Siri Agent 的深度整合,可能需要 6~18 个月。
- 非英语市场的体验仍有差距:繁体中文、日语、韩语的自然语言理解在 WWDC26 有改进,但对话流畅度和英语版本的差距仍然明显。
- 用户习惯的迁移需要教育:大多数用户已经习惯去 ChatGPT 或其他 AI 应用完成复杂任务。让他们转而信任 Siri Agent,需要一段时间的行为改变。
6.2 苹果可能赢的地方
然而,有几个维度苹果确实建立了真实优势:
隐私敏感场景:医疗、法务、财务、企业内部数据——这些场景的用户宁愿用能力弱一点、但确保数据不出设备的 AI,也不愿意把敏感数据送到 OpenAI 的服务器。随着这类场景的 AI 采用率提升,苹果的市场份额会自然增长。
日常高频低复杂度任务:摘要、翻译、改写、分类——这些任务占 AI 使用量的大头,但不需要 GPT-5.5 等级的智慧。端侧 Foundation Models 完全够用,且延迟更低、费用为零。对日常使用者,「足够好且免费」往往比「最强但按量计费」更有吸引力。
操作系统整合的深度:Siri Agent 读取你的日历、邮件、消息、照片的能力,任何第三方 AI App 都做不到——苹果不开放这些 API 给竞争对手。这个系统整合的护城河,短期内无人能复制。
7 · FAQ
Siri Agent 现在能做 ChatGPT 能做的事吗?
不能完全替代,但目标场景不同。ChatGPT 的强项是「开放域推理、代码生成、复杂创作」;Siri Agent 的强项是「深度整合设备上下文、跨 App 执行任务、隐私敏感操作」。理想的用法是配合使用,而不是二选一:Siri Agent 管理你的设备和生活,ChatGPT 帮你做复杂的思考和创作工作。
Foundation Models 2.0 适合我的 App 吗?
如果你的 App 有以下任何需求,非常适合:需要处理用户隐私数据(健康、财务、个人文件)、需要高频低延迟的 AI 功能(每次用户输入都触发)、希望 AI 功能在离线状态也可用、想控制 AI 功能的边际成本(规模扩大后零费用)。不适合的场景是:需要即时联网搜索、需要生成超长文件、需要顶尖的代码生成能力。
没有 Apple Silicon 的设备还能用 Apple Intelligence 吗?
部分功能可以。完整的 Foundation Models 2.0 端侧推理需要 A17 Pro(iPhone 15 Pro)以上或 M1 以上 Mac / iPad。较老设备可以通过 PCC 享受部分 Apple Intelligence 功能,但需要网络连接,且功能集合较少。Fallback 策略对支持旧设备的 App 来说是必须实现的。
WWDC26 之后我该立刻动 App 吗?
不必恐慌,但有几件事值得现在就开始排期:(1)评估哪些功能可以接入 App Intents——这是 Siri Agent 时代的流量入口;(2)规划 Foundation Models 2.0 的 PoC——找一个边际成本高、隐私要求高的功能做试验;(3)更新 CI 环境到 Xcode 27——建议用 Cloud Mac 确保环境版本钉定,避免 GitHub hosted runner 的版本不确定性。
和 VPSSpark Cloud Mac 有什么关系?
WWDC26 发布的这些功能需要 Xcode 27 + iOS 26 SDK 才能完整开发和测试。Cloud Mac 提供固定版本的 macOS + Xcode 环境,让你的 CI 在 WWDC 后的头几周就能稳定跑在最新 SDK 上,而不是等待 GitHub hosted runner 不确定的更新时程。Siri Agent 的 App Intent 整合、Foundation Models 2.0 的多模态 API,都可以在 Cloud Mac 的 Xcode 27 环境里立刻开始实验。
收束:苹果想赢的那场战争,和你想的不一样
上半场,苹果输掉的是一场「谁的聊天机器人最聪明」的竞赛。这场竞赛,它没有办法赢,也选择了不去赢。
它想赢的下半场,问题是:当 AI 无处不在、能力已经足够,谁的 AI 最值得信任、最深度融入你的生活?
这个问题没有一个快速的答案,也没有一个明确的评分指标——不像「谁的 MMLU 分数更高」那样一目了然。但这恰恰是苹果选择这个战场的原因:在一个没有快速评分指标的竞争里,先发优势让位于长期信任的积累,而信任是它最擅长建立的东西。
苹果没有赢下 AI 的上半场,但 WWDC26 显示它至少弄清楚了自己想打的是什么球。接下来五年,这个押注是否成立——欢迎再来聊。
WWDC26 之后:先钉住 Xcode 27 环境,再谈 AI 功能开发
若你正在把 Siri Agent App Intents 或 Foundation Models 2.0 接进 App,同时需要固定 Xcode 27 / iOS 26 建置环境,VPSSpark Cloud Mac 可作为开发与 CI 的 macOS 执行底座——在 WWDC26 后几小时内更新到最新 beta SDK,让你领先队友一个身位。
了解 Cloud Mac 方案,让 Apple Intelligence 开发从第一天就跑在稳定环境上。