VPSSpark 博客
← 返回开发日记

苹果没有赢下 AI 上半场,但它想赢下未来十年

机房手记 · AI 观察 #2 · 2026.06.10 · 约 18 分钟阅读

常见搜索:WWDC26 Siri Agent · Apple Intelligence 2026 · Foundation Models 2.0 · 苹果 AI 战略

WWDC26 Siri Agent、Apple Intelligence 与苹果 AI 反击战全解析
WWDC26:苹果不追求「最强模型」,而是押注「最懂你的操作系统」——隐私、生态、硬件三位一体的未来十年棋局。

你可能在找的答案

  • 苹果 WWDC26 发布了什么 AI 新功能?
  • Siri Agent 和过去的 Siri 有什么本质区别?
  • Apple Intelligence 为什么说「重新出发」而不是「升级」?
  • Foundation Models 2.0 开发者能用它做什么?
  • 苹果的隐私 AI 路线能在商业上打赢 OpenAI / Google 吗?

2022 年 11 月,ChatGPT 上线。接下来整整三年,科技圈都在问同一个问题:苹果在哪里?

Siri 还是在问你「我可以帮你搜索吗?」,Bing Chat 已经能帮你写周报;Google Gemini 深度整合进 Android,而 iPhone 用户打开 Siri 依然是那颗熟悉的彩色球——然后它说「抱歉,我没听清楚」。

2024 年,苹果发布 Apple Intelligence,承诺要「重新定义 Siri」。然后——延期。再延期。一些功能悄悄在 iOS 18.4 出现,再悄悄在 iOS 18.5 消失。

苹果没有赢下 AI 的上半场,这是事实。但 WWDC26,Tim Cook 和 Craig Federighi 站在台上,发布的不是一个补丁,而是一个完整的反击宣言——Siri Agent、Foundation Models 2.0、Apple Intelligence 全面铺开,以及一个关于隐私 AI 的长期主义押注。

这篇文章,我们从头捋清楚:苹果为何输掉上半场,WWDC26 具体发布了什么,以及它下一个十年想走的那条路,究竟是缩减战线的保守主义,还是一场更大的赌注。

1 · 上半场:苹果为何落后?

1.1 Siri 的结构性困境

Siri 在 2011 年就已推出,比 ChatGPT 早了整整 11 年。但早发布不等于早领先——Siri 的底层架构是「规则引擎 + 语音辨识 + API 桥接」的组合,而不是语言模型。这意味著它能做的事被事先写死了:设闹钟、播音乐、查天气。一旦你偏离这些场景,它就交出答案——「我在网页上找到了一些结果」。

而 GPT-4 展示的是完全不同的能力:它能理解意图、能推理、能跨上下文工作。这不是 Siri「落后一代」的问题,这是两种根本不同的系统设计——一个是状态机,一个是语言模型。

1.2 Apple Intelligence 的延期之谜

2024 WWDC 上,苹果宣布 Apple Intelligence——端侧智慧、重写的 Siri、ChatGPT 整合、Private Cloud Compute。发布会现场掌声雷动。然后,大多数功能要等到 iOS 18.1、18.2、18.4……

为什么会一再延期?
三个原因叠加:(1)硬件门槛——只有 A17 Pro 以上才能在端侧跑模型,需要等待足够的设备渗透率;(2)隐私审查——Private Cloud Compute 的安全架构需要通过外部审计,不能急;(3)多语言难题——非英语市场的自然语言理解是真正的难题,中文、日语、韩语的复杂性远超预期。

延期的背后,还有一个结构性原因很少被讨论:苹果做 AI 的方式,天然比 OpenAI 慢。OpenAI 可以在服务器端偷偷把模型换掉,用户感受不到任何中断;苹果的每一次更新都必须通过 App Store 审查,都必须在 iOS 新版本里出货,都必须在四十亿设备上稳定运行——这是世界上最严苛的 AI 部署条件

1.3 感知落差:输掉了叙事,不一定输掉了技术

这里有一个容易被忽略的细节:苹果的 Neural Engine 从 2017 年的 A11 就开始内建,比大多数 AI 玩家更早布局边缘 AI 硬件。M 系列芯片的 NPU 效能在业界处于顶尖水准。Foundation Models 的端侧 3B 参数模型,能做的事情已经超过很多人的预期。

苹果输的,更多是「可见的 AI 产品体验」——那些让媒体截图分享、让用户在朋友面前炫耀的时刻。输掉上半场,不代表输掉了未来的牌面。

2017
A11 首搭 Neural Engine
40亿+
Apple 活跃设备数
3B
端侧模型参数量

2 · WWDC26 全解析:它实际发布了什么?

2.1 Siri Agent:终于能「做事」而不只是「说话」

这是 WWDC26 最重要的一个转变。过去的 Siri 是一个问答介面——你问,它答。新的 Siri Agent 是一个行动执行者——你说目标,它去完成。

核心能力的差距在于两点:App 间行动串接,以及多步骤任务规划

能力 旧版 Siri Siri Agent(WWDC26)
任务类型 单一指令,结果即答 多步骤任务,自动拆解执行
App 整合 限定 SiriKit 支持的 App 通过 App Intents 跨 App 行动
个人上下文 基本:姓名、日历 深度:邮件、消息、照片、健康数据
错误处理 失败则放弃,建议用户手动 中途卡住时询问确认后继续
推理引擎 规则树 + 语音辨识 语言模型 + 计划执行图

具体的例子:你对著 Siri Agent 说「把昨天开会的录音整理成待办清单,发到工作群组,然后在日历上帮我排明天的跟进会议」——这是一个跨越备忘录、消息、日历三个 App 的四步骤任务。旧 Siri 面对这句话只能说「我帮你搜索看看」;Siri Agent 会真的去执行它。

实现这个的底层机制是 App Intents 2.0——苹果把系统内建 App 的几百个「意图」开放给 Siri Agent 呼叫,第三方开发者也可以通过 AppIntent 协定把自己 App 的核心动作暴露出来。Siri Agent 本质上是一个 LLM 驱动的 Intent 路由引擎,而 Intent 是它操作世界的手。

开发者视角:App Intents 是护城河
Siri Agent 的能力边界,直接等于「已接入 App Intents 的 App 的能力总和」。这意味著接入 App Intents 的 App,将在 Siri Agent 的使用中获得自然的曝光和调用——对 iOS 开发者来说,适配 App Intents 不再是锦上添花,而是不能缺席的流量入口。

2.2 Apple Intelligence 全面铺开:从「预览」到「正式」

WWDC26 最直白的一个信号,是苹果终于去掉了 Apple Intelligence 旁边那个「Beta」标签。这不只是一个词的变化——这意味著苹果认为它已经足够稳定、足够完整、足够自信对外宣称这是一个产品而非一个承诺

具体落地的能力包括:

  • Writing Tools 全语言支持:改写、摘要、调整语气,扩展到包括繁体中文、日文、韩文在内的 20+ 语言
  • Image Playground 升级:从卡通风格扩展到更多画风,新增「个性化 Genmoji」可基于你的联络人生成贴图
  • Photo Intelligence 增强:搜索「去年夏天在海边的照片」这种自然语言查询,准确率大幅提升
  • 通知摘要优化:解决了去年被广泛批评的「摘要把新闻误读成标题党」问题,新增重要度分层显示
  • 萤幕感知(Screen Awareness):Siri 现在能看懂你正在看什么,并基于当前画面回答问题或执行操作

2.3 Foundation Models 2.0:开发者的真正弹药

去年的 Foundation Models 框架已经相当惊艳——零 token 费、无需 API Key、数据不出设备。WWDC26 的 Foundation Models 2.0,在此基础上走得更远:

Swift · Foundation Models 2.0 多模态
import FoundationModels

let session = LanguageModelSession()

// 新增:视觉理解(传入图片直接推理)
let image = UIImage(named: "receipt.jpg")!
let result = try await session.respond(
    to: "帮我把这张发票的项目整理成 JSON",
    including: [.image(image)]
)

// 新增:结构化输出(直接返回 Swift Codable 物件)
struct Invoice: Codable {
    let vendor: String
    let total: Double
    let items: [InvoiceItem]
}

let invoice = try await session.respond(
    to: "解析发票",
    including: [.image(image)],
    generating: Invoice.self
)

核心升级点:

  • 多模态支持:可直接传入图片,模型在端侧完成视觉 + 语言联合推理
  • 结构化输出:直接生成 Swift Codable 物件,不再需要手动解析 JSON 字串
  • Streaming 回应:逐字流式输出,适合需要即时显示的对话场景
  • 工具呼叫(Tool Calling):模型可在推理过程中呼叫你定义的函式,完成 Agent 式任务
  • Python SDK + fm CLI:开放非 Swift 语言接入,脚本、后端工具都可调用
  • 框架开源:Foundation Models 框架本身在 GitHub 开源,社群可贡献
能力 Foundation Models(2025) Foundation Models 2.0(WWDC26)
语言理解 ✓ 文字输入 ✓ 文字 + 图片输入
输出格式 纯文字字串 文字 / JSON / Swift Codable
输出方式 等待完成后返回 Streaming 逐字输出
Agent 能力 Tool Calling 框架
语言支持 Swift only Swift + Python SDK + CLI
开源状态 闭源 框架开源

2.4 Private Cloud Compute 2.0:云端推论也能做到隐私可验证

对需要比端侧 3B 模型更强能力的任务,苹果的答案不是「就送给 OpenAI 吧」,而是 Private Cloud Compute(PCC)——一个苹果自己运营的云端推论丛集,专为 AI 任务设计,但对隐私的承诺与端侧相同。

PCC 2.0 的关键改进:Security Research Virtual Machine——任何安全研究者都可以申请启动一个 PCC 节点的虚拟机器复制,用于验证苹果的隐私声明是否属实。这是对外说「trust but verify」的最强表达:不要相信我的说法,自己去验证我的代码

这为什么是一个竞争优势而不只是功能点
OpenAI / Google 的云端 AI 从设计上就无法做到「不保留用户输入」——他们的商业模式依赖数据。苹果的 PCC 是让「不留数据」这件事在技术架构上可验证,而不只是在隐私政策里承诺。对企业客户、医疗、法务、金融场景,这是真正有价值的差异。

2.5 macOS 26 Tahoe × iOS 26:AI 渗透系统每一层

WWDC26 还宣布了 macOS 26 Tahoe 和 iOS 26,AI 不再是一个独立的「功能模组」,而是渗透进操作系统的每一层:

  • Xcode 27 本机补全:多行程序补全在 Apple Silicon 本机执行,不走云端
  • Safari 智能摘要:网页摘要在端侧生成,不上传给任何服务器
  • Finder 语意搜索:「找上个月那个和财报有关的 Excel」——自然语言查本机文件
  • 邮件智慧起草:基于你的历史邮件风格生成回复,完全离线
  • 健康 App AI 教练:基于你的健康数据给出个性化建议,数据一律不出设备

图 1 · Apple Intelligence 架构分层:从端侧到 PCC,再到第三方 AI

端侧 Foundation Models 2.03B 参数 · 零边际费 · 数据不出设备
Private Cloud Compute 2.0苹果自有云 · 可验证隐私承诺 · 不保留用户输入
第三方 AI(ChatGPT / 其他)需用户明确授权 · 显示明确隐私提示

3 · 战略解析:苹果在押注什么?

3.1 隐私作为护城河,而不是行销口号

理解苹果 AI 战略的关键,是把「隐私」从一个品牌标语还原成一个商业壁垒

OpenAI 和 Google 在 AI 赛道的优势是:大量数据、大量算力、快速迭代。苹果没有办法在前两项上追上——它没有那么多 AI 用户数据,也没有那么多 A100 / H100。它选择的是另一条曲线:把最强的 AI 能力搬到端侧,让「数据不需要上云」本身成为特性,而不是限制。

这个选择的副产品,是一个 OpenAI 很难复制的护城河:你无法在租用的服务器上做到真正的「用户数据不出设备」。这个架构优势,随着 AI 法规(GDPR 执行、各国数据主权法)的收紧,只会变得越来越值钱。

3.2 生态锁定:AI 功能 × Apple Silicon × App 生态

WWDC26 的一个精心设计:几乎所有新 AI 功能都需要 A17 Pro 以上或 M 系列芯片才能完整运行。这是一个清晰的升级换机驱动力——想用 Siri Agent?换 iPhone 17。想在 Mac 上跑 Foundation Models 2.0 本机推理?M 系列的效能优势非常明显。

同时,App Intents 的深度整合,让整个 iOS / macOS 生态的 App 开发者都必须跟上——接入 App Intents 的 App 获得 Siri Agent 的自然曝光,不接入的 App 逐渐被边缘化。这是苹果惯常的生态治理手法:用功能引导开发者,而不是强制命令。

3.3 长期主义的赌注:OS-level AI vs API-level AI

OpenAI、Anthropic、Google DeepMind 的路线,本质上是提供「AI 即服务」——你呼叫它们的 API,支付每百万 token 的费用,享受最强的模型能力。这个模式在 2025~2026 年的商业化非常成功,但它有一个根本性的脆弱点:任何人都可以替换 API——包括苹果。

苹果的赌注是:把 AI 做成操作系统的一部分,而不是一个可替换的服务。Siri Agent 对设备上下文的感知,Foundation Models 对 NPU 的深度整合,PCC 对 Secure Enclave 的架构依赖——这些都在让「苹果的 AI」越来越难被第三方替换。

核心观点
苹果输掉的是「谁的模型最强」的竞赛。但它押注的问题是:当 AI 能力足够好,「隐私可验证的 OS 级 AI」是否比「最强但需要上云的 API 级 AI」更有长期价值?这个问题,在 2026 年还没有答案,但五年后可能清晰得多。

4 · 开发者视角:WWDC26 改变了什么?

4.1 App Intents 从「可选」到「必选」

如果你在维护一个 iOS App,WWDC26 之后有一件事值得立刻排进 backlog:审查你的核心功能,哪些可以暴露为 App Intent。

Siri Agent 的能力边界 = 已接入 App Intents 的动作集合。每一个你暴露的 Intent,都是一个 Siri Agent 可以帮用户完成的动作。用户说「帮我在 [你的 App] 里做 X」,如果你没有 Intent,Siri 只能说「抱歉,这个 App 还不支持」。

Swift · 定义一个 App Intent(最小范例)
import AppIntents

struct CreateNoteIntent: AppIntent {
    static var title: LocalizedStringResource = "建立新笔记"
    static var description = IntentDescription("在 App 中建立一则新笔记")

    @Parameter(title: "内容") var content: String

    func perform() async throws -> some IntentResult {
        // 你的业务逻辑
        let note = NoteService.create(content: content)
        return .result(value: note.id)
    }
}

4.2 Foundation Models 2.0 的实际使用场景

有了多模态、结构化输出和 Tool Calling,Foundation Models 2.0 的可用场景大幅扩展:

场景 实现方式 适合层级
发票 / 收据解析 拍照 → 图片输入 → 结构化 JSON 输出 端侧完成,零 API 费
本地文件摘要 PDF 文字 → 端侧摘要 → Streaming 显示 端侧完成,隐私可保
智慧表单填写 自然语言输入 → 解析为 Codable 物件填表 端侧完成,UX 大幅提升
医疗 / 健康数据分析 HealthKit 数据 → 端侧推理 → 个性化建议 必须端侧,法规要求
企业内部文件搜索 语意搜索 + Tool Calling 查询本地数据库 端侧 + PCC,数据不出企业

4.3 开发环境的新挑战:Xcode 27 + iOS 26 SDK 的版本钉定

所有这些新功能,都依赖 Xcode 27 和 iOS 26 SDK。这意味著你的建置环境需要跟上——而这是真正麻烦的地方。

Foundation Models 2.0 的 API 在模拟器和真机上行为不同;Siri Agent 的 App Intent 整合需要特定版本的 Xcode 才能正确索引;PCC 的整合测试需要特定的 entitlement。如果你的 CI 环境跑在 GitHub hosted runner 上,你正在等待一个不确定的 Xcode 27 支持时间表——而如果你的 CI 跑在 Cloud Mac 上,你可以在 WWDC26 结束后几小时内就把环境更新到 Xcode 27 beta。

5 · 未来十年的棋局

5.1 监管的顺风:隐私法规让苹果的架构越来越值钱

2026 年,全球 AI 监管正在加速:欧盟 AI Act 进入执行期,美国多州相继通过 AI 透明度法案,中国的 AI 生成内容管理办法持续更新。在这个监管环境里,「能通过审计的隐私架构」越来越稀缺,越来越值钱。

苹果的 PCC 可验证架构、Foundation Models 的端侧设计、Differential Privacy 在健康数据上的应用——这些在消费市场可能只是品牌加分项,但在企业市场、医疗市场、金融市场,这些是合规采购的门票。

5.2 硬件 × 软件协同:其他人很难复制的飞轮

一个很少被讨论的现实:苹果是这个星球上唯一同时设计 AI 芯片、AI 操作系统、AI 应用框架和 AI 终端设备的公司。Google 设计 TPU 但 Pixel 不是主流设备;Qualcomm 设计 NPU 但它不做软件;Microsoft 做 AI 软件但依赖第三方硬件。

这个垂直整合,让苹果可以做很多其他人做不到的优化:Foundation Models 的推理路径可以直接针对 Neural Engine 的指令集调优;Siri Agent 的回应延迟可以压到 50ms 以内,因为底层硬件和软件是同一个团队设计的。

5.3 开源讯号:Framework 开源是信任建设,也是生态引力

Foundation Models 框架开源,是 WWDC26 被低估的一个讯号。苹果不是一个习惯开源的公司——它的核心优势一直是封闭生态的高品质控制。选择在这个时机开源 Foundation Models,更多是一个信任建设动作:让外部研究者、企业客户的安全团队可以审计它,而不只是相信它的说法。

这也是一个生态引力建设:开源的框架吸引研究者,研究者发表论文,论文引用带来更多开发者采用,更多采用带来更丰富的第三方 App,更丰富的 App 让 Siri Agent 变得更强大。这是 Apple Silicon + Swift 生态的重演,只是这次在 AI 层面。

6 · 客观评估:苹果真的赢得了下半场吗?

我不想在这里给出一个过度乐观或过度悲观的结论。让我们看几个真实的挑战:

6.1 苹果面对的真实挑战

  • 端侧模型的天花板很真实:3B 参数模型在复杂推理、代码生成、长上下文任务上,和 GPT-5.5 / Claude Opus 4 的差距是结构性的。Siri Agent 做得了「把会议记录整理成待办清单」,做不了「帮我重构这个 Swift 项目的架构」。
  • 第三方 App 整合需要时间:App Intents 的生态建设,依赖第三方开发者配合。WWDC26 发布后,要等到有足够多的 App 支持 Siri Agent 的深度整合,可能需要 6~18 个月。
  • 非英语市场的体验仍有差距:繁体中文、日语、韩语的自然语言理解在 WWDC26 有改进,但对话流畅度和英语版本的差距仍然明显。
  • 用户习惯的迁移需要教育:大多数用户已经习惯去 ChatGPT 或其他 AI 应用完成复杂任务。让他们转而信任 Siri Agent,需要一段时间的行为改变。
50ms
端侧推理目标延迟
20+
Apple Intelligence 支持语言数
$0
端侧推理边际费用

6.2 苹果可能赢的地方

然而,有几个维度苹果确实建立了真实优势:

隐私敏感场景:医疗、法务、财务、企业内部数据——这些场景的用户宁愿用能力弱一点、但确保数据不出设备的 AI,也不愿意把敏感数据送到 OpenAI 的服务器。随着这类场景的 AI 采用率提升,苹果的市场份额会自然增长。

日常高频低复杂度任务:摘要、翻译、改写、分类——这些任务占 AI 使用量的大头,但不需要 GPT-5.5 等级的智慧。端侧 Foundation Models 完全够用,且延迟更低、费用为零。对日常使用者,「足够好且免费」往往比「最强但按量计费」更有吸引力。

操作系统整合的深度:Siri Agent 读取你的日历、邮件、消息、照片的能力,任何第三方 AI App 都做不到——苹果不开放这些 API 给竞争对手。这个系统整合的护城河,短期内无人能复制。

7 · FAQ

Siri Agent 现在能做 ChatGPT 能做的事吗?

不能完全替代,但目标场景不同。ChatGPT 的强项是「开放域推理、代码生成、复杂创作」;Siri Agent 的强项是「深度整合设备上下文、跨 App 执行任务、隐私敏感操作」。理想的用法是配合使用,而不是二选一:Siri Agent 管理你的设备和生活,ChatGPT 帮你做复杂的思考和创作工作。

Foundation Models 2.0 适合我的 App 吗?

如果你的 App 有以下任何需求,非常适合:需要处理用户隐私数据(健康、财务、个人文件)需要高频低延迟的 AI 功能(每次用户输入都触发)希望 AI 功能在离线状态也可用想控制 AI 功能的边际成本(规模扩大后零费用)。不适合的场景是:需要即时联网搜索、需要生成超长文件、需要顶尖的代码生成能力。

没有 Apple Silicon 的设备还能用 Apple Intelligence 吗?

部分功能可以。完整的 Foundation Models 2.0 端侧推理需要 A17 Pro(iPhone 15 Pro)以上或 M1 以上 Mac / iPad。较老设备可以通过 PCC 享受部分 Apple Intelligence 功能,但需要网络连接,且功能集合较少。Fallback 策略对支持旧设备的 App 来说是必须实现的

WWDC26 之后我该立刻动 App 吗?

不必恐慌,但有几件事值得现在就开始排期:(1)评估哪些功能可以接入 App Intents——这是 Siri Agent 时代的流量入口;(2)规划 Foundation Models 2.0 的 PoC——找一个边际成本高、隐私要求高的功能做试验;(3)更新 CI 环境到 Xcode 27——建议用 Cloud Mac 确保环境版本钉定,避免 GitHub hosted runner 的版本不确定性。

和 VPSSpark Cloud Mac 有什么关系?

WWDC26 发布的这些功能需要 Xcode 27 + iOS 26 SDK 才能完整开发和测试。Cloud Mac 提供固定版本的 macOS + Xcode 环境,让你的 CI 在 WWDC 后的头几周就能稳定跑在最新 SDK 上,而不是等待 GitHub hosted runner 不确定的更新时程。Siri Agent 的 App Intent 整合、Foundation Models 2.0 的多模态 API,都可以在 Cloud Mac 的 Xcode 27 环境里立刻开始实验。

收束:苹果想赢的那场战争,和你想的不一样

上半场,苹果输掉的是一场「谁的聊天机器人最聪明」的竞赛。这场竞赛,它没有办法赢,也选择了不去赢。

它想赢的下半场,问题是:当 AI 无处不在、能力已经足够,谁的 AI 最值得信任、最深度融入你的生活?

这个问题没有一个快速的答案,也没有一个明确的评分指标——不像「谁的 MMLU 分数更高」那样一目了然。但这恰恰是苹果选择这个战场的原因:在一个没有快速评分指标的竞争里,先发优势让位于长期信任的积累,而信任是它最擅长建立的东西。

苹果没有赢下 AI 的上半场,但 WWDC26 显示它至少弄清楚了自己想打的是什么球。接下来五年,这个押注是否成立——欢迎再来聊。

WWDC26 之后:先钉住 Xcode 27 环境,再谈 AI 功能开发

若你正在把 Siri Agent App Intents 或 Foundation Models 2.0 接进 App,同时需要固定 Xcode 27 / iOS 26 建置环境,VPSSpark Cloud Mac 可作为开发与 CI 的 macOS 执行底座——在 WWDC26 后几小时内更新到最新 beta SDK,让你领先队友一个身位。

了解 Cloud Mac 方案,让 Apple Intelligence 开发从第一天就跑在稳定环境上。

限时特惠

Apple Intelligence 开发底座:Xcode 27 随时就绪

Cloud Mac · 固定 SDK 版本 · Siri Agent 开发环境

返回首页
限时优惠 点击查看套餐