새벽 WWDC 갈림길: 클라우드 인상 vs 무료 온디바이스 AI

자주 검색하는 질문

OpenAI / Anthropic API 요금이 갑자기 오른 이유는?
WWDC 2026의 Foundation Models는 정말 '무료'인가?
온디바이스 3B 모델이 GPT / Claude를 대체할 수 있나?
iOS 개발자는 Apple에 베팅해야 하나, 클라우드 LLM을 계속 써야 하나?
GitHub Copilot이 토큰 과금으로 바뀌면 비용이 어떻게 달라지나?

한국 시각 새벽 2시, Craig Federighi가 '프라이버시 우선 인텔리전스'를 발표하는 키노트를 라이브로 챙겨본 개발자도 많았을 것이다. 그 주에 Claude Code 청구서는 새 토크나이저 덕분에 조용히 35% 올랐고, GPT-5.5 API 정가는 하루아침에 두 배가 됐다. 우연이 아니다——2026년 6월, 개발자에게 던져진 질문은 'AI를 쓸 것인가'가 아니라 '어느 과금 모델 위에서 만들 것인가'다.

WWDC 2026은 Foundation Models 프레임워크를 정식 공개했다. 온디바이스 추론은 토큰 비용 제로, API Key 불필요, 데이터는 기기 밖으로 나가지 않는다. Xcode 27은 멀티라인 코드 자동완성을 Apple Silicon에서 로컬 실행한다. 반면 클라우드 진영은 4월부터 6월까지 잇따라 가격을 올렸다——OpenAI 플래그십 API는 두 배, Anthropic은 새 토크나이저로 실질 사용량을 끌어올렸고, GitHub Copilot은 6월 1일부터 토큰 계량 과금으로 전환했다.

한쪽은 무료 온디바이스 추론, 한쪽은 멈추지 않는 클라우드 API 인상——어느 쪽을 택해야 할까? 둘 중 하나를 고르는 문제가 아니다. 진짜 물어야 할 것은 '각 기능을 어느 레이어에서 실행할 것인가'와 '비용 구조가 제품 속도를 따라가고 있는가'다.

1 · 왼쪽: 클라우드 AI의 '보이지 않는 가격 인상'

가격표만 보면 '그래도 많이 안 올랐네'라고 느낄 수 있다. 하지만 2026년 봄 이번 라운드에서 가격 인상은 세 군데에 교묘하게 숨어 있었다.

1.1 정가가 두 배로: GPT-5.5

4월 23일 OpenAI가 GPT-5.5를 출시하면서 API 정가는 GPT-5.4의 $2.50 / $15（백만 input / output 토큰）에서 $5 / $30으로 올랐다——양방향 모두 두 배. 프로덕션에서 Agent 루프를 돌리는 팀에게 이건 '더 강한 모델로 업그레이드'가 아니라 같은 워크로드의 추론 비용이 ×2가 됐다는 뜻이다.

1.2 정가 그대로, 청구서는 더 무겁게: Opus 4.7의 토크나이저

Anthropic이 4월 16일 출시한 Claude Opus 4.7의 공식 요율은 Opus 4와 동일하다（$5 / $25 per million tokens）. 하지만 새 토크나이저는 동일 텍스트에 대해 최대 약 35% 더 많은 토큰을 생성한다. 코딩 시나리오 독립 테스트에서는 실제 사용량이 1.32×〜1.47× 늘어난 사례도 보고됐다. 가격표는 그대로인데, 미터기가 더 빨리 돌아간다.

1.3 개발 도구도 토큰 테이블로: GitHub Copilot

6월 1일, GitHub Copilot이 새로운 토큰 계량 과금 모델로 전환했다. '월 $10 구독에 자동완성 무제한'이라는 심리적 장부는 이제 옛날 얘기다——인라인 제안도, 채팅도 추론 사용량에 연동된다.

×2

GPT-5.5 API 정가

+35%

Opus 4.7 동일 프롬프트 토큰 수

2.5×

OpenAI API 처리량（5개월）

변경	표면	실제
GPT-5.5 API	새 플래그십 출시	input/output 정가 ×2
Opus 4.7	요율 동일	같은 프롬프트에서 토큰 수 +35% 수준
Copilot	여전히 구독	6월부터 토큰 계량
Agent 구독	$20〜$200/월	초과·남용 시 API 정가 적용

왼쪽의 논리는 단순하다——클라우드 대형 모델은 중자산이며, 컴퓨팅·전력·데이터센터 모두 비용이 든다. Agent가 '한 번의 질답'을 '10회 루프'로 바꾼 순간, 플랫폼은 미터기를 조일 수밖에 없다.

2 · 오른쪽: WWDC 2026이 내민 '공짜 점심'

키노트가 Liquid Glass만큼 화려하지는 않았을 수 있지만, Swift를 쓰는 개발자에게 Foundation Models는 올해 ROI가 가장 높은 발표일 것이다.

2.1 Foundation Models: Swift 세 줄, 토큰 비용 제로

Apple은 기기에 약 30억 파라미터 언어 모델을 탑재하고, FoundationModels 프레임워크로 개발자에게 공개했다:

Swift · Foundation Models

import FoundationModels

                let session = LanguageModelSession()
                let response = try await session.respond(to: "이 회의록을 세 가지 액션 아이템으로 요약해줘")

API Key 불필요
네트워크 불필요（온디바이스 경로）
추론 1회 비용 ≈ $0
사용자 데이터는 기기 밖으로 나가지 않음

WWDC 2026은 추가로 Private Cloud Compute, 서드파티 / 오픈소스 모델 통합, 시각 이해, fm CLI, Python SDK, 그리고 프레임워크 자체의 오픈소스화도 발표했다.

2.2 Xcode 27: 자동완성도 로컬로

Xcode 27은 Apple Intelligence 기반 멀티라인 예측 자동완성을 도입해 Apple Silicon에서 로컬 실행한다——클라우드 라운드트립이 없다. Cursor / Copilot 서사에 가장 직접적인 대응이지만, 응답 방식은 '가격 인하'가 아니라 '추론을 당신의 Mac으로 옮기기'다.

2.3 오른쪽의 한계（Apple이 솔직하게 밝힌 부분）

온디바이스에 적합	온디바이스에 부적합
분류·요약·구조화 추출	복잡한 코드 생성
저지연 인터랙션（50〜200ms）	수학·정확한 사실 QA
프라이버시 민감 영역（건강·금융）	대형 컨텍스트·멀티모달 중추론
고빈도·사용자 액션마다 발생	실시간 검색이 필요한 경우

기기 요건도 현실이다: iPhone 15 Pro 이상, M 시리즈 iPad/Mac, 그리고 사용자가 Apple Intelligence를 켜놓아야 한다. Graceful fallback은 필수다.

3 · 대결의 본질: Apple vs OpenAI가 아니라, 두 가지 경제학

그림 1 · 두 가지 AI 경제학: 토큰 과금 vs 기기 일회성 구매

클라우드 대형 모델토큰 과금 · O(n) 사용자 수에 비례

온디바이스 Foundation Models한계비용 제로 · 능력은 NPU에 제약

개발자 의사결정태스크별 레이어 라우팅, 진영 선택 아님

2026년 6월이 이토록 '중요한 변곡점'처럼 느껴지는 이유는 두 곡선이 처음으로 동시에 개발자 눈앞에서 꺾였기 때문이다. 왼쪽에서는 쓰던 클라우드 툴이 비싸졌고, 오른쪽에서는 Apple이 충분한 수준의 인텔리전스를 기기에 무료로 깔아두고 공식 프레임워크까지 쥐어줬다.

핵심 관점

'어느 쪽을 고르느냐'는 잘못된 질문이다. 진짜 물어야 할 것은 App 안의 각 AI 기능이 L0（온디바이스 즉시）부터 L3（클라우드 Agent）까지 어느 칸에 속하느냐다.

4 · 의사결정 프레임워크: 진영 선택이 아닌 4단계 라우팅

4.1 태스크 레이어: 먼저 분류, 그다음 모델 선택

레이어	대표 태스크	권장 경로
L0 · 온디바이스 즉시	텍스트 요약·태깅·의도 분류·폼 추출	Foundation Models 온디바이스
L1 · 온디바이스 + 시각	이미지 이해·영수증 분석·영양 추정	온디바이스 Vision + FM
L2 · 프라이버시 허용 클라우드	장문서 분석·복잡 추론·PCC가 필요한 경우	Private Cloud Compute
L3 · 오픈 도메인 / Agent	코드 Agent·크로스 플랫폼 봇·검색 필요	클라우드 API（GPT / Claude）

규칙은 단순하다: L0/L1로 해결 가능한 것을 L3로 올리지 않는다. 키보드 입력마다 클라우드 LLM을 호출하는 기능은 DAU 10만 명에 도달하면 마진을 갉아먹는다. 온디바이스 동일 기능은 출시 후 청구서가 거의 변하지 않는다.

4.2 디바이스 레이어: 메인 경로 + fallback

사용자 요청 → Apple Intelligence 사용 가능? → 온디바이스 FM（L0/L1）; 아니라면 → 강한 추론이 필요? → 클라우드 API 또는 PCC; 아니라면 → 룰 엔진으로 강등, 또는 "이 기능은 최신 기기가 필요합니다" 안내. fallback은 선택이 아니라 심사 통과와 낮은 평점 방어를 위한 필수 구현이다.

4.3 툴체인 레이어: Xcode 로컬 + Agent 클라우드, 장부 분리

코드 작성: Xcode 27 로컬 자동완성 우선; Cursor / Claude Code는 크로스 파일 리팩토링·복잡한 디버그에 남겨둔다.
테스트 / 빌드: 온디바이스 AI 기능도 실기기와 CI 검증이 필요하다. Cloud Mac을 Xcode 27 / iOS 26 SDK 고정 웜 환경으로 활용해 "로컬에서는 FM이 돌지만 CI 시뮬레이터 버전이 다르다"는 드리프트를 방지한다. 참고: CI는 이미 죽었는데 GitHub은 아직 모른다.

4.4 비용 레이어: 두 개의 테이블

테이블 A · 클라우드: Claude API Agent 개발, Copilot/Cursor 구독, 프로덕션 API——규모에 비례해 선형으로 증가. 테이블 B · 온디바이스: 개발기·테스트기 고정 비용 + FM 추론 출시 후 ≈ $0 한계비용. 테이블 A의 기울기가 매출 기울기를 넘어설 때, 테이블 B로 내릴 수 있는 기능은 WWDC 직후 PoC를 진행할 가치가 있다.

5 · 세 유형의 개발자별 '포지션' 실록

5.1 인디 iOS 개발자: 오른쪽 먼저

하나의 L0 기능（노트 요약·받은 편지함 분류）을 Foundation Models로 구현한다. App Store 설명에 "기기에서 실행되며 데이터는 업로드되지 않습니다"라고 명시한다. 구형 기기 fallback은 간단한 규칙으로 처리. 클라우드 API는 '내가 코드를 짤 때' 쓰는 것으로 남겨둔다.

5.2 중소 팀 / B2B: 하이브리드, PCC 쪽으로

온디바이스 FM으로 데이터 레지던시를 해결하고, 복잡한 분석은 Private Cloud Compute로, 크로스 플랫폼과 오픈 도메인 Agent만 OpenAI / Anthropic으로 돌린다. 토크나이저 인상의 교훈: "백만 토큰 단가" 고정만으로는 부족하고, "동일 프롬프트 셋의 월 비용 상한"도 계약에 명시해야 한다.

5.3 Agent 헤비유저: 왼쪽은 절약 안 되지만, 오른쪽을 감압 밸브로

단순 서브태스크（커밋 메시지·로그 요약）를 로컬 또는 온디바이스로 내린다. Agent 루프에 max retry / max token을 설정한다. macOS 빌드는 안정적인 Cloud Mac에서 하고, Agent가 대기 중인 러너에서 클라우드 토큰을 태우며 컴파일을 기다리는 상황을 막는다.

6 · FAQ

'무료 온디바이스 추론'은 마케팅 과장 아닌가?

추론에 대해 토큰 비용을 청구하지 않는 것은 사실이지만, 비용은 하드웨어 요건이라는 형태로 전가된다. 개발자에게 '무료'란 marginal inference cost ≈ 0을 의미하며, '총비용 제로'가 아니다.

3B 온디바이스 모델로 'AI 기능'다운 것을 만들 수 있나?

요약·분류·추출·단문 재작성 같은 narrow AI는 충분히 가능하다. 범용 어시스턴트는 무리다. 제품 설계는 '작은 모델에 작은 일을' 방향으로 가야 한다.

클라우드 API 요금은 더 오를까?

2026년 Q2 수급 상황을 보면 아마도 그렇다. 중요 경로를 단일 클라우드 API에 묶어두는 것은 비용 리스크이자 아키텍처 리스크다.

지금 당장 Claude / GPT 사용을 중단해야 하나?

그럴 필요 없다. 지금 당장 해야 할 일은 기능 × 모델 라우팅 테이블 한 장을 그리고, Q3에 Foundation Models로 옮길 수 있는 것에 표시하는 것이다. 마이그레이션은 점진적으로, 진영 선택은 극단적이다.

VPSSpark / Cloud Mac과는 어떤 관계인가?

온디바이스 AI가 바꾸는 것은 App 내 추론을 어디서 하느냐이고, Cloud Mac이 해결하는 것은 그 App들을 안정적으로 빌드·테스트·서명하는 방법이다. WWDC 다음 주에 모델 교체보다 중요한 것은 개발 환경을 고정하는 것——'온디바이스에서 돌아간다'를 CI에서 재현 가능하게 만드는 것이다.

마무리: 개발자는 어느 쪽을 택해야 하나?

진영이 아닌 레이어를 선택하라.

왼쪽（클라우드）: 비싸지만 강력하다. Agent·오픈 도메인·크로스 플랫폼에 적합——사용량을 통제하고, 기본값이 되지 않도록 한다.
오른쪽（온디바이스）: 한계비용 제로·명확한 프라이버시·낮은 지연. 기기 내·고빈도·협소 태스크에 적합——능력 한계와 기기 보급률을 받아들인다.

다음 30일에 가장 해볼 가치 있는 한 가지: 제품에서 'LLM을 호출하는' 모든 지점을 나열하고, 각각에 L0〜L3 레이블을 붙인다. 한 단계 내릴 수 있는 것은 내린다——그 한 단계가 2026년 하반기 마진 차이가 될 수 있다.