Claude Code vs Codex — 터미널 AI 코딩 에이전트 비교

터미널에서 자연어로 코드를 작성하고 리팩터링하고 커밋까지 처리하는 AI 에이전트 시대가 2026년 들어 본격화됐습니다. 그 중심에는 두 도구가 있습니다. Anthropic의 Claude Code와 OpenAI의 Codex CLI입니다. 둘 다 터미널에서 동작하고, 둘 다 구독료 기준 월 $20에서 시작합니다. 그런데 실제로 써보면 철학과 강점이 완전히 다릅니다. 이 글은 벤치마크, 아키텍처, 가격, 실제 사용 경험을 기준으로 두 도구를 정직하게 비교합니다.

80.8%

Claude Code SWE-bench Verified

77.3%

Codex CLI Terminal-Bench 2.0

Claude Code 토큰 사용량 (Codex 대비)

Claude Code 컨텍스트 (토큰)

Claude Code와 Codex CLI는 무엇인가

Claude Code는 Anthropic이 만든 공식 CLI 에이전트입니다. 터미널에서 claude 명령어 하나로 실행하면 코드베이스를 읽고, 파일을 편집하고, 명령어를 실행하고, git 커밋까지 자율적으로 처리합니다. Claude Opus 4.6와 Sonnet 4.6을 기반으로 동작하며, CLAUDE.md라는 프로젝트별 지시 파일로 에이전트 행동을 세밀하게 제어할 수 있습니다.

Codex CLI는 OpenAI가 내놓은 터미널 코딩 에이전트입니다. 2026년 2월 기준 TypeScript에서 Rust로 완전히 재작성되어 외부 의존성 없이 단독 실행이 가능합니다. GPT-5.4를 기본 모델로 사용하며, 클라우드 샌드박스에서 태스크를 격리 실행하는 것이 핵심 특징입니다. Apache-2.0 라이선스로 오픈소스 공개되어 있습니다.

🤖

Claude Code

Anthropic 공식 CLI. Claude Opus 4.6 / Sonnet 4.6 기반. MCP 확장, Agent Teams, CLAUDE.md 설정으로 정교한 멀티에이전트 워크플로우 구성

⚡

Codex CLI

OpenAI 오픈소스 터미널 에이전트. GPT-5.4 기반. Rust 네이티브 CLI, 클라우드 샌드박스 격리, 세밀한 승인 정책 설정 지원

아키텍처와 실행 방식

두 도구의 가장 근본적인 차이는 에이전트가 어디에서, 어떻게 실행되느냐입니다. Claude Code는 로컬 머신에서 직접 실행되며 전체 파일 시스템에 접근할 수 있습니다. Codex CLI는 기본적으로 클라우드 샌드박스에서 태스크를 실행하고, 결과를 로컬로 가져오는 방식입니다. 이 차이가 보안 모델, 네트워크 접근, 그리고 에이전트 팀 조율 방식을 결정합니다.

Claude Code: 로컬 실행 + Agent Teams

Claude Code는 로컬 머신에서 동작합니다. git worktree 기반으로 서브 에이전트를 격리하고, 각 에이전트는 독립된 컨텍스트 창을 가집니다. Agent Teams 기능(리서치 프리뷰)을 사용하면 여러 에이전트가 공유 태스크 목록과 의존성 추적 기반으로 병렬 작업합니다. 에이전트 간 메시지 전달도 지원합니다.

Claude Code — Agent Teams 예시

$ claude "결제 통합 기능을 구현해줘"

# Claude Code가 자동으로:
# 1. 태스크 목록과 의존성 트리 생성
# 2. researcher 에이전트 → Stripe SDK 패턴 조사
# 3. implementer 에이전트 → 리서치 완료 후 코드 작성
# 4. test-writer 에이전트 → 테스트 병렬 작성
# 각 에이전트는 독립 컨텍스트 창 보유 (오염 없음)
# 에이전트 간 메시지: "리서치 완료, 패턴 3개 발견"

Codex CLI: 클라우드 샌드박스 격리

Codex CLI는 태스크 단위로 클라우드 컨테이너를 생성합니다. 각 태스크는 완전히 격리된 환경에서 실행되며, 기본적으로 네트워크 접근이 비활성화됩니다. 샌드박스 모드는 read-only, workspace-write, danger-full-access 세 가지 중 선택합니다. Windows에서는 별도 Windows 샌드박스 환경으로 실행됩니다. 승인 정책(approval policy)도 untrusted → on-request → on-failure → never 순으로 세밀하게 조정할 수 있습니다.

~/.codex/config.toml

model = "gpt-5.4"
approval_policy = "on-request"
sandbox_mode = "workspace-write"

[windows]
sandbox = "elevated"  # 권장. elevated 모드가 더 강력한 격리 제공

핵심 기능 비교

두 도구 모두 파일 편집, 명령어 실행, 멀티에이전트 워크플로우, MCP 연동을 지원합니다. 하지만 구현 방식과 강점이 다릅니다.

Claude Code 주요 기능

Claude Code의 강점은 정교한 에이전트 조율과 1M 토큰 컨텍스트입니다. Claude Opus 4.6는 Max/Team 프리미엄 계정 기준 기본 모델이며, Pro/Team 스탠다드는 Sonnet 4.6이 기본입니다. CLAUDE.md 파일로 프로젝트별 지시사항을 정의하면 에이전트가 세션 간 맥락을 유지합니다.

Hooks 시스템으로 에이전트 이벤트(worktree 생성, 태스크 완료 등)에 자동화를 연결할 수 있습니다. VS Code 확장은 520만 설치를 기록했으며 4.0/5.0 평점을 받고 있습니다. PowerShell로 Windows에 직접 설치하거나 winget install Anthropic.ClaudeCode 명령으로도 설치할 수 있습니다.

Windows — Claude Code 설치

# PowerShell (권장)
irm https://claude.ai/install.ps1 | iex

# 또는 winget 사용
winget install Anthropic.ClaudeCode

# 설치 후 프로젝트 디렉터리에서 실행
cd C:\Users\daniel\projects\my-app
claude

Codex CLI 주요 기능

Codex CLI는 속도와 토큰 효율성이 강점입니다. Rust로 재작성된 CLI는 외부 의존성 없이 단독 실행됩니다. GPT-5.4가 기본 모델이며, ChatGPT Pro 사용자는 Cerebras WSE-3에서 초당 1,000+ 토큰 속도로 동작하는 GPT-5.3-Codex-Spark(리서치 프리뷰)도 사용할 수 있습니다.

대화 내역을 로컬에 저장해서 이전 세션을 이어갈 수 있으며, codex resume 명령으로 세션을 복원합니다. 이미지 파일을 입력으로 붙여넣는 멀티모달 입력도 지원하며, /review 명령으로 PR이나 커밋 단위 코드 리뷰를 바로 실행할 수 있습니다. 웹 검색도 기본 탑재되어 있습니다.

Codex CLI — 설치 및 기본 사용

# Windows PowerShell에서 설치 (winget 또는 공식 인스톨러)
# 설치 후 인터랙티브 모드 시작
codex

# 특정 프롬프트로 바로 시작
codex "이 코드베이스 구조를 설명해줘"

# Full-auto 모드 (샌드박스, 네트워크 비활성)
codex --approval-mode full-auto "todo-list 앱 만들어줘"

# 이전 세션 이어서
codex resume --last

벤치마크와 성능

벤치마크 비교에서 한 가지 중요한 점이 있습니다. Anthropic은 SWE-bench Verified 변형을 사용하고, OpenAI는 SWE-bench Pro Public을 사용합니다. 두 변형은 문제 집합이 달라서 점수를 직접 비교할 수 없습니다. 동일한 기준으로 비교 가능한 지표는 SWE-bench Pro와 Terminal-Bench 2.0입니다.

⚠️벤치마크 비교 주의

Claude Code의 SWE-bench Verified 80.8%와 Codex의 SWE-bench Pro 56.8%는 서로 다른 문제 집합입니다. 직접 비교는 유효하지 않습니다. SWE-bench Pro 기준으로는 Codex 56.8% vs Claude Code 55.4%로 거의 동등합니다.

지표	Claude Code (Opus 4.6)	Codex CLI (GPT-5.3-Codex)
SWE-bench Pro	55.4%	56.8%
SWE-bench Verified	80.8%	측정 방식 다름
Terminal-Bench 2.0	65.4%	77.3%
컨텍스트 창	1M 토큰	400K 토큰
추론 속도	~200 tok/s	1,000+ tok/s (Spark)
태스크당 토큰 사용량	3.2~4.2x 더 많음	기준값 (1x)
GitHub 커밋 기여율	전체 공개 커밋의 ~4%	별도 미집계

Claude Code vs Codex CLI 성능 비교 (2026년 2월 기준)

Claude Code는 복잡한 멀티파일 리팩터링과 명세 준수에서 일관성이 높습니다. Codex CLI는 터미널 네이티브 작업(DevOps, 스크립트, CLI 도구)에서 앞서며, 동일한 태스크를 약 3~4배 적은 토큰으로 처리합니다. Claude의 높은 토큰 사용량이 반드시 비효율을 뜻하진 않습니다. 더 세밀한 설명, 명확한 계획 제시, 엣지 케이스 처리에 토큰을 씁니다.

장단점

두 도구 모두 성숙한 코딩 에이전트이지만, 각각의 한계가 다릅니다. 선택 전에 아래 장단점을 확인하십시오.

Claude Code

👍 장점

✓Agent Teams로 서브 에이전트 의존성 추적 및 병렬 조율
✓1M 토큰 컨텍스트로 대형 코드베이스 전체 파악 가능
✓CLAUDE.md + Hooks로 정교한 프로젝트별 자동화 설정
✓명세 준수 일관성이 높고 다중 파일 리팩터링에 강함
✓VS Code 확장 520만 설치, 4.0/5.0 높은 사용자 만족도
✓Windows PowerShell + winget 설치 지원

👎 단점

✗동일 태스크에서 Codex 대비 3~4배 많은 토큰 소모
✗$20 Pro 플랜에서 사용 한도에 빠르게 도달
✗CLAUDE.md, Hooks, MCP 설정에 초기 시간 투자 필요
✗로컬 실행이라 클라우드 샌드박스 격리 수준은 낮음
✗인터럽션이 잦아 자율 실행 중 승인 요청이 많음

Codex CLI

👍 장점

✓동일 태스크를 Claude 대비 3~4배 적은 토큰으로 처리
✓GPT-5.3-Codex-Spark는 초당 1,000+ 토큰으로 매우 빠름
✓Rust 네이티브 CLI로 외부 의존성 없이 단독 설치 가능
✓클라우드 샌드박스로 태스크 단위 강력한 격리 보안
✓오픈소스(Apache-2.0), 365명 기여자로 커뮤니티 활발
✓$8 Go 플랜부터 입문 가능

👎 단점

✗Terminal-Bench 우위이나 복잡한 의존성 리팩터링에서 Claude에 뒤짐
✗에이전트 간 조율이 없어 독립 태스크에 적합, 복잡한 팀 오케스트레이션은 어려움
✗동일 프롬프트 결과의 일관성이 Claude보다 낮음
✗VS Code 평점 3.4/5로 Claude Code(4.0)보다 낮음
✗코드베이스 패턴을 학습하지 못해 스타일 일관성이 약함
✗Plan 이탈('off-plan drift') 경향이 있음

Claude Code 종합 평가

코드 품질 / 명세 준수9/10

컨텍스트 처리 (1M 토큰)10/10

에이전트 오케스트레이션9/10

토큰 효율 / 비용5/10

설정 편의성6/10

7.8/10종합 평점

Codex CLI 종합 평가

터미널 작업 성능9/10

속도 / 토큰 효율9/10

보안 격리 (샌드박스)9/10

에이전트 오케스트레이션6/10

설정 편의성 (제로 의존성)9/10

8.4/10종합 평점

가격 비교

두 도구 모두 월 $20 플랜에서 시작하지만, 한도 구조와 상위 플랜에서 차이가 납니다. Claude Code는 Claude 구독 플랜에 포함되어 있고, Codex CLI는 ChatGPT 구독 플랜에 포함됩니다.

Claude Code 구독 플랜

Pro

$20/월

✓Claude Sonnet 4.6 기본 모델
✓Claude Opus 4.6 접근 가능
✓Claude Code 포함
✓소규모 코드베이스 단기 스프린트용
✓초과 시 API 요금 추가 결제 가능

시작하기

Max 5x

$100/월

✓Pro 대비 5배 사용 한도
✓Claude Opus 4.6 기본 모델
✓대형 코드베이스 일상 개발용
✓신기능 얼리 액세스
✓트래픽 집중 시 우선 처리

시작하기

Max 20x

$200/월

✓Pro 대비 20배 사용 한도
✓Claude Opus 4.6 기본 모델
✓전문 개발자·에이전트 집중 활용
✓신기능 최우선 액세스

시작하기

Codex CLI 구독 플랜

Go

$8/월

✓GPT-5.4 접근 가능
✓가벼운 코딩 작업용
✓기본 로컬 + 클라우드 기능

시작하기

Plus

$20/월

✓GPT-5.4, GPT-5.3-Codex 접근
✓GPT-5.4: 33~168 메시지/5시간
✓GPT-5.3-Codex: 45~225 메시지/5시간
✓코드 리뷰 10~25회/주
✓크레딧 추가 구매 가능

시작하기

Pro

$200/월

✓GPT-5.3-Codex: 300~1,500 메시지/5시간
✓클라우드 태스크 50~400회/5시간
✓코드 리뷰 100~250회/주
✓GPT-5.3-Codex-Spark (리서치 프리뷰) 접근
✓요청 우선 처리

시작하기

ℹ️API 직접 사용 시 요금

Claude API: Opus 4.6 $5/$25 per 1M 토큰(입출력), Sonnet 4.6 $3/$15. Codex API: GPT-5.3-Codex 43.75/$350 credits per 1M 토큰. Claude는 토큰을 3~4배 더 쓰므로 동일 작업의 API 비용은 Codex가 유리합니다.

직접 비교 — 어디서 무엇이 앞서는가

두 도구의 아키텍처 차이가 실제 개발 워크플로우에서 어떻게 드러나는지 핵심 차원별로 나란히 비교합니다.

Claude Code

•Agent Teams: 의존성 추적·에이전트 간 메시지 전달
•컨텍스트 1M 토큰 — 중간 규모 프로젝트 전체 파악 가능
•명세 준수 일관성 높음 — Plan 이탈 거의 없음
•SWE-bench Pro 55.4% (품질 중심)
•토큰 사용 3~4배 많아 한도 소진 빠름
•설정에 시간 투자 필요 (CLAUDE.md, Hooks)
•GitHub Stars 71,500 / 기여자 51명

Codex CLI

•클라우드 샌드박스 태스크 격리 — 보안 우위
•컨텍스트 400K 토큰 — 충분하나 Claude 대비 제한
•속도 우선 — 동일 작업 3~4배 적은 토큰
•Terminal-Bench 2.0 77.3% (터미널 작업 우위)
•토큰 효율 좋아 $20 플랜에서 더 많은 세션 확보
•Rust CLI, 제로 의존성 — 설치 즉시 사용 가능
•GitHub Stars 62,365 / 기여자 365명 (오픈소스)

항목	Claude Code	Codex CLI
에이전트 격리 방식	git worktree (로컬)	클라우드 컨테이너
태스크 조율	공유 태스크 목록 + 의존성 추적	독립 스레드, 수동 전환
에이전트 간 통신	직접 메시지 + 브로드캐스트	지원 안 함
메모리 관리	자동 컴팩션 (요약 기반)	diff-based 망각 (델타 보존)
실행 환경	로컬 머신 (전체 접근)	클라우드 (네트워크 기본 비활성)
MCP 지원	지원	지원
코드 리뷰	세션 내 맥락 기반	/review 전용 리뷰어 서브에이전트

멀티에이전트 아키텍처 비교

제품 히스토리

두 도구 모두 2025~2026년 사이에 급격히 진화했습니다. 타임라인을 보면 각 팀이 어떤 방향을 우선시했는지 알 수 있습니다.

2025년 5월

Claude Code 공식 출시

Anthropic이 터미널 기반 AI 코딩 에이전트 Claude Code를 공식 발표. 초기에는 CLI 도구로 출시.

2025년 5월

OpenAI Codex CLI 오픈소스 공개

TypeScript 기반 Codex CLI를 Apache-2.0으로 오픈소스 공개. 초기 릴리스.

2025년 12월

GPT-5.2-Codex 기반으로 Codex 강화

코드 생성 및 레포 규모 추론 전용 모델 GPT-5.2-Codex를 Codex 기본 모델로 채택.

2026년 2월

Codex CLI Rust 재작성 + macOS 앱 출시

Codex CLI를 TypeScript에서 Rust로 완전 재작성. 외부 의존성 제거, 속도 향상. Codex macOS 앱도 출시.

2026년 3월

Claude Code — 1M 토큰 컨텍스트 + Agent Teams

Max/Team/Enterprise 계정에 Claude Opus 4.6 기본 적용. 1M 토큰 컨텍스트 정식 지원. Agent Teams 리서치 프리뷰 공개.

2026년 4월

Codex 가격 체계 API 토큰 기반으로 전환

Codex 비즈니스/엔터프라이즈 가격이 메시지 단위에서 API 토큰 기반으로 변경. GPT-5.4가 Codex 기본 모델로 승격.

누구에게 무엇을 추천하는가

두 도구 중 하나만 선택해야 한다면, 아래 기준으로 판단하십시오. 고급 사용자들은 두 도구를 워크플로우 단계별로 나눠 사용하는 하이브리드 전략을 선택합니다.

Claude Code가 맞는 경우

대형 코드베이스를 다루는 팀, 복잡한 리팩터링 작업이 많은 개발자, 여러 에이전트가 협력해야 하는 복잡한 기능을 주로 개발하는 분에게 Claude Code를 추천합니다. 명세서를 상세하게 작성하고 에이전트가 그대로 따르길 원한다면 Claude Code가 훨씬 낫습니다. 실제로 HN 커뮤니티에서 여러 개발자가 "프로덕션 코딩에서 Codex는 계획에서 자주 이탈하지만, Claude는 따른다"고 보고하고 있습니다.

Codex CLI가 맞는 경우

빠른 프로토타이핑, DevOps 스크립트 자동화, 터미널 집중 워크플로우에는 Codex CLI가 앞섭니다. 토큰 예산이 빡빡한 팀, 클라우드 샌드박스 격리가 필요한 환경, 오픈소스 생태계를 선호하는 팀에게도 적합합니다. $8 Go 플랜은 가벼운 코딩 보조 용도로 입문하기에 좋습니다.

두 도구를 함께 쓰는 하이브리드 전략

실제로 많은 시니어 개발자들이 두 도구를 병용합니다. Codex로 빠르게 스캐폴딩하고 여러 접근법을 탐색한 뒤, Claude Code로 코드 리뷰와 복잡한 아키텍처 리팩터링을 처리하는 흐름입니다. 각 도구의 강점을 살리면 단일 도구보다 생산성이 높아집니다.

💡하이브리드 워크플로우 예시

① Codex로 클라우드 샌드박스에서 빠른 스캐폴딩 → ② Claude Code로 아키텍처 리뷰 및 엣지 케이스 점검 → ③ Claude Agent Teams로 복잡한 리팩터링 병렬 처리 → ④ Codex로 최종 마감 수정 및 서식 정리

자주 묻는 질문

Windows에서 두 도구 모두 사용할 수 있나요?

네, 둘 다 Windows를 지원합니다. Claude Code는 PowerShell 스크립트(irm https://claude.ai/install.ps1 | iex)나 winget으로 설치합니다. Codex CLI는 Windows Sandbox를 통해 격리 실행을 지원하며, config.toml에서 sandbox = "elevated" 설정을 권장합니다.

두 도구 중 어느 쪽이 더 저렴한가요?

입문 가격은 Claude Code Pro $20/월, Codex Plus $20/월로 동일합니다. 단, Codex는 $8 Go 플랜이 별도로 있고, 동일 작업에 토큰을 3~4배 적게 써서 실질적으로 더 많은 세션을 확보합니다. 대용량 워크로드에서는 Claude Max 5x($100)와 Codex Pro($200)의 제공 한도 차이도 비교해야 합니다.

MCP(Model Context Protocol)는 두 도구 모두 지원하나요?

네, 둘 다 MCP를 지원합니다. Claude Code는 settings.json에, Codex CLI는 config.toml의 [mcp_servers] 섹션에 MCP 서버를 등록합니다. 단, MCP 서버를 많이 추가할수록 컨텍스트가 늘어 토큰 소모가 증가합니다.

코드 리뷰 기능은 어떻게 다른가요?

Codex CLI는 /review 명령으로 전용 리뷰어 서브에이전트를 실행합니다. 브랜치 대비, 미커밋 변경, 특정 커밋 단위 리뷰를 지원합니다. Claude Code는 세션 내 대화 맥락을 활용해 리뷰하며, GitHub PR에 자동 리뷰 연동은 Codex Business/Enterprise 플랜 기능입니다.

어떤 AI 모델을 사용하나요?

Claude Code는 Claude Opus 4.6(Max/Team Premium 기본)과 Claude Sonnet 4.6(Pro/Team Standard 기본)을 사용합니다. Codex CLI는 GPT-5.4를 기본으로 사용하며, ChatGPT Pro 사용자는 GPT-5.3-Codex-Spark(리서치 프리뷰)도 사용할 수 있습니다. 세션 중에 /model 명령으로 모델을 변경할 수 있습니다.

두 도구를 동시에 구독할 수 있나요?

네, 독립된 구독 플랫폼입니다. Claude Code는 claude.ai 계정, Codex CLI는 ChatGPT 계정으로 각각 구독합니다. 둘을 함께 쓰는 하이브리드 전략을 선택하면 각 도구의 강점을 상황에 맞게 활용할 수 있습니다.

스크롤 근처에서 인터랙션이 활성화됩니다.

터미널 AI 코딩 에이전트 시대에 '정답'은 하나가 아닙니다. 복잡한 에이전트 오케스트레이션과 대형 코드베이스 일관성이 우선이면 Claude Code, 속도·토큰 효율·클라우드 격리가 우선이면 Codex CLI입니다. 예산과 워크플로우를 기준으로 선택하되, 두 도구를 병용하는 것이 가장 높은 생산성을 낼 수 있는 길이기도 합니다.

Claude Code 설치하기

Codex CLI 시작하기

가이드바이브 코딩