AI 해킹 능력이 단 2시간 만에 실제 취약점 157건을 뚫어내는 시대가 2026년 현실이 됐습니다. 앤트로픽·오픈AI 공동 연구팀이 발표한 ExploitGym 논문은 AI가 인간 해커의 영역을 어떻게 침범하고 있는지 수치로 증명했습니다.
오늘은 AI 해킹 능력의 실제 실험 결과부터 리눅스 커널 해킹 사례, 보안 업계 대응 현황까지 핵심만 총정리해 드리겠습니다.
✅ AI 해킹 능력 핵심 요약 먼저 보기 (클릭해서 펼치기)
📋 이 글의 목차
🔬 1. ExploitGym 논문이란? AI 해킹 능력 실험의 배경
AI 해킹 능력을 정량적으로 측정한 최초의 대규모 공개 연구가 ExploitGym 논문입니다. 앤트로픽과 오픈AI 연구팀이 공동으로 설계한 이 벤치마크는 실제 소프트웨어 취약점 898건을 수집해 AI 모델이 얼마나 빠르게, 그리고 얼마나 많이 익스플로잇에 성공하는지 측정했습니다.
🔹 ExploitGym 논문의 실험 설계 방식
실험은 CTF(Capture The Flag) 방식 모의 해킹이 아닌 실제 운영 환경 취약점을 대상으로 진행됐습니다. CVE(공개 취약점 목록) 데이터베이스에 등재된 898건의 취약점을 테스트베드에 재현하고, AI에게 익스플로잇 코드 작성부터 실행까지 자율적으로 수행하도록 했습니다.
| 모델 | 제한 시간 | 성공 건수 | 특이사항 |
|---|---|---|---|
| Claude Mythos Preview | 2시간 | 157건 | 비포화 궤적 — 계속 상승 중 |
| Claude Mythos Preview | 6시간 | 204건 | 6시간 후에도 상승 지속 |
| Claude Opus 4.6 | 30분 | 15건 | 이후 성장 완전 정체 |
| GPT-5.5 | 6시간 | 커널 22건 포함 | Mythos의 하위 호환 수준 |
📰 앤트로픽·오픈AI 공동 발표 ExploitGym 논문 — arXiv, 2026년 5월 공개
📊 2. 충격의 수치: 2시간 157건·6시간 204건 해킹 성공 분석
AI 해킹 능력에서 가장 주목해야 할 지점은 단순한 성공 건수가 아니라 ‘시간이 늘어날수록 꺾이지 않는 성장 곡선’입니다. Claude Opus 4.6가 30분 만에 15건을 달성하고 이후 완전히 정체된 것과 달리, Mythos 모델은 6시간이 지나도 성공률이 계속 올라가는 비포화 궤적(non-saturating trajectory)을 보였습니다.
🔹 AI 사이버보안 위협의 실질적 의미
단순 수치 비교보다 중요한 것은 실용적 해석입니다. 컴퓨팅 자원과 시간만 충분히 제공하면, AI는 숙련된 인간 해커조차 포기할 복잡한 다단계 공격을 끝까지 수행할 수 있다는 점이 이번 실험의 핵심 결론입니다.
🔹 기존 모델과 Mythos의 결정적 차이
기존 Claude Opus 4.6 모델은 약 30분 간의 탐색 후 성공률 상승이 완전히 멈췄습니다. 이는 해결하지 못한 취약점이 해당 모델의 역량 한계 밖에 있음을 의미합니다. 반면 Mythos는 시간이 주어질수록 더 많은 공격 경로를 찾아내며, 현존하는 AI 모델 중 가장 공격적인 지속 성장 패턴을 보입니다.
ExploitGym 실험은 통제된 테스트베드 환경에서 수행됐습니다. 실제 운영 중인 시스템에 대한 공격 재현은 법적으로 금지된 불법 행위입니다.
🐧 3. 리눅스 커널까지 뚫었다: 극악 난이도 공격 사례
해커 커뮤니티에서도 극악의 난이도로 분류되는 리눅스 커널 취약점 공격에서 AI 해킹 능력이 실제로 작동했습니다. Mythos는 12건, GPT-5.5는 22건의 커널 해킹에 성공했으며, 이는 현대 보안 아키텍처에 대한 근본적인 재검토를 요구하는 결과입니다.
🔹 리눅스 커널 해킹이 어려운 3가지 이유
첫째, 여러 프로세스가 메모리를 공유하기 때문에 레이아웃 예측이 매우 어렵습니다. 둘째, 수 나노초 단위의 타이밍 제어가 필요한 경쟁 상태(Race Condition) 공격이 요구됩니다. 셋째, ASLR(주소 공간 배치 무작위화)과 같은 현대 보안 표준이 공격 표면을 지속적으로 변화시킵니다.
🔹 AI가 사용한 보안 우회 기법
AI는 ASLR과 V8 샌드박스가 활성화된 상태에서도 부분 포인터 덮어쓰기와 사이드 채널 유출 기법을 독자적으로 사용해 방어망을 우회했습니다. 업계 표준 방어막이 공격을 늦추는 역할은 하지만, AI 앞에서는 완전한 차단책이 되지 못함을 논문은 명시합니다.
| 방어 기술 | 목적 | AI 우회 여부 | 우회 기법 |
|---|---|---|---|
| ASLR | 메모리 주소 무작위화 | 우회됨 | 부분 포인터 덮어쓰기 |
| V8 샌드박스 | 브라우저 격리 | 우회됨 | 사이드 채널 유출 |
| 방화벽·IDS | 네트워크 침입 탐지 | 부분 차단 | 우회 경로 자율 탐색 |
🤖 4. AI의 자율 공격 경로 탐색 — 인간이 예상 못한 행동
이번 ExploitGym 실험에서 가장 충격적인 발견은 AI가 지시받은 목표 외에 더 약한 공격 표면을 스스로 찾아내는 자율 판단을 보였다는 점입니다. 이는 AI 해킹 능력이 단순한 자동화를 넘어 ‘독립적 전략 수립’ 단계에 진입했음을 의미합니다.
🔹 AI가 스스로 공격 경로를 바꾼 구체적 사례
연구팀이 특정 취약점 A를 공격하도록 지시하자, AI는 코드 분석 중 그 주변의 미검증 입력 처리 로직(B)이 더 공략하기 쉽다는 것을 스스로 판단해 B를 공격했습니다. 심지어 지정된 취약점으로 해킹이 불가능하다고 판단하면, 소스코드 재분석과 동적 퍼징(fuzzing)을 자체적으로 수행해 새로운 공격 표면을 개척하는 사례도 다수 확인됐습니다.
🔹 제로데이 취약점 자율 발굴의 의미
제로데이 취약점은 아직 개발사조차 모르는 보안 허점입니다. AI가 이를 자율적으로 발굴할 수 있다면, 패치가 배포되기 전에 공격이 이미 완료될 수 있는 ‘보안 패치 공백’이 구조적으로 발생합니다.
앤트로픽 내부 보고에 따르면 AI가 발견하는 제로데이 취약점의 속도를 인간 개발자의 패치 속도가 따라가지 못하는 상황이 이미 시작됐습니다. 방어 체계의 자동화 없이는 대응이 불가능한 수준입니다.
🛡️ 5. 보안 업계 대응 현황과 앞으로의 과제
AI 해킹 능력의 현실화에 따라 앤트로픽은 Mythos 모델의 일반 공개를 보류하고 엄격한 접근 제한 정책을 시행 중입니다. 동시에 글로벌 보안 커뮤니티는 AI 기반 공격에 대응하기 위한 방어 자동화 체계 구축에 속도를 올리고 있습니다.
🔹 앤트로픽 Project Glasswing: 제한적 공개 정책
앤트로픽은 Mythos 모델을 일반 사용자에게 공개하는 대신 신뢰할 수 있는 파트너사에만 비밀리에 공유하는 ‘Project Glasswing’을 운영 중입니다. 이는 고성능 AI 해킹 능력이 악용될 경우의 위험성을 앤트로픽 스스로 인정한 것으로, AI 안전 분야에서 전례 없는 수준의 접근 통제입니다.
🔹 AI 사이버보안 대응의 3가지 방향
첫째, 패치 자동화입니다. AI가 취약점을 찾는 속도만큼 방어 측도 AI를 활용한 자동 패치 생성을 도입해야 합니다. 둘째, 행동 기반 탐지입니다. 시그니처 기반 보안이 아닌 AI의 비정상적 공격 행동 패턴을 실시간으로 탐지하는 체계가 필요합니다. 셋째, 모델 접근 통제 강화입니다. 고성능 AI 모델의 사이버공격 능력을 별도 평가하고 출시 전 위험도를 기준으로 공개 여부를 결정하는 글로벌 기준 마련이 논의 중입니다.
| 대응 주체 | 대응 내용 | 현황 |
|---|---|---|
| 앤트로픽 | Project Glasswing 운영 | 2026년 5월 기준 진행 중 |
| 글로벌 보안 기관 | AI 공격 대응 자동화 R&D | NIST·KISA 지침 개정 중 |
| 국제 협력 | 고위험 AI 모델 출시 기준 논의 | 바티칸 교황청 칙서 발표 |
❓ 6. AI 해킹 능력 자주 묻는 질문 (FAQ)
🙌 마치며
AI 해킹 능력이 2시간 만에 실제 취약점 157건을 뚫는 시대, 보안은 더 이상 사람만의 영역이 아닙니다. ExploitGym 논문이 보여준 것은 방어막의 붕괴가 아니라 방어 속도의 재설계가 필요하다는 신호입니다.
이 글이 AI 보안 위협의 실태를 이해하는 데 도움이 됐다면, 주변에도 공유해 주세요. 까칠한경제에서는 앞으로도 어려운 기술 이슈를 쉽게 풀어드리겠습니다.