오늘의 AI Top 10 뉴스 (2026.04.27)

OpenAI, SWE-bench Verified 평가 공식 중단
프론티어 모델은 더 이상 SWE-bench Verified로 코딩 능력을 측정할 수 없다고 공식 선언, 벤치마크 포화·새 평가 체계 필요성 부상
Google Cloud Next '26 — Gemini Enterprise Agent Platform 발표
A2A·MCP 통합 거버넌스 포함, 엔터프라이즈 에이전트 플랫폼 표준화 본격 시도
Google Android XR — Gemini 탑재 스마트글래스 공개
Gemini 직접 내장 XR 디바이스 등장, Apple Vision Pro 대비 AI-퍼스트 경쟁 본격화
Stanford AI Index 2026 — Humanity's Last Exam 정확도 8.8%→50%+ 1년만 도약
최상위 모델 정확도가 1년 새 6배 상승, AI 능력 곡선과 평가 기준 동시 재설정
Garry Tan "Skillify" — 에이전트 실패를 영구 구조 수정으로 전환하는 방법론
YC 회장이 제시한 에이전트 개선 패러다임, 실패 로그→스킬 패키지 사이클 정형화
Snap, 신규 코드 65% AI 자동 생성하며 1,000명 감원
인력 약 1/8 감축, 빅테크 외 미디어·SNS 기업까지 AI 노동 대체 본격화
OpenAI, GPT-5.5 Bio Bug Bounty 프로그램 출범
생물보안 위험 관련 모델 결함을 포상 대상화, AI 안전 책임 외부화 본격 시도
Lambda Calculus Benchmark for AI 공개
SWE-bench 포화 직후 등장한 대안 평가, 형식논리·증명 능력 측정으로 LLM 추론 평가 축 다변화
"Agentic AI는 데이터베이스 설계의 암묵적 가정을 위반한다"
DB 동시성·트랜잭션·격리 모델이 자율 에이전트와 충돌, 데이터 인프라 재설계 요구 부상
The AI Scientist-v2 — 완전 AI 생성 논문이 주요 학회 통과
자동 연구 파이프라인의 첫 피어리뷰 통과, 학술 출판 거버넌스 재논의 촉발