X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

channel_editor_icon 허깅 페이스

7시간 전

X-Teaming은 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 단일 턴(single-turn) 공격/방어 기법들이 대부분 한 번의 프롬프트에 대한 대응에 초점을 맞춘 것과는 달리, X-Teaming은 여러 번의 대화(turn)를 거치며 적응적으로 전략을 바꾸는 실제 인간 공격자처럼 LLM을 테스트하고 방어하는 것을 지향합니다.

이 논문이 흥미로운 이유는 단순히 "멀티턴 공격을 더 잘한다" 수준을 넘어서, 적응형 멀티 에이전트 시스템 안에서 사용자의 대화 흐름과 의도 변화에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 공격자가 처음에는 평범한 질문으로 시작해 점차 위험한 요청으로 유도하면, X-Teaming은 이 과정을 실제로 시뮬레이션하고, 그 과정에서 LLM의 취약점을 찾아냅니다. 이제 진짜로 'AI와 AI가 치밀하게 머리싸움을 벌이는 레드팀 대전'이 나타난 거죠.

✅ 어떻게 작동하나요? – X-Teaming의 핵심 아이디어

X-Teaming이 도입한 가장 눈에 띄는 개념은 바로 "적응형 멀티 에이전트(adaptive multi-agent)"입니다. 즉, 여러 개의 역할(플래너, 어태커, 베리파이어, 프롬프트 옵티마이저 등)을 가진 AI 에이전트들이 서로 협력하며, 실제 인간 해커처럼 전략을 짜고, 대화를 조정하고, 공격 성공 여부를 평가하며, 필요시 전략을 바꿉니다.

이러한 적응형 멀티 에이전트 구조는 실제로 각 역할별로 특화된 AI 에이전트가 협업하는 파이프라인으로 구현되며, 이를 통해 공격 성공률과 다양성 모두를 극대화하는 게 X-Teaming의 강점입니다.

이 모델은 총 2단계의 적응형 멀티턴 공격 과정을 거쳐 만들어졌습니다:

1. 전략적 공격 계획(Strategic Attack Planning) – 다양한 페르소나, 상황, 접근법, 대화 흐름을 설계하여 여러 시나리오의 공격 플랜을 만듭니다.
2. 적응형 공격 실행 및 최적화(Adaptive Attack Execution and Optimization) – 실제로 멀티턴 대화를 진행하며, 공격이 막히면 실시간으로 전략을 바꾸고, 프롬프트를 최적화해 다시 시도합니다.

✅ 주요 기술적 특징과 혁신점

X-Teaming의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 적응형 멀티 에이전트 협업 구조
이는 플래너(공격 전략 설계), 어태커(실제 대화 진행), 베리파이어(공격 성공 평가), 프롬프트 옵티마이저(실패 시 전략 수정) 등 각 역할별 AI가 협업하는 구조입니다. 기존의 단일 공격자 방식과 달리, 역할 분담과 협업을 통해 인간 레드팀 수준의 전략적 다양성과 적응력을 달성했습니다. 특히, 각 단계에서 실시간으로 전략을 수정하는 방식으로 공격 성공률이 크게 향상되었습니다.

2. 멀티턴 대화 기반 공격 시나리오 자동 생성
이 특징의 핵심은, 공격 플랜을 여러 턴에 걸쳐 자동으로 생성하고, 대화 흐름에 따라 동적으로 변형한다는 점입니다. 이를 위해 다양한 페르소나와 상황, 접근법을 조합하여 수만 가지의 공격 시나리오를 만들어냅니다. 실제로 X-Teaming은 3만 건 이상의 멀티턴 공격 데이터를 생성해, 이전 대비 20배 이상 방대한 멀티턴 안전성 학습 데이터셋(XGuard-Train)을 구축했습니다.

3. 실시간 공격 효과 평가 및 프롬프트 최적화
마지막으로 주목할 만한 점은, 공격이 실패했을 때 베리파이어가 즉시 효과를 평가하고, 프롬프트 옵티마이저가 전략을 바꿔 재도전한다는 점입니다. 이 과정은 특히 최신 LLM이 단일 턴 공격에는 강하지만, 멀티턴에서 점진적으로 우회하는 시도에는 취약할 수 있음을 실험적으로 보여줍니다.

✅ 실험 결과와 성능 분석

X-Teaming의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 공격 성공률(ASR, Attack Success Rate)에 대한 성능
HarmBench 등 표준 벤치마크에서, GPT-4o, DeepSeek-V3, Claude 3.7 Sonnet 등 최신 LLM을 대상으로 평가한 결과, X-Teaming은 최대 98.1%의 공격 성공률을 기록했습니다. 이는 기존 단일턴 공격(GCG: 12.5%, PAIR: 39%)이나 기존 멀티턴 공격(ActorAttack: 84.5%, Crescendo: 46%) 대비 압도적으로 높은 수치입니다. 특히 Claude 3.7 Sonnet(기존에 매우 안전하다고 평가된 모델)에서도 96.2%의 성공률을 달성했습니다.

2. 공격 다양성(Diversity)에서의 결과
공격 플랜과 실행의 다양성 측면에서도, 기존 ActorAttack 대비 각각 153%, 62% 향상된 결과를 보였습니다. 즉, 더 다양한 시나리오와 경로로 LLM을 테스트할 수 있음을 의미합니다.

3. 실제 응용 시나리오(멀티턴 레드팀 테스트)에서의 평가
실제 대화형 AI 서비스 환경에서 X-Teaming을 적용한 결과, 기존에는 탐지하지 못했던 새로운 취약점과 공격 경로를 효과적으로 발견할 수 있었습니다. 실용적 관점에서는, 멀티턴 대화의 안전성 검증 및 방어 데이터셋 구축에 매우 유용하지만, 실제 서비스 적용 시에는 공격 시나리오의 현실성, 윤리성 등 추가 고려가 필요함도 확인되었습니다.

이러한 실험 결과들은 X-Teaming이 멀티턴 대화 기반 취약점 탐지 및 방어 데이터 구축이라는 주요 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히, 멀티턴 안전성 연구 및 서비스 적용 분야에서 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

X-Teaming은 HarmBench와 Open LLM Leaderboard라는 첨단 벤치마크에서 각각 98.1%, 96.2%라는 점수를 기록했습니다. 이는 ActorAttack, Crescendo 등 기존 멀티턴 공격 시스템 수준을 훨씬 뛰어넘는 성능입니다.

실제로 실제 서비스 환경에서의 멀티턴 대화 시나리오, 특히 점진적으로 우회하는 공격 탐지 및 방어 데이터 구축에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "실제 인간 수준의 창의성"이 필요한 복잡한 사회적 맥락에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

X-Teaming은 단지 새로운 모델이 아니라, "멀티턴 대화 안전성 검증과 방어 자동화"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 공격/방어 전략의 자동화, 예를 들면 실시간 서비스 내 멀티턴 레드팀 테스트, 대규모 멀티턴 안전성 데이터셋 구축까지 인식하게 될 가능성이 큽니다.

AI 서비스 레드팀 테스트 자동화: 실제 서비스에 적용하여, 다양한 멀티턴 대화 시나리오에서 취약점을 자동으로 탐지하고, 방어 전략을 개선할 수 있습니다.
멀티턴 안전성 학습 데이터셋 구축: XGuard-Train과 같은 대규모 멀티턴 공격/방어 데이터셋을 생성하여, LLM의 안전성 학습에 활용할 수 있습니다.
AI 보안 연구 및 정책 수립: 멀티턴 대화 기반 공격/방어 연구, 안전성 정책 수립, 실제 서비스 적용을 위한 시나리오 분석 등에 활용할 수 있습니다.

이러한 미래가 X-Teaming으로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

X-Teaming에 입문하려면, 기본적인 Python 기반 AI/ML 개발 경험과 LLM 프롬프트 엔지니어링에 대한 이해가 필요합니다.
다행히도 공식 GitHub 및 홈페이지에 예제 코드가 잘 정리되어 있어, 실제 멀티턴 공격/방어 시나리오를 직접 실험해보며 학습할 수 있습니다.

실무에 적용하고 싶다면?
공식 XGuard-Train 데이터셋 등 필요한 데이터와 리소스를 확보하고, 다양한 멀티턴 대화 시나리오를 테스트하면서 모델을 실제 서비스 환경에 맞게 커스터마이즈하는 것이 핵심입니다. 또한, 실제 서비스 정책 및 윤리적 검토도 병행되어야 합니다.

✅ 마치며

X-Teaming은 단순한 기술적 진보를 넘어, AI 안전성 패러다임의 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 서비스 산업과 사회 전반의 대화형 AI 안전성의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 AI 안전성 연구의 중요한 변곡점에 서 있으며, X-Teaming은 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning
- 논문 설명: 대규모 언어 모델(LLM)은 해킹과 같은 적대적 공격에 취약하여 해로운 또는 안전하지 않은 행동을 유발할 수 있습니다.
- 저자: Yahan Yang, Soham Dan, Shuo Li, Dan Roth, Insup Lee
- 발행일: 2025-04-21
- PDF: 링크

LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks
- 논문 설명: 무인 항공기(UAV)는 다양한 개인 및 상업적 응용 분야에서 점점 더 많이 사용되고 있습니다. 예를 들어,
- 저자: Yousef Emami, Hao Gao, SeyedSina Nabavirazani, Luis Almeida
- 발행일: 2025-04-20
- PDF: 링크

DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification
- 논문 설명: 대규모 언어 모델(LLM)의 광범위한 채택으로 인해, 탈옥 공격이 점점 더 시급한 안전 문제로 부각되고 있습니다.
- 저자: Yu Li, Han Jiang, Zhihua Wei
- 발행일: 2025-04-18
- PDF: 링크