DRAGON: Distributional Rewards Optimize Diffusion Generative Models

channel_editor_icon 허깅 페이스

6시간 전

DRAGON은 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 RLHF(인간 피드백 기반 강화학습)이나 Direct Preference Optimization(DPO) 같은 접근법들이 대부분 개별 샘플에 대한 인간의 선호도에 초점을 맞춘 것과는 달리, DRAGON은 샘플 집합(분포) 전체의 특성까지 최적화할 수 있는 범용적 보상 설계와 최적화를 지향합니다.

이 논문이 흥미로운 이유는 단순히 "생성 모델을 더 잘 튜닝한다" 수준을 넘어서, 분포 기반 보상(Distributional Reward) 안에서 사용자의 다양한 품질 기준이나 스타일 요구에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 음악 생성 모델을 튜닝할 때 단순히 한 곡의 품질이 아니라, 전체 곡 모음의 다양성, 특정 스타일과의 유사성, 혹은 인간이 느끼는 미적 감각까지도 보상 신호로 삼을 수 있습니다. 이제 진짜로 '내가 원하는 결과의 분포를 직접 설계하는 마법의 지팡이'가 나타난 거죠.

✅ 어떻게 작동하나요? – DRAGON의 핵심 아이디어

DRAGON이 도입한 가장 눈에 띄는 개념은 바로 "분포 기반 보상(Distributional Reward)"입니다. 즉, 개별 샘플뿐 아니라 샘플들의 집합(분포) 전체에 대해 보상을 정의하고, 이 보상을 최대화하도록 생성 모델을 미세 조정합니다.

이러한 분포 기반 보상은 실제로 사전학습된 임베딩 추출기와 참조 예시 집합(Exemplar Set)을 활용해 구현되며, 이를 통해 텍스트-음악, 텍스트-이미지 등 다양한 도메인/모달리티에서 유연하게 적용할 수 있는 게 DRAGON의 강점입니다.

이 모델은 총 3단계의 최적화 과정을 거쳐 만들어졌습니다:

참조 집합 및 임베딩 추출 – 사전학습된 임베딩 추출기(예: CLAP, CLIP 등)와 참조 예시 집합을 준비하여, 원하는 분포의 특성을 정의합니다.
온라인 생성 및 보상 평가 – 생성 모델이 새로운 샘플을 생성하면, 임베딩 공간에서 참조 집합과의 유사도/거리 등 다양한 기준으로 보상을 산출합니다.
긍정/부정 샘플 대조 최적화 – 보상 점수가 높은 샘플(positive)과 낮은 샘플(negative)을 구분하여, 두 집합의 대조를 극대화하는 방식으로 모델을 미세 조정합니다.

✅ 주요 기술적 특징과 혁신점

DRAGON의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 범용적 분포 기반 보상 설계
이는 개별 샘플, 샘플-분포, 분포-분포 간의 보상 함수를 모두 지원할 수 있다는 점입니다. 기존의 RLHF나 DPO가 개별 샘플 또는 쌍(pair)에만 초점을 맞췄다면, DRAGON은 Fréchet Distance, KL Divergence, Inception Score 등 분포 전체의 품질을 직접적으로 최적화할 수 있습니다. 특히 임베딩 기반 거리 계산을 통해 다양한 도메인에 쉽게 적용 가능합니다.

2. 참조 예시 기반 보상 함수 생성
DRAGON의 또 다른 특징은 참조 예시 집합(Exemplar Set)만 있으면 새로운 보상 함수를 쉽게 만들 수 있다는 점입니다. 예를 들어, 특정 스타일의 음악 샘플 몇 개만 모아두면, 그 스타일과 유사한 결과물을 생성하도록 모델을 튜닝할 수 있습니다. 이는 인간 선호 데이터 없이도, 원하는 품질/스타일로 모델을 유연하게 조정할 수 있다는 점에서 매우 실용적입니다.

3. 긍정/부정 샘플 대조 최적화
마지막으로 주목할 만한 점은 온라인 생성 샘플을 보상 점수에 따라 긍정/부정 집합으로 나누고, 이 둘의 차이를 극대화하는 대조적 학습 방식입니다. 이를 통해 보상 신호가 희박하거나 노이즈가 많은 상황에서도 안정적으로 모델을 튜닝할 수 있습니다. 특히 분포 기반 평가 지표와 직접적으로 연결된다는 점이 강점입니다.

✅ 실험 결과와 성능 분석

DRAGON의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 다양한 음악 생성 품질 지표에 대한 성능
텍스트-음악 생성 모델을 대상으로, CLAP Score(오디오-텍스트 정합성), Fréchet Audio Distance(FAD), Vendi Score(다양성), 커스텀 미학 모델 등 총 20가지 보상 함수로 실험했습니다. DRAGON은 평균 81.45%의 승률로 기존 방식 대비 확실한 성능 향상을 보였습니다. 특히, 참조 예시 기반 보상만으로도 60.95%의 인간 평가 승률을 기록했습니다.

2. 분포-분포 기반 보상 최적화 실험
FAD 등 분포 기반 지표를 직접 최적화했을 때, 기존 RLHF/DPO 방식보다 더 빠르고 안정적으로 목표 분포에 수렴하는 결과를 보였습니다. 다양한 임베딩 추출기와 참조 집합을 바꿔가며 실험해도 일관된 성능을 보였습니다.

3. 실제 응용 시나리오에서의 평가
실제 텍스트-음악 생성 서비스 환경에서 DRAGON으로 튜닝한 모델은, 특정 장르/스타일에 맞는 음악 생성이나 다양성 극대화 등 실질적 요구에 더 잘 부합하는 결과를 보여주었습니다. 다만, 참조 집합의 품질과 다양성에 따라 결과가 달라질 수 있다는 점은 고려해야 합니다.

이러한 실험 결과들은 DRAGON이 사용자 맞춤형 생성 품질이나 특정 분포 최적화 같은 주요 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히 인간 피드백 없이도, 다양한 품질 기준을 유연하게 적용할 수 있다는 점은 향후 생성 AI 응용 분야에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

DRAGON은 CLAP Score와 Fréchet Audio Distance(FAD)라는 첨단 벤치마크에서 각각 81.45%, 60.95%의 점수를 기록했습니다. 이는 RLHF, DPO 등 기존 SOTA 모델 수준의 성능입니다.

실제로 텍스트-음악 생성, 특히 특정 스타일/장르 맞춤 생성에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "참조 집합의 다양성 부족" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

DRAGON은 단지 새로운 모델이 아니라, "생성 모델의 품질 기준을 자유롭게 설계하고 최적화하는 프레임워크"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 도메인 확장성, 예를 들면 이미지 생성, 비디오 생성까지 인식하게 될 가능성이 큽니다.

음악/오디오 생성: 특정 장르, 스타일, 혹은 미학적 기준에 맞는 음악/효과음 생성 서비스에 바로 적용할 수 있습니다.
이미지/비디오 생성: 원하는 스타일의 예시 이미지만 모으면, 그 스타일에 맞는 결과물을 생성하는 이미지/비디오 생성 모델 튜닝에 활용할 수 있습니다.
맞춤형 생성 AI 서비스: 사용자별로 원하는 품질 기준(예: 다양성, 유사성, 미적 감각 등)에 맞춘 생성 결과를 제공하는 서비스 구축에 적합합니다.

이러한 미래가 DRAGON으로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

DRAGON에 입문하려면, 기본적인 딥러닝/생성 모델 구조와 임베딩/거리 기반 평가에 대한 이해가 필요합니다.
다행히도 공식 데모 페이지에 예제 결과와 설명이 잘 정리되어 있어, 실제 적용 아이디어를 얻기 좋습니다.

실무에 적용하고 싶다면?
참조 예시 집합(Exemplar Set)과 사전학습 임베딩 모델을 확보하고, 다양한 생성 결과 품질 지표를 테스트하면서 모델을 분포 기반 보상 최적화 방식으로 미세 조정하는 것이 핵심입니다. 또한, 참조 집합의 품질 관리 및 도메인별 임베딩 모델 선정도 병행되어야 합니다.

✅ 마치며

DRAGON은 단순한 기술적 진보를 넘어, 생성 모델의 품질 기준과 목표를 개발자가 직접 설계하고 최적화할 수 있는 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 생성 미디어 산업의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 생성 AI 품질 최적화의 중요한 변곡점에 서 있으며, DRAGON은 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
- 논문 설명: 프로세스 보상 모델(PRMs)은 어려운 추론 작업에서 대형 언어 모델(LLMs)의 테스트 시간 확장에 효과적임이 입증되었습니다.
- 저자: Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang
- 발행일: 2025-04-21
- PDF: 링크

FlowReasoner: Reinforcing Query-Level Meta-Agents
- 논문 설명: 이 논문은 사용자 쿼리당 하나의 시스템인 쿼리 수준 다중 에이전트 시스템의 설계를 자동화하기 위해 FlowReasoner라는 쿼리 수준 메타 에이전트를 제안합니다. 우리의 핵심 아이디어는 외부 실행 피드백을 통해 추론 기반 메타 에이전트를 유도하는 것입니다.
- 저자: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
- 발행일: 2025-04-21
- PDF: 링크

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators
- 논문 설명: 테스트 시간 계산의 확장, 즉 추론 중에 생성기 대형 언어 모델(LLM)에 추가 계산을 제공하는 것은 일반적으로 외부 비생성 평가자(즉, 보상 모델)의 도움을 받습니다.
- 저자: Yilun Zhou, Austin Xu, Peifeng Wang, Caiming Xiong, Shafiq Joty
- 발행일: 2025-04-21
- PDF: 링크