UFO2: The Desktop AgentOS

channel_editor_icon 허깅 페이스

7시간 전

UFO2는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 스크립트 기반 RPA(Robotic Process Automation)들이 대부분 정해진 GUI 시나리오에만 의존하고, 환경 변화에 매우 취약한 것과는 달리, UFO2는 OS와 애플리케이션에 깊이 통합된 멀티에이전트 시스템을 지향합니다.

이 논문이 흥미로운 이유는 단순히 "스크린샷을 보고 클릭하는 자동화" 수준을 넘어서, HostAgent와 AppAgent로 구성된 멀티에이전트 아키텍처 안에서 사용자의 복잡한 자연어 명령을 실제 데스크톱 환경에서 신뢰성 있게 실행할 수 있도록 설계되었다는 점입니다. 예를 들어, UFO2는 엑셀, 아웃룩, 엣지 등 여러 앱을 넘나들며, 각 앱에 특화된 API와 도메인 지식을 활용해 실제 사용자가 하듯이 작업을 수행합니다. 이제 진짜로 '데스크톱 비서가 내 옆에 앉아 대신 일해주는' 세상이 가까워진 거죠.

✅ 어떻게 작동하나요? – UFO2의 핵심 아이디어

UFO2가 도입한 가장 눈에 띄는 개념은 바로 "AgentOS"입니다. AgentOS란, 데스크톱 자동화를 단순한 외부 스크립트가 아니라, OS 수준에서 여러 에이전트가 협력하는 운영체제적 추상화로 재정의한 것입니다.

이러한 AgentOS 구조는 실제로 HostAgent(중앙 조정자)와 AppAgent(앱별 전문가 에이전트)로 분리된 멀티에이전트 시스템으로 구현되며, 이를 통해 확장성과 신뢰성, 그리고 다양한 앱 간의 워크플로우 자동화를 자연스럽게 달성하는 게 UFO2의 강점입니다.

이 모델은 총 4단계의 에이전트 협력 프로세스를 거쳐 만들어졌습니다:

명령 해석 및 분해 (HostAgent) – 사용자의 자연어 명령을 받아, 의미 있는 하위 작업들로 분해합니다.
작업 분배 (HostAgent → AppAgents) – 각 하위 작업을 해당 앱에 특화된 AppAgent에게 동적으로 할당합니다.
앱별 실행 (AppAgent) – AppAgent는 앱의 네이티브 API, UIA, 비전 기반 파싱 등을 활용해 실제 작업을 수행합니다.
결과 통합 및 사용자 피드백 – 여러 앱에서 처리한 결과를 통합해 사용자에게 피드백하거나, 후속 작업을 이어갑니다.

✅ 주요 기술적 특징과 혁신점

UFO2의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 하이브리드 UI 제어 파이프라인
이는 Windows UI Automation(UIA) API와 비전 기반 파싱(Visual Grounding Model)을 결합해, 다양한 앱의 UI를 안정적으로 인식하고 제어하는 방식입니다. 기존의 스크린샷 기반 클릭과 달리, 네이티브 접근 + 비전 기반 보완을 통해 UI 변화에도 강인한 자동화를 실현했습니다. 특히 UIA가 지원되지 않는 앱도 비전 기반으로 보완하여, 실제 업무 환경에서의 범용성을 크게 높였습니다.

2. 멀티에이전트 구조와 도메인 특화 AppAgent
UFO2의 두 번째 특징은 HostAgent와 AppAgent의 분업 구조에 있습니다. 각 AppAgent는 엑셀, 아웃룩 등 특정 앱에 맞는 도메인 지식과 API, GUI-API 액션 레이어를 내장합니다. 이를 통해 앱별 특화된 고성능 자동화가 가능해졌고, 새로운 앱도 AppAgent만 추가하면 쉽게 확장할 수 있습니다.

3. PiP(Picture-in-Picture) 가상 데스크톱 인터페이스
마지막으로 주목할 만한 점은 PiP 가상 데스크톱입니다. UFO2는 실제 사용자의 데스크톱을 방해하지 않고, 분리된 가상 데스크톱에서 자동화 작업을 수행합니다. 사용자는 PiP 창을 통해 진행 상황을 확인할 수 있고, 자동화와 수동 작업이 충돌하지 않습니다. 이는 실제 업무 환경에서 사용자 경험(UX)과 안정성을 크게 개선합니다.

✅ 실험 결과와 성능 분석

UFO2의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 실행 정확도(Execution Accuracy)에 대한 성능
20개 이상의 실제 Windows 앱(엑셀, 아웃룩, 엣지 등)에서 다양한 워크플로우를 자동화하는 실험에서, UFO2는 기존 CUA 대비 실행 성공률이 15~30%p 이상 향상되었습니다. 특히 복잡한 멀티앱 시나리오에서 높은 신뢰성을 보였습니다.

2. 효율성(Per-step Latency)에서의 결과
스펙큘레이티브 멀티액션 플래닝(여러 액션을 미리 예측해 준비) 기법을 적용한 결과, 기존 LLM 기반 CUA 대비 평균 응답 속도가 30% 이상 단축되었습니다. 즉, 더 빠르고 자연스러운 자동화가 가능해졌습니다.

3. 실제 응용 시나리오에서의 평가
실제 사무 환경에서 UFO2를 적용한 결과, 사용자는 자동화 중에도 자신의 데스크톱을 방해받지 않고 작업할 수 있었으며, 에이전트의 작업 진행 상황을 실시간으로 모니터링할 수 있었습니다. 다만, 일부 특수 앱이나 비표준 UI에서는 추가적인 튜닝이 필요함도 확인되었습니다.

이러한 실험 결과들은 UFO2가 신뢰성, 확장성, 사용자 경험이라는 데스크톱 자동화의 핵심 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히 깊은 OS 통합과 멀티에이전트 구조는 향후 다양한 업무 자동화 분야에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

UFO2는 CUA-Bench와 AgentBench라는 첨단 벤치마크에서 각각 83.2%, 78.5%라는 점수를 기록했습니다. 이는 기존 UFO1, OpenAI Operator 수준을 뛰어넘는 성능입니다.

실제로 다양한 데스크톱 자동화 시나리오(예: 엑셀 데이터 처리 후 이메일 전송, 웹 브라우저 자동화 등), 특히 멀티앱 워크플로우에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "비표준 UI" 환경이나 "매우 복잡한 앱 내부 작업"에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

UFO2는 단지 새로운 모델이 아니라, "데스크톱 자동화의 운영체제화(AgentOS)"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 앱 도메인 확장, 예를 들면 그래픽 툴 자동화, 개발 IDE 자동화까지 인식하게 될 가능성이 큽니다.

사무 자동화: 엑셀, 아웃룩, 워드 등 오피스 앱을 넘나드는 보고서 작성, 데이터 처리, 이메일 발송 등 반복 업무 자동화
IT 운영 및 지원: 소프트웨어 설치, 시스템 점검, 로그 수집 등 IT 관리 작업의 자동화
개인 생산성 도구: 웹 브라우저, 메신저, 캘린더 등 다양한 앱을 조합한 개인 비서 서비스 구현

이러한 미래가 UFO2로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

UFO2에 입문하려면, 기본적인 Python 기반 데스크톱 자동화와 Windows UI Automation에 대한 이해가 필요합니다.
다행히도 공식 GitHub와 문서 사이트에 예제 코드가 잘 정리되어 있어, 실제 워크플로우를 따라하며 빠르게 학습할 수 있습니다.

실무에 적용하고 싶다면?
자동화하려는 앱의 API/GUI 정보를 확보하고, 다양한 업무 시나리오를 테스트하면서 UFO2의 AppAgent를 커스터마이즈 및 확장하는 것이 핵심입니다. 또한, 보안 정책 점검이나 비표준 앱에 대한 추가 플러그인 개발도 병행되어야 합니다.

✅ 마치며

UFO2는 단순한 기술적 진보를 넘어, 데스크톱 자동화의 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 산업 현장, 사무 환경, 그리고 AI 기반 생산성 도구 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 AI 기반 데스크톱 자동화의 중요한 변곡점에 서 있으며, UFO2는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

Breaking the Diffraction Barrier for Passive Sources: Parameter-Decoupled Superresolution Assisted by Physics-Informed Machine Learning
- 논문 설명: 우리는 소스에 대한 사전 지식이나 제어 없이 수동 두 점 소스의 서브-파장 간격을 추정하기 위한 매개변수 분리 초해상도 프레임워크를 제시합니다.
- 저자: Abdelali Sajia, Bilal Benzimoun, Pawan Khatiwada, Guogan Zhao, Xiao-Feng Qian
- 발행일: 2025-04-19
- PDF: 링크

Code generation for solving and differentiating through convex optimization problems
- 논문 설명: 우리는 매개변수가 있는 볼록 최적화 문제에 대한 사용자 정의 코드 생성을 소개합니다. 이 코드는 매개변수에 대한 해의 도함수를 평가하는 것을 지원하며, 즉 최적화 문제를 통해 미분하는 기능을 제공합니다.
- 저자: Maximilian Schaller, Stephen Boyd
- 발행일: 2025-04-18
- PDF: 링크

Apollo: An Interactive Environment for Generating Symbolic Musical Phrases using Corpus-based Style Imitation
- 논문 설명: 최근 기계 지능 및 웹 기술의 발전으로 인해, 웹에서 기계 학습 기법을 활용한 보조 작곡을 위한 새로운 생성 음악 시스템이 탐색되고 있습니다.
- 저자: Renaud Bougueng Tchemeube, Jeff Ens, Philippe Pasquier
- 발행일: 2025-04-18
- PDF: 링크