[PAPER] ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
Shunyu Yao · Jeffrey Zhao · Dian Yu · Nan Du · Izhak Shafran · Karthik Narasimhan · Yuan Cao · Princeton University & Google Brain · ICLR 2023
| Title | ReAct: Synergizing Reasoning and Acting in Language Models |
| Authors | Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao Princeton University (Yao, Narasimhan) + Google Brain (Zhao, Yu, Du, Shafran, Cao) |
| Venue | ICLR 2023 · arXiv 제출: 2022년 10월 6일 |
| Benchmarks | HotpotQA · FEVER · ALFWorld · WebShop — 4개 태스크 실험 |
| 인용 수 | 3,000+ (2024년 기준) — Agent AI 분야 핵심 참조 논문 |
| Source | arXiv:2210.03629 ↗ · 공식 프로젝트 페이지 ↗ |
ChatGPT는 훌륭하게 답할 수 있습니다. 하지만 실제로 행동할 수 없습니다. ReAct는 이 간극을 메운 논문입니다. "추론(Reasoning)과 행동(Acting)을 번갈아 수행하면 어떨까?" — 이 단순한 아이디어가 현대 Agent AI의 근간이 된 Thought-Act-Observe 루프를 탄생시켰습니다.
- 이 논문이 해결하는 문제
- 기존 접근 방식의 한계 — CoT와 Act-only
- ReAct 핵심 아이디어 — Thought·Act·Observation 루프
- 실험 설계 — 4가지 벤치마크
- 실험 결과 — 수치로 보는 성능
- 논문 평가 — 강점과 한계
- 해양 산업 시사점
- Captain Paul의 결론
📌 (1) 이 논문이 해결하는 문제
2022년 당시, 대형 언어 모델(LLM)은 두 가지 방향으로 발전하고 있었습니다. 하나는 Chain-of-Thought(CoT) 프롬프팅처럼 추론 과정을 단계별로 전개하는 방향이고, 다른 하나는 모델이 외부 환경과 상호작용하는 행동 기반 접근(Act-only)이었습니다. 그런데 두 방향 모두 결정적 약점이 있었습니다.
외부 세계와 상호작용 없이 내부 추론만 수행. 환경 변화 반영 불가. 환각(hallucination)을 스스로 검증할 방법 없음.
왜 그 행동을 선택했는지 추론 흔적 없음. 잘못된 행동을 선택해도 수정할 근거 부재. 해석 불가능.
🔍 (2) 기존 접근 방식의 한계 — CoT vs Act-only
모델이 "X는 Y이고, Y이므로 Z이다"라고 추론하지만, 이 추론이 실제 세계와 일치하는지 확인할 방법이 없습니다. 예: "2022년 FIFA 월드컵 우승국은 아르헨티나이며, 아르헨티나 수도는 부에노스아이레스다"처럼 맞는 사실을 연결할 수 있지만, 최신 정보나 동적 데이터에는 환각을 일으킵니다. 외부 검증 불가 = 자기강화식 오류 위험.
외부 환경과 상호작용은 하지만, 왜 그 행동을 선택했는지에 대한 추론 흔적이 없습니다. 잘못된 경로를 택했을 때 자기 수정이 어렵고, 사람이 개입해야 원인을 파악할 수 있습니다. 행동의 맥락 부재 = 오류 복구 불가.
추론(Thought)과 행동(Act)을 동일한 생성 스트림(generation stream) 안에서 교차 수행합니다. 각 Thought는 다음 Action을 결정하고, 각 Observation은 다음 Thought를 수정합니다. 이 루프는 목표가 달성될 때까지 반복됩니다.
⚙️ (3) ReAct 핵심 아이디어 — Thought · Act · Observation 루프
ReAct의 핵심은 LLM이 Thought(추론) → Act(행동) → Observation(관찰) 세 단계를 번갈아 생성하도록 프롬프트를 설계하는 것입니다. 각 단계는 텍스트 시퀀스로 표현되며, 추가적인 아키텍처 변경 없이 기존 LLM에 적용 가능합니다.
Thought 1: 콜로라도 아스펜에 대해 검색하여 고도를 찾아야 한다. Act 1: Search[Aspen, Colorado] Obs 1: 아스펜은 콜로라도주 피트킨 카운티에 있는 도시로, 해발 2,438m에 위치해 있다... Thought 2: 검색 결과에서 고도가 2,438m임을 확인했다. 최종 답을 제출한다. Act 2: Finish[2,438m (7,999ft)]
현재 상황을 분석하고, 다음에 무엇을 해야 할지 계획을 세우는 단계. 사람의 "속으로 생각하기"에 해당. 이 단계는 외부 시스템에 영향을 주지 않으며 순수한 추론입니다.
미리 정의된 액션 공간(Wikipedia 검색, 웹 탐색, 계산기 호출 등)에서 하나를 선택하고 실행합니다. Thought의 결론이 이 선택을 명시적으로 안내합니다.
환경(검색 엔진, 게임 시뮬레이터, 쇼핑 플랫폼 등)으로부터 돌아온 결과. 이 Observation이 다음 Thought의 입력이 됩니다. 외부 세계가 환각을 교정하는 핵심 피드백입니다.
🎓 (4) 실험 설계 — 4가지 벤치마크
논문은 두 종류의 태스크로 ReAct를 검증합니다. 지식 집약적 QA(정적 지식 검색)와 의사결정 태스크(동적 환경에서의 순차적 행동). 이 두 종류를 함께 실험한 것은 ReAct의 범용성을 주장하기 위한 설계입니다.
Wikipedia 기반 Multi-hop 질문 응답. "A는 B에서 공부했고, B의 설립자는 C다 — C의 출생지는?" 형태. 여러 문서를 연결해야 답 가능.
사실 검증(Fact Verification) 데이터셋. 주어진 주장이 Wikipedia 근거로 지지(SUPPORTS)되는지 반박(REFUTES)되는지 판단.
텍스트 기반 가상 가정환경 시뮬레이터. "냉장고에서 토마토를 찾아 식탁 위에 올려놓아라"처럼 여러 단계 행동이 필요한 태스크.
온라인 쇼핑 에이전트 환경. "파란색 스트라이프 무늬, XL 사이즈, $30 이하 티셔츠를 찾아 구매하라" 형태의 지시 수행.
📊 (5) 실험 결과 — 수치로 보는 성능
주목할 점: 정적 QA(HotpotQA)에서는 CoT가 단독으로 ReAct보다 약간 우세합니다(29.4 vs 27.4). 외부 검색 없이 내부 지식만으로 답하는 태스크에서는 ReAct의 탐색 비용이 오히려 부담이 됩니다. 하지만 둘을 결합하면(35.1%) 모두를 뛰어넘습니다.
✅ (6) 논문 평가 — 강점과 한계
Thought 단계가 있기 때문에 Agent가 왜 그 행동을 선택했는지 사람이 추적 가능. 블랙박스 문제 완화. 오류 발생 시 어느 Thought에서 틀렸는지 진단 가능.
외부 Observation이 모델의 내부 추론을 실제 데이터로 교정. 논문에서 ReAct가 CoT보다 사실적 오류가 유의미하게 적다는 것을 질적 분석으로 보여줌.
별도 파인튜닝 없이 few-shot 프롬프팅만으로 구현. GPT-3, PaLM, Codex 등 기존 LLM에 즉시 적용 가능. 진입 장벽이 낮고 실험이 쉬움.
Thought-Act-Observation 루프가 반복될수록 컨텍스트 길이가 급격히 증가. 복잡한 태스크에서는 LLM의 컨텍스트 윈도우 한계에 도달하거나 비용이 비선형으로 증가.
외부 검색이 필요 없는 순수 추론 태스크(HotpotQA)에서는 CoT 단독이 ReAct보다 우세. 불필요한 외부 탐색이 오히려 노이즈를 추가할 수 있음.
가능한 Act 목록이 미리 정의되어 있어야 함. 새 도구를 추가하려면 프롬프트 재설계 필요. 완전 자율적 도구 발견(tool discovery)은 이 논문 범위 밖.
⚓ (7) 해양 산업 시사점
ReAct의 Thought-Act-Observation 루프는 해양 산업의 문제 해결 방식과 구조적으로 일치합니다. 항해사는 항상 "관찰하고 → 판단하고 → 행동하고 → 결과를 확인"합니다. 이 구조를 AI 시스템에 부여하면 어떤 가능성이 열릴까요?
Thought: ECDIS에서 비정상 트래픽 패턴 감지 — GPS 스푸핑 가능성 분석
Act: IDS 로그 조회[지난 6시간]
Obs: 192.168.1.X에서 비정상 패킷 3,400건 확인
Thought: 외부 공격 IP 패턴과 일치 — IMO MSC-FAL.1/Circ.3 절차에 따라 격리 필요
Act: 네트워크 격리 실행[해당 세그먼트]
→ 기존 방식 대비 탐지-대응 시간 단축, Thought 단계가 감사 로그 역할
Thought: 선박 ABC호의 연간 CBS 리스크 평가 수행 시작
Act: CBS 목록 조회[선박ID: ABC호]
Obs: 47개 CBS 항목 반환
Thought: IACS UR E26 Rev.3 기준 High Risk 항목 필터링 필요
Act: 규정 문서 검색[IACS E26 High Risk criteria]
Obs: 관련 기준 조항 반환
→ 수 주 걸리던 평가를 수 시간 내 초안 완성
실시간 기상 데이터 조회 → 현재 항로 연료 소비율 계산 → 대체 항로와 비교 → 최적 속도·항로 추천까지 전 과정을 ReAct 루프로 자율 수행. 각 Thought가 감사 가능한 판단 근거를 남깁니다.
🎯 (8) Captain Paul의 결론
ReAct는 Agent AI의 설계 원리를 가장 명확하게 보여주는 논문입니다. "생각 없는 행동은 위험하고, 행동 없는 생각은 공허하다"는 단순한 통찰을 수학적으로 증명하지 않고, 실제 벤치마크로 보여주었습니다. 이것이 이 논문이 3,000회 이상 인용된 이유입니다.
이 논문 이후 Tool Calling(Toolformer), MCP, LangChain, AutoGPT 등 Agent AI 생태계의 모든 핵심 기술은 ReAct의 Thought-Act-Observation 구조를 기반으로 발전했습니다. ReAct는 이후 Toolformer → Function Calling → MCP로 이어지는 "도구 사용 표준화" 흐름의 지적 출발점이기도 합니다.
ReAct는 복잡한 수식 없이, 기존 LLM에 프롬프트 몇 줄만 추가해 Agent AI를 구현하는 방법을 보였습니다. 이 단순함이 논문의 가장 큰 기여입니다. Agent AI를 처음 공부하는 사람이라면 ReAct 논문부터 시작하는 것이 가장 빠른 입문 경로입니다.
— Captain Paul
Comments
Post a Comment