🏆 ICLR 2023 ReAct Agent AI 기반 기술 Reasoning + Acting Princeton · Google

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao · Jeffrey Zhao · Dian Yu · Nan Du · Izhak Shafran · Karthik Narasimhan · Yuan Cao · Princeton University & Google Brain · ICLR 2023

Captain Paul

Maritime 4.0 · AI & Cyber Intelligence

📅June 2026

Paper Details

Title	ReAct: Synergizing Reasoning and Acting in Language Models
Authors	Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao Princeton University (Yao, Narasimhan) + Google Brain (Zhao, Yu, Du, Shafran, Cao)
Venue	ICLR 2023 · arXiv 제출: 2022년 10월 6일
Benchmarks	HotpotQA · FEVER · ALFWorld · WebShop — 4개 태스크 실험
인용 수	3,000+ (2024년 기준) — Agent AI 분야 핵심 참조 논문
Source	arXiv:2210.03629 ↗ · 공식 프로젝트 페이지 ↗

※ 이 리뷰는 리뷰어의 독립적 분석이며, 원저자의 공식 견해를 대표하지 않습니다.

ChatGPT는 훌륭하게 답할 수 있습니다. 하지만 실제로 행동할 수 없습니다. ReAct는 이 간극을 메운 논문입니다. "추론(Reasoning)과 행동(Acting)을 번갈아 수행하면 어떨까?" — 이 단순한 아이디어가 현대 Agent AI의 근간이 된 Thought-Act-Observe 루프를 탄생시켰습니다.

리뷰 목차

이 논문이 해결하는 문제
기존 접근 방식의 한계 — CoT와 Act-only
ReAct 핵심 아이디어 — Thought·Act·Observation 루프
실험 설계 — 4가지 벤치마크
실험 결과 — 수치로 보는 성능
논문 평가 — 강점과 한계
해양 산업 시사점
Captain Paul의 결론

📌 (1) 이 논문이 해결하는 문제

2022년 당시, 대형 언어 모델(LLM)은 두 가지 방향으로 발전하고 있었습니다. 하나는 Chain-of-Thought(CoT) 프롬프팅처럼 추론 과정을 단계별로 전개하는 방향이고, 다른 하나는 모델이 외부 환경과 상호작용하는 행동 기반 접근(Act-only)이었습니다. 그런데 두 방향 모두 결정적 약점이 있었습니다.

🧠

CoT — 생각만 한다

외부 세계와 상호작용 없이 내부 추론만 수행. 환경 변화 반영 불가. 환각(hallucination)을 스스로 검증할 방법 없음.

🤖

Act-only — 행동만 한다

왜 그 행동을 선택했는지 추론 흔적 없음. 잘못된 행동을 선택해도 수정할 근거 부재. 해석 불가능.

ReAct의 핵심 질문: "추론과 행동을 분리하지 않고 함께 사용하면 어떨까? 생각하고 → 행동하고 → 결과를 관찰하고 → 다시 생각하는 루프를 만들면?"

🔍 (2) 기존 접근 방식의 한계 — CoT vs Act-only

CoT

Chain-of-Thought — 검증 불가능한 내부 추론

모델이 "X는 Y이고, Y이므로 Z이다"라고 추론하지만, 이 추론이 실제 세계와 일치하는지 확인할 방법이 없습니다. 예: "2022년 FIFA 월드컵 우승국은 아르헨티나이며, 아르헨티나 수도는 부에노스아이레스다"처럼 맞는 사실을 연결할 수 있지만, 최신 정보나 동적 데이터에는 환각을 일으킵니다. 외부 검증 불가 = 자기강화식 오류 위험.

Act

Act-only — 추론 없는 행동 선택

외부 환경과 상호작용은 하지만, 왜 그 행동을 선택했는지에 대한 추론 흔적이 없습니다. 잘못된 경로를 택했을 때 자기 수정이 어렵고, 사람이 개입해야 원인을 파악할 수 있습니다. 행동의 맥락 부재 = 오류 복구 불가.

ReAct의 답

추론(Thought)과 행동(Act)을 동일한 생성 스트림(generation stream) 안에서 교차 수행합니다. 각 Thought는 다음 Action을 결정하고, 각 Observation은 다음 Thought를 수정합니다. 이 루프는 목표가 달성될 때까지 반복됩니다.

⚙️ (3) ReAct 핵심 아이디어 — Thought · Act · Observation 루프

ReAct의 핵심은 LLM이 Thought(추론) → Act(행동) → Observation(관찰) 세 단계를 번갈아 생성하도록 프롬프트를 설계하는 것입니다. 각 단계는 텍스트 시퀀스로 표현되며, 추가적인 아키텍처 변경 없이 기존 LLM에 적용 가능합니다.

ReAct 생성 예시 — "HotpotQA: 콜로라도 아스펜의 고도는?"

Thought 1: 콜로라도 아스펜에 대해 검색하여 고도를 찾아야 한다.
Act 1:     Search[Aspen, Colorado]
Obs 1:    아스펜은 콜로라도주 피트킨 카운티에 있는 도시로, 해발 2,438m에 위치해 있다...

Thought 2: 검색 결과에서 고도가 2,438m임을 확인했다. 최종 답을 제출한다.
Act 2:     Finish[2,438m (7,999ft)]

Thought

현재 상황을 분석하고, 다음에 무엇을 해야 할지 계획을 세우는 단계. 사람의 "속으로 생각하기"에 해당. 이 단계는 외부 시스템에 영향을 주지 않으며 순수한 추론입니다.

Act

미리 정의된 액션 공간(Wikipedia 검색, 웹 탐색, 계산기 호출 등)에서 하나를 선택하고 실행합니다. Thought의 결론이 이 선택을 명시적으로 안내합니다.

Obs

환경(검색 엔진, 게임 시뮬레이터, 쇼핑 플랫폼 등)으로부터 돌아온 결과. 이 Observation이 다음 Thought의 입력이 됩니다. 외부 세계가 환각을 교정하는 핵심 피드백입니다.

구현 방식: 별도의 모델 학습 없이, 몇 가지 예시(few-shot)를 프롬프트에 포함시켜 LLM이 이 패턴을 따르도록 유도합니다. GPT-3, GPT-4, PaLM 등 기존 LLM에 그대로 적용 가능합니다.

🎓 (4) 실험 설계 — 4가지 벤치마크

논문은 두 종류의 태스크로 ReAct를 검증합니다. 지식 집약적 QA(정적 지식 검색)와 의사결정 태스크(동적 환경에서의 순차적 행동). 이 두 종류를 함께 실험한 것은 ReAct의 범용성을 주장하기 위한 설계입니다.

지식 집약적 QA

HotpotQA

Wikipedia 기반 Multi-hop 질문 응답. "A는 B에서 공부했고, B의 설립자는 C다 — C의 출생지는?" 형태. 여러 문서를 연결해야 답 가능.

FEVER

사실 검증(Fact Verification) 데이터셋. 주어진 주장이 Wikipedia 근거로 지지(SUPPORTS)되는지 반박(REFUTES)되는지 판단.

의사결정 태스크

ALFWorld

텍스트 기반 가상 가정환경 시뮬레이터. "냉장고에서 토마토를 찾아 식탁 위에 올려놓아라"처럼 여러 단계 행동이 필요한 태스크.

WebShop

온라인 쇼핑 에이전트 환경. "파란색 스트라이프 무늬, XL 사이즈, $30 이하 티셔츠를 찾아 구매하라" 형태의 지시 수행.

비교 베이스라인: (1) Standard Prompting, (2) Chain-of-Thought(CoT), (3) Act-only, (4) CoT → Act 순차 방식. ReAct와 이들을 비교하여 각 구성 요소의 기여도를 ablation 분석.

📊 (5) 실험 결과 — 수치로 보는 성능

지식 집약적 QA 결과 (Exact Match / Accuracy)

방법	HotpotQA (EM%)	FEVER (Acc%)
Standard Prompting	22.6	62.3
Chain-of-Thought (CoT)	29.4	56.3
Act-only	25.7	58.9
ReAct	27.4	60.9 ↑
ReAct + CoT (Best-of-both)	35.1 ↑	64.6 ↑

의사결정 태스크 결과 (성공률 %)

방법	ALFWorld (성공률%)	WebShop (성공률%)
Act-only	45	28.7
ReAct	71 ↑ (+26%p)	40.0 ↑ (+11.3%p)

주목할 점: 정적 QA(HotpotQA)에서는 CoT가 단독으로 ReAct보다 약간 우세합니다(29.4 vs 27.4). 외부 검색 없이 내부 지식만으로 답하는 태스크에서는 ReAct의 탐색 비용이 오히려 부담이 됩니다. 하지만 둘을 결합하면(35.1%) 모두를 뛰어넘습니다.

핵심 인사이트: ReAct의 진가는 동적 환경에서 드러납니다. 외부 환경이 변화하고, 중간 관찰 결과가 다음 행동을 수정해야 하는 ALFWorld(+26%p)와 WebShop(+11.3%p)에서 Act-only 대비 압도적 우위를 보입니다.

✅ (6) 논문 평가 — 강점과 한계

✔ 해석 가능성 (Interpretability)

Thought 단계가 있기 때문에 Agent가 왜 그 행동을 선택했는지 사람이 추적 가능. 블랙박스 문제 완화. 오류 발생 시 어느 Thought에서 틀렸는지 진단 가능.

✔ 환각 억제 (Hallucination Mitigation)

외부 Observation이 모델의 내부 추론을 실제 데이터로 교정. 논문에서 ReAct가 CoT보다 사실적 오류가 유의미하게 적다는 것을 질적 분석으로 보여줌.

✔ 범용 아키텍처 호환

별도 파인튜닝 없이 few-shot 프롬프팅만으로 구현. GPT-3, PaLM, Codex 등 기존 LLM에 즉시 적용 가능. 진입 장벽이 낮고 실험이 쉬움.

⚠ 토큰 비용

Thought-Act-Observation 루프가 반복될수록 컨텍스트 길이가 급격히 증가. 복잡한 태스크에서는 LLM의 컨텍스트 윈도우 한계에 도달하거나 비용이 비선형으로 증가.

⚠ 정적 QA에서 CoT 열세

외부 검색이 필요 없는 순수 추론 태스크(HotpotQA)에서는 CoT 단독이 ReAct보다 우세. 불필요한 외부 탐색이 오히려 노이즈를 추가할 수 있음.

⚠ 사전 정의된 액션 공간

가능한 Act 목록이 미리 정의되어 있어야 함. 새 도구를 추가하려면 프롬프트 재설계 필요. 완전 자율적 도구 발견(tool discovery)은 이 논문 범위 밖.

⚓ (7) 해양 산업 시사점

ReAct의 Thought-Act-Observation 루프는 해양 산업의 문제 해결 방식과 구조적으로 일치합니다. 항해사는 항상 "관찰하고 → 판단하고 → 행동하고 → 결과를 확인"합니다. 이 구조를 AI 시스템에 부여하면 어떤 가능성이 열릴까요?

🛡 사이버보안 인시던트 대응

Thought: ECDIS에서 비정상 트래픽 패턴 감지 — GPS 스푸핑 가능성 분석
Act: IDS 로그 조회[지난 6시간]
Obs: 192.168.1.X에서 비정상 패킷 3,400건 확인
Thought: 외부 공격 IP 패턴과 일치 — IMO MSC-FAL.1/Circ.3 절차에 따라 격리 필요
Act: 네트워크 격리 실행[해당 세그먼트]
→ 기존 방식 대비 탐지-대응 시간 단축, Thought 단계가 감사 로그 역할

📋 IACS E26/E27 규정 준수 자동화

Thought: 선박 ABC호의 연간 CBS 리스크 평가 수행 시작
Act: CBS 목록 조회[선박ID: ABC호]
Obs: 47개 CBS 항목 반환
Thought: IACS UR E26 Rev.3 기준 High Risk 항목 필터링 필요
Act: 규정 문서 검색[IACS E26 High Risk criteria]
Obs: 관련 기준 조항 반환
→ 수 주 걸리던 평가를 수 시간 내 초안 완성

⛽ 연료 최적화 의사결정

실시간 기상 데이터 조회 → 현재 항로 연료 소비율 계산 → 대체 항로와 비교 → 최적 속도·항로 추천까지 전 과정을 ReAct 루프로 자율 수행. 각 Thought가 감사 가능한 판단 근거를 남깁니다.

⚠ 해양 적용 시 주의: 선박의 OT(운항 기술) 시스템과 연동되는 Act는 Human-in-the-Loop 설계가 필수입니다. ReAct 논문 자체도 최종 행동 실행 전 인간 확인을 권장합니다. 특히 조타·기관 시스템에 대한 Act는 승인 없이 실행되어서는 안 됩니다.

🎯 (8) Captain Paul의 결론

ReAct는 Agent AI의 설계 원리를 가장 명확하게 보여주는 논문입니다. "생각 없는 행동은 위험하고, 행동 없는 생각은 공허하다"는 단순한 통찰을 수학적으로 증명하지 않고, 실제 벤치마크로 보여주었습니다. 이것이 이 논문이 3,000회 이상 인용된 이유입니다.

이 논문 이후 Tool Calling(Toolformer), MCP, LangChain, AutoGPT 등 Agent AI 생태계의 모든 핵심 기술은 ReAct의 Thought-Act-Observation 구조를 기반으로 발전했습니다. ReAct는 이후 Toolformer → Function Calling → MCP로 이어지는 "도구 사용 표준화" 흐름의 지적 출발점이기도 합니다.

Agent AI를 구현하거나 평가할 때 "이 Agent가 왜 이 행동을 선택했는가"에 답할 수 있어야 합니다. ReAct의 Thought 단계는 그 답의 형식을 제시합니다. Agent의 행동 투명성은 기술적 문제이기 전에 설계 선택입니다.

ReAct는 복잡한 수식 없이, 기존 LLM에 프롬프트 몇 줄만 추가해 Agent AI를 구현하는 방법을 보였습니다. 이 단순함이 논문의 가장 큰 기여입니다. Agent AI를 처음 공부하는 사람이라면 ReAct 논문부터 시작하는 것이 가장 빠른 입문 경로입니다.

— Captain Paul, ShipPaulJobs

#ReAct #AgentAI #PaperReview #LLM #ICLR2023 #ReasoningAndActing #ChainOfThought #ToolUse #해양사이버보안 #Maritime40

📚 Agent AI 논문 시리즈 — 8편 완결

01 ReAct — 생각하며 행동하는 AI 현재 글

02 Toolformer — 도구를 스스로 배우는 LLM NeurIPS 2023 03 MCP — AI와 세계를 연결하는 표준 Open Std 2024 04 AutoGPT — 최초의 자율 에이전트 GitHub 2023 05 CrewAI — 역할 기반 멀티에이전트 팀 GitHub 2024 06 LangGraph — 상태 기반 그래프 에이전트 arXiv 2024 07 Generative Agents — AI가 사는 마을 UIST 2023 08 AutoGen — 대화형 멀티에이전트 협력 ICLR 2024

Captain Paul

Maritime 4.0 · AI & Cyber Intelligence · ShipPaulJobs

데이터, AI, 사이버보안을 해양 산업과 연결하는 혁신 리더. Agent AI 핵심 논문을 해양 실무자의 시각으로 리뷰합니다.

💼 LinkedIn ↗ 🌐 More Articles ↗

⚓ Join the ShipPaulJobs Community

Join →

Search This Blog

ShipPaulJobs
Maritime AI & Cybersecurity

[AI Cyber Lab] ReAct Paper Review — Reasoning-Acting AI for Maritime Cyber Threat Response Frameworks

ReAct: Synergizing Reasoning and Acting in Language Models

📌 (1) 이 논문이 해결하는 문제

🔍 (2) 기존 접근 방식의 한계 — CoT vs Act-only

⚙️ (3) ReAct 핵심 아이디어 — Thought · Act · Observation 루프

🎓 (4) 실험 설계 — 4가지 벤치마크

📊 (5) 실험 결과 — 수치로 보는 성능

✅ (6) 논문 평가 — 강점과 한계

⚓ (7) 해양 산업 시사점

🎯 (8) Captain Paul의 결론

Comments

Post a Comment

Popular Posts

Securing Maritime OT Systems: A Practical Cyber Security Strategy

IMO MASS Code Enters into Force 1 July 2026 - Autonomous Ships Enter the Era of International Rules

[CRSI] IACS UR E26/E27 System Classification Guide — 1. Efficient Way to Classify System Types in IACS UR E26/E27

Navigating the Cyber Tides: A Marine Surveyor's Practical Insights into Global Maritime Cybersecurity & Risk Management

[Maritime Cyber Brief] U.S. Sanctions on Chinese Ships — Cybersecurity Compliance Implications for the Maritime Industry

Article 1 : The Cyber Resilience System Integrator and the Six Core Ship-Level Deliverables

Maritime Cyber Security Jobs (1/2) : Complete Career Guide, Skills, Salary & Future Outlook (2026)

Ship Ballast Water Management Systems

Ship Alarm Monitoring

Ship Fire Detection & Suppression Systems