본문 바로가기
Computer/LLM

ReAct

by hexists 2023. 5. 31.

ReAct: Synergizing Reasoning and Acting in Language Models

https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html

 

ReAct: Synergizing Reasoning and Acting in Language Models

Posted by Shunyu Yao, Student Researcher, and Yuan Cao, Research Scientist, Google Research, Brain Team --> Recent advances have expanded the applicability of language models (LM) to downstream tasks. On one hand, existing language models that are properly

ai.googleblog.com

참고, 본 글에 있는 모든 이미지와 내용은 위 블로그에서 참조했습니다.

 

ReAct = Reason + Act

간단히 설명을 해보면, Reason과 Act를 같이해서 synergy를 내보자는 내용

reason only, act only, ReAct

이렇게만 보면 설명이 잘 안되니 Prompt 예시를 통해 보면, 

Prompt 비교: (a) standard, (b) Reason only, (c) Act only, (d) ReAct

Seven Breif Lessons on Physics was written by an Italian physicist that has worked in France since what year?

(물리학에 관한 일곱 개의 브레이프 레슨은 몇 년부터 프랑스에서 일한 이탈리아 물리학자가 저술한 책인가요?, DeepL)

 

질문에 대해 (b) Reason only, (c) Act only, (d) ReAct의 결과가 다름을 확인할 수 있다.

  • (b) Reason only: (LLM에서) 먼저 책을 쓴 저자를 찾는다. 그리고 저자가 언제부터 프랑스에서 일했는지 찾아 답을 낸다.
  • (c) Act only: "Seven Breif Lessons on Physics"를 검색한다. 책에 대한 정보를 통해 Carlo Rovelli라는 저자를 찾았다. 저자에 대해 Lookup을 하고, 답을 낸다.
  • (d) ReAct: 도서명으로 검색이 필요하고 거기서 저자를 찾아야 하고, 언제부터 프랑스에서 일했는지 찾아야 한다고 생각(thought)한다.  "Seven Breif Lessons on Physics"를 검색한다. 검색결과에서 Carlo Rovelli라는 저자를 알아내고 프랑스에서 언제부터 일했는지 검색해야 한다고 생각(thought)한다. Carlo Rovelli의 검색 결과를 통해 2000년이라는 답을 낸다.(thought)

Reason만 하거나 Act만 하는 것보다 Reason + Act를 같이 했을 때 더 좋은 결과를 얻을 수 있다고 한다.

여기서 다시 위 그림을 함께 보면서 Reason, Act가 무엇인지 정리해보자.

  • Reason
    • 질문에 대한 답을 내기 위해 CoT(Chain of Thought)를 거쳐 답을 도출
    • 외부 리소스 없이 자체 결과만 사용하여 반응적으로 탐색하거나 지식을 업데이트 할 수 없음
  • Act
    • 행동(actions)에 대한 환경 변화(Env)를 관찰하고 LM에 피드백 전달
    • Reason과 별도로 구성할 경우 외부 환경이 추론 과정에 영향을 줄 수 없음

ReAct를 통해 추론과 행동 과정을 결합하여 외부 환경이 추론에 영향을 주고 더 나은 추론 궤적을 가지도록 함

실험 및 결과

1. prompting

PaLM-540B를 이용, few-shot in-context examples를 주고 domain-specific actions, free-form language reasoning traces을 통해 문제를 해결하도록 실험

 

2. fine-tuning

PaLM-540B를 이용해서 학습 데이터를 생성 후 사용

실험 모델은 PaLM-8/62B를 사용

 

결과

PaLM-540B prompting results on HotpotQA and Fever.

QA(HotpotQA), 사실확인(FEVER)에서 ReAct prompting 결과가 CoT나 Act Only보다 뛰어남

참고, Best Method는 내부, 외부 정보를 모두 사용하는 조합

 

ALFWorld 및 WebShop에서도 기준보다 성능이 34%. 10% 향상

 

PaLM-540B prompting task success rate results on AlfWorld and WebShop.

 

모델 사이즈에 따른 React prompting, fine-tuning 결과는 540B 정도 되야 ReAct Prompting이 좋은 성능을 보이고, fine-tuning은 적은 모델 8/62B에서도 다른 조합보다 뛰어난 성능을 보임

Scaling results for prompting and fine-tuning on HotPotQA with ReAct and different baselines. ReAct consistently achieves best fine-tuning performances.

 

FEVER에서는 ReAct는 정답을 맞췄지만 CoT는 Hallucination

Fever Example: ReAct vs CoT

AlfWorld 비교, 여기는 ReAct의 act를 수정하여 정답을 도출하는 예제

A human-in-the-loop behavior correction example with ReAct on AlfWorld.

'Computer > LLM' 카테고리의 다른 글

영화 Her에서 느꼈던 AI Agent의 모습  (0) 2023.07.14
ReAct Ⅱ  (0) 2023.06.16
MLM vs CLM  (0) 2023.04.20
InstructGPT Evaluation  (2) 2023.04.17
In-context Learning  (0) 2023.04.13