MultiAgent (김윤석)

김윤석

모정훈

고등 동적계획법과 강화학습

2023년 12월 20일

23 Multi-agent Reinforcement Learning Tutorial

Introduction

심층강화학습

Figure 1. 에이전트와 환경간의 상호작용을 나타내는 강화학습 프레임워크[9]

심층 강화학습(Deep Reinforcement Learning, DRL)은 강화학습(Reinforcement Learning, RL)[1]과 딥러닝(Deep Learning)[2]의 결합입니다. 이 분야는 컴퓨터가 인간 수준의 복잡한 결정을 할 수 있도록 하는 데 중요한 역할을 합니다.

강화학습은 학습하는 시스템인 '에이전트'가 환경과 상호 작용하면서 최적의 행동 전략, 즉 '정책(policy)'을 학습하는 과정입니다. 이 과정에서 에이전트는 다음과 같은 구성요소와 상호작용합니다:

환경(Environment): 에이전트가 행동을 취하는 물리적 또는 가상의 공간입니다.

상태(State): 에이전트가 인식할 수 있는 환경의 상황이나 조건입니다.

행동(Action): 에이전트가 취할 수 있는 모든 가능한 조치입니다.

보상(Reward): 에이전트의 행동에 대한 환경의 피드백으로, 에이전트가 얼마나 잘 하고 있는지를 나타냅니다.

에이전트의 목표는 보상을 최대화하는 방향으로 행동을 학습하는 것입니다. 이러한 학습 과정은 시행착오를 통해 이루어지며, 에이전트는 경험을 통해 어떤 행동이 최상의 결과를 가져오는지 배웁니다.

딥러닝은 강화학습에서 매우 중요한 역할을 합니다, 특히 복잡하고 고차원적인 환경에서 더욱 그렇습니다. 딥러닝, 특히 신경망은 다음과 같은 방법으로 강화학습을 향상시킵니다:

고차원 데이터 처리: 신경망은 이미지, 오디오, 텍스트와 같은 고차원 데이터를 처리할 수 있어, 에이전트가 복잡한 환경을 더 잘 이해하고 해석할 수 있게 합니다.

Function Approximator: 신경망은 상태-행동 가치 함수(state-action value function)나 정책 함수(policy function)를 근사하는데 사용됩니다. 이를 통해 에이전트는 보다 정교한 의사결정을 할 수 있습니다.

일반화 능력: 딥러닝 모델은 비슷한 상황에서 유사한 행동을 취하는 방법을 학습함으로써, 새로운 상황에 대해서도 효과적으로 대응할 수 있게 해줍니다.

이러한 딥러닝의 통합은 강화학습이 더욱 복잡하고 다양한 문제를 해결할 수 있게 만들어주며, 이는 전통적인 강화학습 방법으로는 처리하기 어려웠던 고차원적이고 연속적인 공간에서의 작업에 특히 유용합니다. 따라서, 심층 강화학습은 강화학습의 전통적인 접근법과 딥러닝의 강력한 데이터 처리 능력을 결합하여, 인공지능이 인간 수준의 복잡한 결정과 작업을 수행할 수 있도록 하는데 큰 도약을 제공합니다.

Multi-agent Reinforcement Learning

Figure 2. 다중 에이전트와 환경간의 상호작용을 나타내는 MARL 프레임워크[9]

실제 세계의 많은 문제들은 복잡하며 불확실한 특성을 지닙니다. 이러한 문제들을 효과적으로 해결하기 위해 다중 에이전트 시스템(MAS)[3]이 적합하며, 다중 에이전트 강화 학습(MARL)[4-6]은 이러한 복잡한 문제를 모델링하고 해결하는 데 강력한 도구로 사용됩니다. MARL은 환경의 불확실성에 대처하고 알려지지 않은 작업을 해결하는 능력이 있으며, 최근에는 딥러닝과의 결합으로 풍부한 결과를 낳고 있습니다[7].

그러나 MARL은 새로운 도전을 제시합니다. MAS 환경은 부분적으로 관찰 가능하며, 에이전트가 독립적으로 최적의 결정을 내리기 어렵습니다. 또한, 다른 에이전트들의 동시 학습으로 인해 환경이 비정상적이 되고, 정책 수렴이 보장되지 않는 문제가 발생합니다. 협력적 MAS에서 공유 보상의 적절한 할당과 효율적인 협력 학습, 시스템 성능 극대화는 주요한 도전 중 하나입니다. 또한, 에이전트 수 증가에 따른 탐색 공간의 확장은 정책 학습과 탐색을 어렵게 만듭니다[8].

이러한 도전에 대응하기 위해, 연구자들은 협력적 MARL의 다양한 측면을 탐구하고 있습니다. 이는 경로 계획, 활동적 전압 제어, 동적 알고리즘 구성과 같은 작업에서 전통적인 방법보다 우수한 성능을 보여주었습니다. 정책 그라디언트, 가치 기반 방법, Transformer를 활용한 방법 등 다양한 알고리즘이 개발되었으며, 이들은 효율적인 커뮤니케이션, 오프라인 정책 배포, 세계 모델 학습 등을 통해 협력적 MARL을 더욱 발전시키고 있습니다.

전통적인 기계 학습 연구가 고전적 폐쇄 환경을 가정하는 반면, 오늘날 많은 작업들, 특히 개방 환경 시나리오에서는 학습에 필요한 중요 요소들이 변할 수 있습니다. 이에 따라, RL 분야에서는 신뢰할 수 있는 RL, 환경 생성 및 정책 학습, 지속적인 RL, 일반화 능력, 메타-RL, 실제-가상 정책 전환 등 개방 환경에서의 작업에 초점을 맞추고 있습니다.

협력적 MARL은 실제 환경에서 복잡한 조정 문제를 해결하는 데 큰 잠재력을 가지고 있습니다. 논문[9]은 RL과 MAS에 대한 기본 지식, 고전적 폐쇄 환경과 개방 환경에서의 협력적 MARL에 대한 연구 방향 및 내용을 소개하고, 주요 내용을 요약하여 전망을 제공합니다.

다중 에이전트 강화학습 formulation

강화 학습(RL)은 기계 학습의 하위 분야로, 상호 작용을 통해 연속적인 의사결정 문제를 해결합니다. RL은 에이전트, 상태, 행동, 보상이라는 네 가지 주요 구성 요소로 이루어져 있으며, 에이전트의 목표는 누적 보상을 최대화하는 것입니다. 이 과정은 마르코프 결정 과정(MDP)으로 모델링되며, MDP는 다음과 같이 정의됩니다:

- 마르코프 결정 과정: ⟨S, A, P, R, γ⟩ (무한 과정) 또는 ⟨S, A, P, R, T⟩ (유한 과정), 여기서

- S는 상태 집합

- A는 행동 집합

- P : S × A × S → [0, 1]는 상태 전이 확률 함수: P(s′| s, a) = Pr[St+1 = s′| St = s, At = a]

- R : S × A → R는 보상 함수: R(s, a) = E[rt | St = s, At = a]

- γ ∈ [0, 1]는 할인 계수, T는 최대 지평선

에이전트는 주어진 상태에서 결정적 행동을 선택하거나 확률 분포에서 행동을 샘플링할 수 있습니다. 에이전트가 상태 st를 관찰한 후 행동 at를 수행하면, 이는 환경을 새로운 상태 st+1로 전환시키고 에이전트는 보상 신호 rt = R(st, at)를 받습니다. 무한 MDP의 목표는 누적 보상을 최대화하는 최적의 정책을 찾는 것입니다. 수학적으로, 이 과정은 다음과 같이 정리됩니다:

여기서 Eπ[·]는 정책 π(at|st)와 상태 전이 P(st+1|st, at)에 의해 생성된 시퀀스 τ = (s0, a0, s1, a1, ...)의 분포에 대한 기대값을 계산합니다.

또한, 상태-행동 가치 함수(Q-함수)와 상태 가치 함수(V)는 다음과 같이 정의됩니다:

이 두 함수의 관계는 Vπ(s) = Ea∼π(·|s)[Qπ(s, a)] 및 Qπ(s, a) = Es′∼P(·|s,a)[R(s, a) + Vπ(s′)]로 표현됩니다. 마르코프 결정 과정에서 RL의 목표는 가치 함수를 최대화하는 최적의 정책 π*을 찾는 것입니다:

MARL(Multi-Agent Reinforcement Learning, 다중 에이전트 강화 학습)에서 'DTDE(Decentralized Training with Decentralized Execution)'와 'CTDE(Centralized Training with Decentralized Execution)'[9]는 두 가지 다른 접근 방식을 나타냅니다. 이 두 방식은 각각 어떻게 에이전트들이 학습하고 실행하는지에 대한 기본 전략을 설명합니다.

DTDE (Decentralized Training Decentralized Execution)

Figure 3.Decentralized Training Decentralized Execution(DTDE) 프레임워크[9]

DTDE는 학습과 실행 모두를 분산 방식으로 수행하는 접근 방식입니다. 이 방식에서 각 에이전트는 자신의 관점에서 독립적으로 학습하고, 실행 시에도 다른 에이전트의 정보나 상태에 대한 접근 없이 독립적으로 결정을 내립니다.

독립성: 에이전트들은 다른 에이전트의 행동이나 상태 정보 없이 자신만의 정보를 기반으로 학습하고 결정을 내립니다.

스케일러빌리티: 많은 에이전트가 있는 환경에서 효율적이며, 각 에이전트의 계산 부담이 상대적으로 낮습니다.

제한점: 에이전트들이 서로 협력하거나 상호 작용하는 방식에 대한 학습이 부족할 수 있습니다. 특히, 복잡한 환경에서 다른 에이전트들과의 상호작용이 중요한 경우 최적의 정책을 찾기 어려울 수 있습니다.

CTDE (Centralized Training Decentralized Execution)

Figure 4.Centralized Training Decentralized Execution(CTDE) 프레임워크[9]

CTDE는 학습 과정은 중앙집중적으로 수행되고 실행은 분산 방식으로 수행되는 접근 방식입니다. 학습 단계에서는 모든 에이전트들의 정보와 상태가 고려되며, 실행 단계에서는 각 에이전트가 독립적으로 행동합니다.

협력 학습: 학습 과정에서 에이전트들은 서로의 정보를 공유하며 상호 작용을 통해 학습합니다. 이를 통해 협력적인 행동을 학습할 수 있습니다.

효과적인 정책 학습: 중앙집중적 학습은 복잡한 환경에서 다른 에이전트들과의 상호작용을 고려한 보다 효과적인 정책을 학습할 수 있게 합니다.

실행의 독립성: 실행 단계에서는 각 에이전트가 자신의 정책에 따라 독립적으로 행동합니다. 이는 실행 시의 복잡성을 줄이고 실시간 응답을 가능하게 합니다.

학습의 복잡성: 중앙집중적 학습은 계산적으로 더 복잡하며, 많은 에이전트를 포함하는 환경에서는 스케일러빌리티에 제한이 있을 수 있습니다.

다중 에이전트 강화학습에서 가치 기반 강화학습

Independent Q-Learning

Independent Q-Learning[10]은 다중 에이전트 강화 학습(MARL)에서 사용되는 방법입니다. 이 방법에서 각 에이전트는 독립적으로 Q-Learning 알고리즘을 사용하여 학습합니다. 각 에이전트는 다른 에이전트의 존재나 행동을 고려하지 않고, 자신의 경험만을 바탕으로 최적의 행동 정책을 학습합니다. 에이전트는 환경과의 상호작용을 통해 보상을 받고, 이를 바탕으로 Q-테이블을 업데이트합니다.

Independent Q-Learning의 큰 장점은 각 에이전트가 독립적으로 학습할 수 있다는 점에서 스케일러빌리티와 단순성이 있습니다. 하지만, 이 접근법에는 몇 가지 중요한 한계가 있습니다. 첫째, 환경의 비정상성(non-stationarity)입니다. 다른 에이전트들 역시 동시에 학습하고 행동 전략을 바꾸므로, 한 에이전트가 경험하는 환경은 지속적으로 변화합니다. 이는 학습 과정을 불안정하게 만들 수 있습니다. 둘째, Independent Q-Learning은 복잡한 협력이 필요한 환경에는 적합하지 않을 수 있습니다. 에이전트들이 서로의 전략을 고려하지 않기 때문에, 협력적인 행동을 학습하는 데 제한이 있습니다. 셋째, 많은 에이전트를 포함하는 환경에서는 각 에이전트의 독립적인 학습이 전체 시스템의 효율성을 저하시킬 수 있습니다.

따라서 Independent Q-Learning은 각 에이전트가 독립적으로 효과적으로 학습할 수 있는 상황에서 유용할 수 있으나, 복잡한 상호작용이나 협력이 중요한 환경에서는 다른 접근법을 고려하는 것이 바람직할 수 있습니다.

Multiagent Cooperation and Competition with Deep Reinforcement Learning(2016)

이 논문[11]은 다중 에이전트 환경에서의 협력과 경쟁을 딥 강화 학습을 사용하여 탐구한 연구입니다. 연구자들은 Google DeepMind가 제안한 딥 Q-러닝 네트워크 아키텍처를 다중 에이전트 환경에 적용하였으며, 클래식 비디오게임인 '퐁’에서 독립적인 딥 Q-네트워크로 제어되는 두 에이전트의 상호 작용을 조사했습니다. 연구자들은 게임의 보상 체계를 조작하여 경쟁적 및 협력적 행동이 어떻게 발현되는지 보여주었습니다. 경쟁적인 환경에서 훈련된 에이전트들은 효율적으로 점수를 내는 방법을 배웠으며, 반면 협력적인 보상 체계 하에서 훈련된 에이전트들은 볼을 게임에서 가능한 한 오래 유지하는 최적의 전략을 찾았습니다. 연구는 또한 경쟁적 행동에서 협력적 행동으로의 변화 과정을 설명하며, 딥 Q-네트워크가 복잡한 환경에서 다중 에이전트 시스템의 분산 학습을 연구하는데 실용적인 도구가 될 수 있음을 보여주었습니다. 이 연구는 다중 에이전트 시스템에서 협력과 경쟁 행동의 발달과 진화를 이해하는 데 중요한 기여를 했습니다.

Figure 5. Value-Decomposition Networks 프레임워크[12]

Value-Decomposition Networks For Cooperative Multi-Agent Learning(2017)

"Value-Decomposition Networks For Cooperative Multi-Agent Learning" (2017)[12]은 다중 에이전트 강화 학습(MARL)의 주요 문제, 즉 여러 에이전트가 어떻게 효과적으로 협력하여 공통의 목표를 달성할 수 있을지에 초점을 맞춘 연구입니다. 이 분야의 기존 연구들은 각 에이전트의 상호 의존적인 결정과 전체 시스템 성능 사이의 관계를 효과적으로 모델링하는 데 어려움을 겪었습니다. 이 논문에서 제시된 'Value-Decomposition Networks' (VDN)는 이 문제를 해결하기 위한 새로운 접근 방식을 제안합니다. VDN의 핵심 아이디어는 전체 시스템의 가치(보상)를 개별 에이전트의 가치로 분해하여 각 에이전트가 자신의 결정이 전체 시스템에 어떤 영향을 미치는지 더 잘 이해할 수 있게 하는 것입니다. 연구 결과에 따르면, VDN은 다중 에이전트 환경에서 협력적 행동을 학습하는 데 매우 효과적입니다. 복잡한 상황에서 각 에이전트의 행동이 전체 시스템에 미치는 영향을 더 잘 예측할 수 있으며, 이를 통해 전체 시스템의 성능을 향상시킬 수 있음이 입증되었습니다. 실험을 통해 VDN은 기존 방법론에 비해 더 나은 협력적 행동과 전체적인 성능을 달성할 수 있음을 보여줍니다. 이 논문은 다중 에이전트 시스템에서 협력 학습을 위한 새로운 방법론을 제시함으로써, 복잡한 환경에서 협력적 결정을 내리는 에이전트들의 능력을 향상시키는 데 중요한 기여를 했습니다. VDN의 접근 방식은 전체 시스템의 성공을 위해 개별 에이전트가 어떻게 기여할 수 있는지에 대한 더 나은 이해를 제공하며, 효과적인 협력 전략을 설계하는 데 도움을 줍니다.

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning.(2018)

Figure 6. QMIX 프레임워크[9]

"QMIX" 논문[13]은 다중 에이전트 강화 학습(MARL)에서 협력적 행동을 효과적으로 학습하는 새로운 방법론을 소개합니다. 이 연구의 주된 목적은 다중 에이전트 환경에서 각 에이전트의 행동이 전체 시스템의 성능에 미치는 영향을 더 잘 이해하고 최적화하는 것입니다. 전통적인 MARL 방법론은 복잡한 환경에서 에이전트 간 협력을 모델링하는 데 한계가 있으며, 특히 각 에이전트의 행동이 전체 성능에 미치는 영향을 정확히 평가하고 최적화하는 것이 어렵습니다.

QMIX는 전체 시스템의 가치 함수를 개별 에이전트의 가치 함수로 분해하는 접근 방식을 채택합니다. 이는 각 에이전트의 행동이 전체 시스템에 미치는 영향을 더 잘 이해하고 조정할 수 있도록 돕습니다. QMIX는 조건부 가치 함수를 사용하여 각 에이전트가 최적의 정책을 찾는 동시에 전체 시스템의 성능도 최적화합니다.

다양한 다중 에이전트 환경에서 실험된 QMIX는 기존 방법론들에 비해 우수한 성능을 보여주었습니다. 복잡한 협력 환경에서 개별 에이전트의 행동을 조율하고 전체 시스템의 성능을 개선하는 데 효과적임이 입증되었습니다. 이 연구는 MARL 분야에서 개별 에이전트와 전체 시스템 성능 간의 상호작용을 더 잘 이해하고 최적화할 수 있는 중요한 방법론을 제시합니다. QMIX의 접근 방식은 다중 에이전트 환경에서의 전략적 의사결정을 향상시키는 데 기여할 수 있는 중요한 도구로 사용될 수 있습니다.

Figure 7. MADDPG 프레임워크[9]

다중 에이전트 강화학습에서 정책 기반 강화학습

Multi-Agent DDPG

"MADDPG" (Multi-Agent Deep Deterministic Policy Gradient)[14]는 다중 에이전트 강화 학습(MARL)의 복잡한 문제를 해결하기 위한 알고리즘을 소개하는 논문입니다. 이 연구는 특히 다중 에이전트 환경에서의 협력과 경쟁 문제에 집중합니다. 다중 에이전트 시스템에서의 주요 도전 과제는 에이전트들 간의 상호작용을 효과적으로 모델링하고 최적화하는 것입니다. 기존 강화 학습 알고리즘들은 주로 단일 에이전트 설정에 적합하지만, 다중 에이전트 환경의 동적인 특성을 완전히 반영하지 못하는 경우가 많습니다.

MADDPG는 딥러닝을 기반으로 한 정책 그라디언트 방법을 다중 에이전트 설정에 적용합니다. 이 알고리즘은 학습 과정에서 모든 에이전트의 정보를 중앙집중식으로 고려하면서도, 실행 시에는 각 에이전트가 독립적으로 행동하는 방식을 채택합니다. 이를 통해 에이전트들은 협력적이거나 경쟁적인 환경에서 각자의 역할을 더 효과적으로 수행할 수 있습니다.

다양한 다중 에이전트 환경에서 실험된 MADDPG는 협력적 및 경쟁적 시나리오에서 에이전트들이 서로의 행동에 적응하면서 전체적인 성능을 향상시킬 수 있는 능력을 입증했습니다. 이 결과는 MADDPG가 복잡한 다중 에이전트 환경에서 강화 학습 문제를 해결하는 데 유용한 도구임을 시사합니다. 이 논문은 다중 에이전트 시스템에서의 학습과 행동 조정에 대한 새로운 접근 방식을 제시하며, 해당 분야의 연구와 응용에 중요한 기여를 하였습니다. MADDPG는 협력적이거나 경쟁적인 다중 에이전트 환경에서 전략적 의사결정과 상호작용을 최적화하는 데 매우 효과적인 방법으로 평가되고 있습니다.

The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

이 논문[15]은 다중 에이전트 강화 학습 환경에서 Proximal Policy Optimization (PPO) 알고리즘의 효과성에 대해 다룹니다. 이 연구는 특히 협력적 다중 에이전트 게임에서 PPO의 사용과 그 성능을 면밀하게 분석합니다. 일반적으로 PPO는 다중 에이전트 설정에서 off-policy 학습 알고리즘에 비해 적게 사용되는데, 이는 PPO가 샘플 효율성 면에서 off-policy 방법에 비해 떨어진다고 여겨지기 때문입니다. 이 논문은 이러한 관점에 도전하며, PPO 기반 다중 에이전트 알고리즘이 입자 세계 환경, StarCraft 멀티 에이전트 챌린지, Google Research Football, Hanabi 챌린지 등 다양한 테스트 환경에서 최소한의 하이퍼파라미터 조정과 특별한 알고리즘 변경 없이도 뛰어난 성능을 보여준다는 것을 입증합니다.

연구 결과는 PPO가 off-policy 방법과 비교하여 최종 수익과 샘플 효율성에서 경쟁적이거나 우수한 성과를 낸다는 것을 보여줍니다. 논문은 또한 PPO의 경험적 성능에 중요한 구현 및 하이퍼파라미터 요소들을 분석하고, 이와 관련된 실용적 제안을 제공합니다. 이러한 분석을 통해, 간단한 PPO 기반 방법이 협력적 다중 에이전트 강화 학습에서 강력한 기준점으로 사용될 수 있음을 보여줍니다. 연구와 관련된 소스 코드는 온라인에서 공개되어 있어, 관련 분야의 연구자들이 이용할 수 있습니다. 이 논문은 PPO가 단일 에이전트 환경뿐만 아니라 다중 에이전트 환경에서도 효과적인 강화 학습 방법임을 새로운 시각에서 보여줍니다.

Trust region policy optimisation in multi-agent reinforcement learning

이 논문[16]은 다중 에이전트 강화 학습(MARL)에 Trust Region 방법을 적용하는 연구를 다룹니다. 이 논문은 단일 에이전트 설정에서 성공적으로 사용된 Trust Region 방법이 다중 에이전트 환경에서는 직접적으로 적용하기 어려울 수 있음을 지적합니다. 이는 협력적 게임에서조차 에이전트들 사이에 정책 업데이트의 방향이 충돌할 수 있기 때문입니다.

연구진은 협력적 다중 에이전트 환경에 Trust Region 학습 이론을 확장합니다. 이들은 '다중 에이전트 이점 분해 정리'와 '순차적 정책 업데이트 방식'이라는 두 가지 핵심 개념을 도입합니다. 이를 기반으로, Heterogeneous-Agent Trust Region Policy Optimization (HATRPO)와 Heterogeneous-Agent Proximal Policy Optimization (HAPPO)라는 두 가지 새로운 알고리즘을 개발했습니다. 이 알고리즘들은 에이전트들이 파라미터를 공유할 필요가 없고, 합동 가치 함수의 분해 가능성에 대한 제한적 가정을 요구하지 않습니다. 연구진은 이론적으로 HATRPO와 HAPPO가 단조롭게 정책을 개선하는 특성을 갖는다고 입증합니다.

이 논문에서 제안된 방법들은 Multi-Agent MuJoCo 및 StarCraft II 작업을 포함한 다양한 환경에서 평가되었습니다. 그 결과, HATRPO와 HAPPO는 IPPO, MAPPO, MADDPG와 같은 강력한 기준선들을 모든 테스트 작업에서 크게 능가하는 성능을 보여주며, 다중 에이전트 강화 학습 분야에서 새로운 최고 수준을 설정했습니다.

이 논문은 다중 에이전트 강화 학습 분야에서 Trust Region 방법의 확장 가능성을 탐색하고, 새로운 알고리즘을 통해 다중 에이전트 시스템의 성능을 크게 향상시킬 수 있는 방법을 제시함으로써, 향후 연구와 실용적인 응용에 있어 중요한 기여를 합니다.

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Figure 8. MAT 프레임워크[17]

이 논문[17]은 다중 에이전트 강화 학습(MARL)을 시퀀스 모델링 문제로 접근하는 새로운 방식을 제안합니다. 이 연구는 자연어 처리, 시각 및 강화 학습에서 뛰어난 성능을 보여준 대규모 시퀀스 모델들, 예를 들어 GPT 시리즈와 BERT를 기반으로 하며, 이러한 모델들의 발전에서 영감을 받아 다중 에이전트 결정 문제를 해결합니다.

논문의 핵심 아이디어는 'Multi-Agent Transformer (MAT)'라는 새로운 아키텍처를 도입하여, 에이전트의 관찰 시퀀스를 최적의 행동 시퀀스로 매핑하는 것입니다. MAT는 인코더-디코더 구조를 사용하며, '다중 에이전트 이점 분해 정리'를 통해 합동 정책 탐색 문제를 순차적 의사결정 과정으로 변환합니다. 이 접근법은 다중 에이전트 문제를 효율적으로 처리할 수 있게 하며, 단조롭게 성능이 개선된다는 보장을 제공합니다.

MAT는 온라인 시행착오를 통해 온-폴리시 방식으로 훈련되며, 이는 과거의 오프라인 데이터에만 적합한 기존 방법론과 차별화됩니다. 연구진은 StarCraft II, Multi-Agent MuJoCo, Dexterous Hands Manipulation, Google Research Football 등의 벤치마크를 통해 MAT의 성능을 평가했습니다. 실험 결과에 따르면, MAT는 MAPPO와 HAPPO와 같은 강력한 기준선에 비해 우수한 성능과 데이터 효율성을 달성했습니다. 특히, 에이전트 수의 변화에 관계없이 본 적 없는 작업에서의 퓨샷 학습 능력이 뛰어남을 보여주었습니다.

이 논문은 다중 에이전트 강화 학습을 시퀀스 모델링 관점에서 재해석하는 중요한 기여를 하며, 복잡한 다중 에이전트 환경에서 효과적인 의사결정을 가능하게 하는 강력한 도구로 MAT를 제시합니다. 연구 관련 자료는 논문의 프로젝트 페이지에서 제공됩니다.

실제 산업에서 다중 에이전트 강화학습

로봇공학

Figure 9. Multi-agent system의 로봇 스포츠[9]

다중 에이전트 강화 학습(MARL)은 로봇 공학 분야에서 실제로 사용되는 분야에서 점점 더 중요해지고 있습니다. 특히 여러 로봇이 복잡한 상호작용과 의사결정을 필요로 하는 영역에서 MARL의 적용이 확대되고 있습니다. 다음은 로봇 공학에서 MARL의 주요 적용 분야 및 특징입니다:

자율 주행 자동차: 자율 주행 자동차는 서로 다른 자동차들이 협력하여 도로 상황을 해석하고, 효과적으로 운행하는 데 MARL을 사용합니다[18-20]. 예를 들어, 교통 상황에서 차량들이 서로 정보를 공유하고, 충돌을 피하며 최적의 경로를 선택하는 데 이를 활용할 수 있습니다.

드론 군집: 여러 드론이 협력하여 복잡한 임무를 수행하는 경우에 MARL이 적용됩니다. 예를 들어, 대규모 환경 모니터링, 탐색 및 구조 작업에서 여러 드론이 효율적으로 협력하여 작업을 수행합니다.

로봇 스포츠: 로봇 축구와 같은 팀 기반 경기에서 로봇들이 전략적으로 상호 작용하고, 팀 목표를 달성하기 위해 협력합니다. 여기서 MARL은 로봇에게 팀 전략을 이해하고 적절한 행동을 선택하도록 돕습니다.

산업 로봇: 제조 공정에서 여러 로봇이 협력하여 조립, 포장, 운반 등의 작업을 수행합니다. MARL은 로봇들이 서로의 행동을 조정하고, 작업의 효율성을 높이는 데 사용됩니다.

이러한 사례들은 다중 에이전트 강화 학습이 로봇 공학에서 실제로 적용되는 방식을 보여줍니다. 이를 통해 로봇들이 복잡한 환경에서 효과적으로 협력하고, 고도의 작업을 수행할 수 있게 됩니다.

스마트 그리드 관리

다중 에이전트 강화 학습(MARL)은 스마트 그리드 관리 분야에서 다양한 방식으로 적용되고 있습니다[21]. MARL의 주요 적용 사례로는 중앙화된 훈련과 분산된 실행을 활용한 협력 학습, 값 기반과 정책 기반 MARL 방법론, 그리고 통신 학습이 있습니다. 이러한 방법들은 스마트 그리드 시스템 내에서 에너지 관리 및 분배, 효율적인 전력 사용, 그리고 에너지 수요 대응 등의 문제를 해결하는 데 사용됩니다. MARL을 통한 협력적 접근은 스마트 그리드의 비정상적인 환경을 효과적으로 관리하고, 에너지 시스템의 복잡성을 줄이는 데 도움이 됩니다

공급망 관리 및 최적화

재고 관리: 다수의 창고나 유통 센터에서 재고 수준을 관리하고, 제품의 흐름을 최적화하는 데 MARL이 사용됩니다[22]. 여기서 각 에이전트는 특정 창고나 센터를 대표하며, 전체 공급망의 효율성을 높이기 위해 협력합니다.

수요 예측 및 할당: MARL은 수요 예측 및 자원 할당 문제에 적용됩니다[23-25]. 각 에이전트는 다양한 시장이나 판매 지점의 수요를 예측하고, 이에 기반하여 공급을 효과적으로 할당합니다.

로지스틱스 및 배송 최적화: 배송 경로 및 스케줄링 최적화에 MARL이 활용됩니다[26, 27]. 이 경우, 각 에이전트는 배송 트럭이나 배송 경로를 관리하여, 전체 배송 네트워크의 효율을 높이는 데 기여합니다.

공급망 리스크 관리: MARL은 공급망 리스크를 평가하고 관리하는 데에도 사용됩니다[28]. 여기서 각 에이전트는 공급망의 다른 부분을 대표하며, 위험을 식별하고 대응 전략을 개발합니다.

이러한 사례들은 MARL이 공급망 관리 및 최적화의 다양한 측면에서 어떻게 효과적으로 사용될 수 있는지를 보여줍니다. MARL을 통해 공급망의 복잡한 상호작용을 관리하고, 전체 시스템의 성능을 향상시키는 데 기여합니다.

결론 및 다중 에이전트 강화학습의 challenge

다중 에이전트 강화 학습(MARL)은 인공 지능과 로봇 공학 분야에서 중요한 연구 주제로 자리 잡았습니다. 우리는 이 문서를 통해 MARL의 핵심 개념, 주요 연구 논문, 그리고 실제 산업에서의 적용 사례들을 살펴보았습니다. MARL은 협력, 경쟁, 그리고 복잡한 상호작용이 필요한 다양한 시나리오에서 효과적인 해결책을 제공합니다. 스마트 그리드 관리에서의 효율적 에너지 분배부터 공급망 최적화, 자율 주행 차량, 스마트 팩토리 운영에 이르기까지, MARL은 다양한 분야에서 그 가능성을 입증하고 있습니다.

비정상성(Non-Stationarity): MARL 환경에서는 한 에이전트의 행동이 전체 환경에 영향을 미치기 때문에, 환경이 비정상적으로 변할 수 있습니다. 이는 에이전트가 학습하는 동안 환경이 지속적으로 변화한다는 것을 의미하며, 학습 과정을 복잡하게 만듭니다.

통신 및 협력: 에이전트 간의 효과적인 통신과 협력 메커니즘 개발은 MARL의 중요한 측면입니다. 특히 대규모 에이전트 시스템에서는 통신 오버헤드를 최소화하면서 효율적인 협력 전략을 수립하는 것이 도전적입니다.

스케일링 문제: 많은 에이전트가 포함된 시스템에서의 학습과 의사결정은 계산적으로 매우 복잡합니다. 대규모 에이전트 네트워크의 관리 및 최적화는 여전히 중요한 연구 주제입니다.

실제 세계 적용의 복잡성: 시뮬레이션 환경에서 효과적인 MARL 알고리즘이 실제 세계에서도 동일한 성능을 발휘한다는 보장은 없습니다. 실제 환경의 복잡성과 불확실성을 고려하는 것이 필수적입니다.

안전성 및 윤리적 고려사항: 특히 안전이 중요한 응용 분야에서는 MARL 시스템의 예측 가능성과 안전성이 중요합니다. 또한, 자율적인 의사결정을 하는 시스템의 윤리적 측면도 중요한 고려사항입니다.

이러한 도전 과제들은 MARL의 발전을 위한 중요한 연구 분야를 제시하며, 이 분야의 연구자들에게 지속적인 탐구와 혁신의 기회를 제공합니다. MARL은 그 복잡성과 도전에도 불구하고, 인공 지능과 로봇 공학의 미래를 형성하는 데 중요한 역할을 할 것입니다.

Reference

[1] Richard S Sutton and Andrew G Barto. Reinforcement Learning: An Introduction. MIT Press, 2018. 1, 2.1, 2.1.1, 2.1.3, 4.1

[2] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. Nature, 521(7553):436–444, 2015. 1

[3] Ali Dorri, Salil S Kanhere, and Raja Jurdak. Multi-agent systems: A survey. IEEE Access, 6:28573–28593, 2018. 1, 1, 2.2.1

[4] Yaodong Yang and Jun Wang. An overview of multi-agent reinforcement learning from game theoretical perspective. preprint arXiv:2011.00583, 2020. 1, 1, 3.5

[5] Afshin Oroojlooy and Davood Hajinezhad. A review of cooperative multi-agent deep reinforcement learning.

Applied Intelligence, 53(11):13677–13722, 2023. 1, 1, 3.5

[6] Stefano V. Albrecht, Filippos Christianos, and Lukas Schäfer. Multi-Agent Reinforcement Learning: Foundations and Modern Approaches. MIT Press, 2023. 1, 1

[7] Sven Gronauer and Klaus Diepold. Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 55(2):895–943, 2022. 1, 2.2.3

[8] Changxi Zhu, Mehdi Dastani, and Shihan Wang. A survey of multi-agent reinforcement learning with communication. preprint arXiv:2203.08975, 2022. 1, 1, 2.2.3, 3.3.2

[9] Lei Yuan, Ziqian Zhang, Lihe Li, Cong Guan, Yang Yu. A Survey of Progress on Cooperative Multi-Agent Reinforcement Learning in Open Environment. preprint arXiv:2312.01058v1 [cs.MA], 2 Dec 2023.

[10] Littman, Michael L. "Markov games as a framework for multi-agent reinforcement learning." Machine learning proceedings 1994. Morgan Kaufmann, 1994. 157-163.

[11] Ardi Tampuu, Tambet Matiisen, Dorian Kodelja, Ilya Kuzovkin, Kristjan Korjus, Juhan Aru, Jaan Aru, Raul Vicente. Multiagent Cooperation and Competition with Deep Reinforcement Learning. preprint arXiv:1511.08779 [cs.AI], submitted on 27 Nov 2015.

[12] Sunehag, Peter, et al. "Value-decomposition networks for cooperative multi-agent learning." arXiv preprint arXiv:1706.05296 (2017).

[13] Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster, Shimon Whiteson. QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning. preprint arXiv:1803.11485v1, 2018. Camera-ready version, International Conference of Machine Learning 2018.

[14] Wilkins, Joshua John. "Multi-Agent Deep Reinforcement Learning: Revisiting MADDPG."

[15] Yu, Chao, et al. "The surprising effectiveness of ppo in cooperative multi-agent games." Advances in Neural Information Processing Systems 35 (2022): 24611-24624.

[16] Kuba, Jakub Grudzien, et al. "Trust region policy optimisation in multi-agent reinforcement learning." arXiv preprint arXiv:2109.11251 (2021).

[17] Wen, Muning, et al. "Multi-agent reinforcement learning is a sequence modeling problem." Advances in Neural Information Processing Systems 35 (2022): 16509-16521.

[18] Bhalla, Sushrut, Sriram Ganapathi Subramanian, and Mark Crowley. "Deep multi agent reinforcement learning for autonomous driving." Canadian Conference on Artificial Intelligence. Cham: Springer International Publishing, 2020.

[19] Wiering, Marco A. "Multi-agent reinforcement learning for traffic light control." Machine Learning: Proceedings of the Seventeenth International Conference (ICML'2000). 2000.

[20] Antonio, Guillen-Perez, and Cano Maria-Dolores. "Multi-agent deep reinforcement learning to manage connected autonomous vehicles at tomorrow's intersections." IEEE Transactions on Vehicular Technology 71.7 (2022): 7033-7043.

[21] Roesch, Martin, et al. "Smart grid for industry using multi-agent reinforcement learning." Applied Sciences 10.19 (2020): 6900.

[22] Krnjaic, Aleksandar, et al. "Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers." arXiv preprint arXiv:2212.11498 (2022).

[23] Fuji, Taiki, et al. "Deep multi-agent reinforcement learning using dnn-weight evolution to optimize supply chain performance." (2018).

[24] Jiang, Chengzhi, and Zhaohan Sheng. "Case-based reinforcement learning for dynamic inventory control in a multi-agent supply-chain system." Expert Systems with Applications 36.3 (2009): 6520-6526.

[25] Zhao, Gang, and Ruoying Sun. "Application of multi-agent reinforcement learning to supply chain ordering management." 2010 Sixth International Conference on Natural Computation. Vol. 7. IEEE, 2010.

[26] Zhang, Zhen, Dongqing Wang, and Junwei Gao. "Learning automata-based multiagent reinforcement learning for optimization of cooperative tasks." IEEE transactions on neural networks and learning systems 32.10 (2020): 4639-4652.

[27] Qie, Han, et al. "Joint optimization of multi-UAV target assignment and path planning based on multi-agent reinforcement learning." IEEE access 7 (2019): 146264-146272.

[28] Adel, Rehab, Hany Harb, and Ayman Elshenawy. "A multi-agent reinforcement learning risk management model for distributed agile software projects." 2021 Tenth International Conference on Intelligent Computing and Information Systems (ICICIS). IEEE, 2021.