Smart Car
ML-Agents
Simone Scermino (0522501831)
Ciro Vitale (0522501759)
01
Table of Contents
02
03
04
05
06
07
08
Idea & Obiettivi
Problema
Reinforcement Learning
Tecnologie Utilizzate
Policy
Risultati
Sviluppi Futuri
Thanks
01
Problema
Problema
Analisi dei casi di:
Problema Trattato: Smart Mobility, guida sicura, rispetto della segnaletica orizzontale e verticale.
02
Idea & Obiettivi
Idea
Simulazione in Unity dello scenario di guida per studiare soluzioni di Smart Mobility.
L’uso di ML-Agents consentirà un'implementazione efficace, fornendo sensori avanzati e una logica di training mirata.
Obiettivi
Focus: creazione di un ambiente dinamico in cui l’agente riesca a imparare e reagire a determinati scenari.
Frammentazione dell’obiettivo nei seguenti task:
03
Reinforcement Learning
Reinforcement Learning (RL)
Reinforcement Learning (RL): Apprendimento automatico avente come obiettivo la realizzazione di agenti autonomi, in grado di prendere decisioni per raggiungere obiettivi specifici attraverso l'interazione con l'ambiente.
L’addestramento si basa sull'interazione dell'agente con l'ambiente, le osservazioni prelevate mediante sensori, le decisioni prese e la ricompensa misurata in base all’obiettivo che si vuole conseguire.
La policy (mappatura osservazioni - azioni) appresa in fase di training cerca di massimizzare le ricompense cumulative, minimizzando la loss function. Viene utilizzata in fase di inferenza per determinare le azioni ottimali in nuovi contesti.
Azione
Stato
Reward
Agente
Ambiente
RL in Unity
ML-Agents: Toolkit open-source che permette l’uso di scenari Unity per l’addestramento degli agenti.
Contiene la scena Unity e gli agenti (ai quali dà modo di osservare, agire e imparare).
Collega l’ambiente di cui fa parte all’API di Python.
Interfaccia Python di basso livello per gestire l’ambiente. Fa parte del package “mlagents_envs” e opera durante il training.
Algoritmi che abilitano il training. �Fa parte del package mlagents.
Componente Unity che gestisce osservazioni/azioni di un GameObject
Attributi specifici dell’agente (numero di azioni, tipo di valori, …)
04
Tecnologie Utilizzate
Tecnologie Utilizzate
ML-Agents
Unity
Tensorboard
Scena
Crossing
Checkpoint
Track: Roadline & Wall
TrafficLight: Zone, Line & Light
Scena
Asset Packs:
Prefab ad hoc
Il tracciato in inferenza è stato modificato per testare la capacità di generalizzazione dell'agente.
Agente
Ray Perception Sensor 3D
MLAgents Script
Decision Requester
Behavior Parameters
Demonstration Record
Agente - Osservazioni & Azioni
Azioni:
Osservazioni:
05
Policy
config.yaml
Hyperparameters
Proximal Policy Optimization (PPO)
Network Settings
Reward Signals
Time Horizon
Max Steps
Summary Frequence
Checkpoint Interval
Rewards / Penalty
Environment
Training Flow
Agent
Cambiamento di stato
Azione effettuata
L’agente modifica il proprio comportamento per migliorare la ricompensa
Rewards / Penalty
Il discriminator confronta osservazioni/azioni dell'agente con la dimostrazione e lo premia per la similarità con essa
Observations, Actions
Demonstration, Observations, Actions
Discriminator
Training
06
Risultati
Risultati
Distribuzioni Ricompense
Ricompensa Cumulativa
Lunghezza Episodi
Loss associata a Imitazione
Loss associata a Curiosità
Comparazione
Modifiche e test effettuati nei vari training:
Inference
07
Sviluppi Futuri
Sviluppi Futuri
THANKS
Simone Scermino (0522501831)
Ciro Vitale (0522501759)
CREDITS: This presentation template was created by Slidesgo, including icons by Flaticon, infographics & images by Freepik and illustrations by Stories.
Please keep this slide for attribution.
CREDITS: This presentation template was created by Slidesgo, including icons by Flaticon, infographics & images by Freepik and illustrations by Stories