Hacking
Reinforcement Learning
Guillem Duran Ballester
Guillemdb
@Miau_DB
Guillem Duran Ballester
Guillemdb
@Miau_DB
Hacking RL
Reinforcement Learning
Reinforcement Learning
Planning
Decisión inteligente
Dirección de máximo
Número de opciones futuras
Dado tu estado actual
Asígnales una puntuación
Hasta cierto punto en el futuro
Cuenta todos los posibles caminos que puedas tomar
¿Cómo conducir el kart?
Hacking RL
Reinforcement Learning
, end, info
Hackeando Rl con planning
Fractal AI vs. Monte Carlo
Hacking RL
Baloncesto Ninja con cohetes
FUEGO!
HP
Combustible
Gancho
Muelle
2 Grados de Libertad continuos
The Gameplay
Lleva aquí la roca
Recompensa
Engancha la roca fuera de aquí
No te estampes!
FMC Cone
Futuros del cohete
Nuevo objetivo
(Recoge/suelta roca)
Roca enganchada
Suelta Roca
Engancha roca
Demo time!
Hacking RL
Performance of the Swarm Wave
Resolver juegos de Atari es sencillo
También funciona en problemas más difíciles
Control swarms of agents
Multi objective environments
¡Gracias!
¡Échale un vistazo a nuestras frikadas!
Additional Material
The Algorithm
Random perturbation
Walkers & Reward density
Cloning Process
Cloning balances both densities
Choose the action that most walkers share
RL is training a DNN model
Which Envs are compromised?
If you run it on your laptop in 50 games
RL as a supervised task
Give love to papers!
Efficiency on MsPacman
SW vs. UCT & p-IW (Assuming 2 x M4.16xlarge)
When UCT(AlphaZero) finishes ⅔ of its first step,
SW has already beaten by 25% its final score
| UCT 150k | p-IW 150k | p-IW 0.5s | p-IW 32s |
Score | x1.25 | x0.91 | x1.85 | x1.21 |
Sampling Efficiency | x1260 | x1260 | x1848 | x29581 |
An example run:
Improving Alphazero
SW: Presenting an unfair benchmark
500$ per game running 1 instance for 6.5 days
Counting Paths vs. Trees
Traditional Planning
Swarm Wave