1 of 32

CC5218 Perspectivas y paradigmas en Inteligencia Artificial�Aprendizaje por refuerzo

Hugging Face. Deep Reinforcement Learning Course, Capítulos 1 y 2

Slides hechas con NotebookLM

2 of 32

3 of 32

4 of 32

5 of 32

6 of 32

7 of 32

8 of 32

9 of 32

10 of 32

11 of 32

12 of 32

13 of 32

14 of 32

15 of 32

16 of 32

17 of 32

  • You’re a mouse in this tiny maze. You always start at the same starting point.
  • The goal is to eat the big pile of cheese at the bottom right-hand corner and avoid the poison. After all, who doesn’t like cheese?
  • The episode ends if we eat the poison, eat the big pile of cheese or if we spent more than five steps.
  • The learning rate is 0.1
  • The gamma (discount rate) is 0.99

Q-Learning Ejemplo

18 of 32

Q-Learning Ejemplo

La función de recompensa es la siguiente:

+0: Ir a un estado en el que no hay queso.

+1: Ir a un estado en el que hay un poco de queso.

+10: Ir al estado en el que hay un montón de queso.

-10: Ir al estado en el que hay veneno y, por lo tanto, morir.

+0 si tardamos más de cinco pasos.

19 of 32

Paso 1: Inicializamos la tabla Q

Al principio nuestra tabla Q no sirve para nada;

tenemos que entrenar nuestra función Q utilizando el algoritmo de Q-Learning.

Hagámoslo durante dos pasos de entrenamiento:

Partamos por el paso de entrenamiento 1.

20 of 32

Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy

Como épsilon es grande = 1,0, realizo una acción aleatoria; en este caso, voy hacia la derecha.

21 of 32

Paso 3: Realizo la acción At y obtengo Rt+1 y St+1

Al ir hacia la derecha, consigo un trozo de queso pequeño, así que Rt+1 = 1, y paso a un nuevo estado.

22 of 32

Paso 4: Actualizar Q(St, At)

Ahora podemos actualizar Q(St,At) utilizando nuestra fórmula.

Y ahora hacemos todo de nuevo en una segunda iteración.

23 of 32

Iteración 2, Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy

Vuelvo a elegir una acción al azar, ya que el valor de epsilon es alto, 0,99 (lo reducimos ligeramente porque, a medida que avanza el entrenamiento, queremos cada vez menos exploración).

Elegimos la acción de bajar que me lleva al veneno.

24 of 32

Iteración 2, Paso 3: Realizo la acción At y obtengo Rt+1 y St+1

Como entro en estado de envenenamiento, obtengo Rt+1 = −10 y muero.

25 of 32

Iteración 2, Paso 4: Actualizar Q(St, At)

Como hemos muerto, empezamos un nuevo episodio. Pero lo que vemos aquí es que, tras dos pasos de exploración, mi agente se ha vuelto más inteligente.

A medida que sigamos explorando y explotando el entorno y actualizando los valores Q utilizando el objetivo TD, la tabla Q nos proporcionará aproximaciones cada vez mejores. Y así, al final del entrenamiento, obtendremos una estimación de la función Q óptima.

26 of 32

27 of 32

28 of 32

29 of 32

30 of 32

Síntesis

31 of 32

32 of 32