Aprendizaje Reforzado - Universidad de Alberta
Aprendizaje Reforzado - Universidad de Alberta
Programa Especializado
CURSO GRATUITO ONLINE
Viernes 15 de enero de 18.30 a 21.30

Invitación al grupo de Whatsapp de la comunidad de Aprendizaje Reforzado:
https://chat.whatsapp.com/CHzKNOUVlIu44EAc5tETkw

La especialización en aprendizaje reforzado consiste en 4 cursos que exploran el poder de los sistemas adaptativos de aprendizaje y de la Inteligencia Artificial (AI). Para poder desplegar el potencial completo de la Inteligencia Artificial se necesitan sistemas de aprendizaje adaptativo.

Aprenderás cómo las soluciones de aprendizaje reforzado (RL) posibilitan resolver problemas del mundo real a través de interacciones de prueba y error implementando una solución completa de RL de punta a punta. Al completar esta especialización podrás comprender los fundamentos de la inteligencia artificial probabilística moderna (AI) y estarás preparado para tomar cursos más avanzados y/o para aplicar herramientas e ideas para resolver problemas del mundo real.

Estos contenidos se enfocan en problemas de pequeña escala para entender los fundamentos del aprendizaje reforzado, enseñados por expertos de clase mundial de la Universidad de Alberta. Las herramientas aprendidas en esta especialización pueden aplicarse a desarrollo de juegos (AI), interacción con clientes (cómo un sitio
WEB interactúa con sus usuarios), asistentes inteligentes, sistemas de recomendación, cadenas de abastecimiento, control industrial, finanzas, tuberías de petróleo y gas, sistemas de control industrial y más.

ACTIVIDAD GRATUITA Y ABIERTA A TODA LA COMUNIDAD

Con el sistema de licencias rotativas que brinda Coursera a través del plan TEAM, podrás obtener tu certificación oficial de Coursera - Universidad de Alberta.

El Centro de Graduados de la Facultad de Ingeniería de la UBA también emitirá un certificado de aprobación.

TEMARIO

* Libro de aprendizaje reforzado

Objetivos de aprendizaje

Define reward
Understand the temporal nature of the bandit problem
Define k-armed bandit
Define action-values
Define action-value estimation methods
Define exploration and exploitation
Select actions greedily using an action-value function
Define online learning
Understand a simple online sample-average action-value estimation method
Define the general online update equation
Understand why we might use a constant stepsize in the case of non-stationarity
Define epsilon-greedy
Compare the short-term benefits of exploitation and the long-term benefits of exploration
Understand optimistic initial values
Describe the benefits of optimistic initial values for early exploration
Explain the criticisms of optimistic initial values
Describe the upper confidence bound action selection method
Define optimism in the face of uncertainty


The K-Armed Bandit Problem

Module 1 Learning Objectives
Let's play a game!
Sequential Decision Making with Evaluative Feedback
Compare bandits to supervised learning
What to Learn? Estimating Action Values
Learning Action Values
What's underneath?
Estimating Action Values Incrementally
Exploration vs. Exploitation Tradeoff
What is the trade-off?
Optimistic Initial Values
Upper-Confidence Bound (UCB) Action Selection
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning
Summary

Cuestionario práctico: Sequential Decision-Making

Bandits and Exploration/Exploitation
Email address *
Apellido *
Nombres *
Celular (Solo números) *
¿Es Graduado FIUBA? *
Localidad de residencia *
¿Te interesa participar en la cooperativa de trabajo?
Clear selection
Otra casilla de correo
Teléfono Particular
Carrera - Facultad - Universidad (En curso SI/NO)
Año de Graduación
Institución Relacionada
Posición que ocupa
Comentarios y Sugerencias
Submit
Never submit passwords through Google Forms.
This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy