Premio al Artículo Científico del Trimestre de la ETSI: octubre-diciembre 2020
Los profesores de la Escuela Técnica Superior de Ingeniería Samuel Yanes, Daniel Gutiérrez, Sergio L. Toral, reciben el Premio al Artículo Científico del Trimestre de la ETSI: octubre-diciembre 2020 por el trabajo “A Deep Reinforcement Learning Approach for the Patrolling Problem of Water Resources Through Autonomous Surface Vehicles: The Ypacarai Lake Case", IEEE Access, vol. 8, noviembre de 2020. https://doi.org/10.1109/ACCESS.2020.3036938
Los Vehículos Autónomos de Superficie son sistemas robóticos útiles para la monitorización ambiental continua y para la exploración en entornos hidrológicos. Permiten, a un bajo coste, el patrullaje y la supervisión en situaciones de riesgo y contaminación como ocurre en el Lago Ypacaraí, donde florecimientos de cianobacterias amenazan a la flora y fauna local.
En este artículo se aborda el problema del patrullaje homogéneo y no-homogéneo del Lago Ypacaraí, modelado como un proceso de decisión markoviano de gran dimensionalidad y complejidad. En este problema, es necesario que un vehículo de superficie, equipado con sensores de calidad del agua, visite de las distintas zonas del lago siguiendo un criterio de redundancia de cobertura y de interés no-homogéneo (en una generalización más compleja aún del problema). En este último caso, se define un mapa de interés que se corresponde con un criterio de expertos sobre focos de contaminación existentes en el lago.
Para resolver este problema de decisión secuencial, se propone el uso de técnicas de Aprendizaje por refuerzo profundo (Deep Q-Learning), que evoluciona las técnicas de Aprendizaje por Refuerzo mediante el uso de redes neuronales convolucionales (CNNs) para interpretar el estado del mapa y de la contaminación para estimar las acciones óptimas en cada instante. Por ensayo y error, este algoritmo es capaz de sintetizar una política de movimiento cuasi-óptima a lo largo de su entrenamiento que maximice una función de recompensa calibrada para este caso particular. Esta función de recompensa modela lo bien o mal que se considera cada movimiento realizado por el agente. Mediante actualizaciones de los pesos de la red neuronal, el algoritmo Deep Q-Learning es capaz de estimar la recompensa futura estimada en cada estado y para cada acción posible. Una vez termina el entrenamiento, la función Q devuelve la acción mejor considerada a lo largo de un camino y sujeta a los datos recogidos por ensayo-error en el entrenamiento.
Tras una hiperparametrización del algoritmo y la calibración de la función de recompensa que modula los objetivos a conseguir por el robot de superficie, el algoritmo devuelve resultados muy superiores a los obtenidos por técnicas basadas en topologías (Lawn-Mower patrolling), estocásticas (random search) u otras técnicas de aprendizaje por refuerzo (REINFORCE). Finalmente, el tiempo medio de cobertura mejora, en promedio, un 64% respecto de dichas técnicas, con una estabilidad y convergencia garantizadas en ambos casos de aplicación (homogéneo y no-homogéneo).