Resultados del entrenamiento del Predictor Climático basado en Deep Learning

Basado en la Estación Meteorológica Puente Romano de Calamocha. 

Finalmente he terminado de diseñar el predictor climático por redes neuronales, cuyos principios básicos de funcionamiento mostraba en el artículo “Creación de un Predictor Climático basado en Deep Learning”.

En el artículo mencionado se puede ver cómo los valores de cada una de las 56 columnas de datos de las imágenes utilizadas en el entrenamiento son valores de 1 solo día, representada la información de 2 en 2 días.

En la parte inferior de la imagen se representan las precipitaciones y en la parte superior las temperaturas mínimas y máximas (con un límite por cierto de 46ºC que establecí en su día).

Con el procedimiento de estructuración de la información que utilizo se consiguen 14 diferentes imágenes para cada mes de información meteorológica registrada (que en cierto modo convertimos en información climática cuando transformamos esta información diaria a medias de 28 días referentes a cada una de las 56 columnas, adicionando los valores de los 28 días posteriores).

Los 8 modelos de redes neuronales convolucionales (CNN; Convolutional Neural Networks) que he creado se han podido entrenar cada uno con 1’800 imágenes diferentes (pertenecientes a solo 128 meses).

Los diferentes modelos entrenados utilizando técnicas de Machine Learning son los siguientes:

1.       Para la predicción de la Desviación estándar de la Temperatura.

2.       Para la predicción de la Temperatura Mínima.

3.       Para la predicción de la Temperatura Media.

4.       Para la predicción de la Temperatura Máxima.

5.       Para la predicción de la TAWRAT.

6.       Para la predicción de las Precipitaciones.

7.       Para la predicción de la Desviación estándar de la TAWRAT (CDC AMPHI Index).

8.       Para la predicción de la Desviación estándar de las Precipitaciones.

En cada modelo se ha realizado una clasificación en 7 categorías diferentes según percentiles de frecuencia (-3K%,-2K%,-1K%,+0K%,+1K%,+2K% sobre la media dinámica (total hasta el día de hoy);  los valores porcentuales de los percentiles en cambio se quedan fijados para el futuro, para ser constantes y concordantes con resultados previos que obtengamos [val.%percentiles@29/08/2022]), de cuya combinación de las 7 probabilidades obtenidas en el resultado de la predicción con la red neuronal extrapolamos el resultado exacto más probable.
Si una de las 7 categorías obtuviera una elevada probabilidad también podemos optar por guiarnos por la naturaleza caótica del clima y estimar que el resultado real no es el promedio entre las probabilidades de cada clasificación sino la clasificación con el mayor porcentaje de probabilidad.
Esto es problemático ya que estos valores para cada categoría los imponemos a priori. Por lo que debería hacerse por máximas densidades aisladas de probabilidad:

En el ejemplo expuesto, como la densidad aislada de la izquierda es más importante que la de la derecha, se calcularía la predicción en base solamente a las dos áreas marcadas en verde (pero también podemos decir que hay cierta probabilidad β de que se dé el caso [+3], de la región de la derecha).
Una manera sencilla de hacer esto con el set de datos discreto de que dispondremos será establecer un umbral y tomar todos aquellos valores superiores a dicho umbral. Si estos son limítrofes, hacemos la media entre ellos y lo consideramos un único resultado. Si no son limítrofes (o son limítrofes pero rompen la progresión lineal marcando un nuevo máximo), entonces lo consideramos otro resultado posible por sí mismo. Luego, dependiendo de la probabilidad acumulada de cada uno de dichos resultados podemos estimar cómo de probable es que ocurra cada uno de ellos.
Si fuera incierto qué área es más relevante (si todas ellas están por debajo del umbral) podremos optar por realizar el promedio de todas las áreas.
Esta metodología la empleamos porque deberían obtenerse de esta manera unos mejores resultados, como he mencionado, debido a la naturaleza caótica del clima.

A continuación mostraré los resultados obtenidos en el entrenamiento de los modelos utilizando unos sets de 90 imágenes a modo de validación independientes del entrenamiento, que nos permitirán ver qué tal funcionan realmente.
Los datos utilizados en la validación corresponden al período de Enero a Julio de 2022, mientras que el entrenamiento se realiza con los datos recogidos hasta Enero de 2022. Teniendo en cuenta lo anómalo que ha sido el año, obtener un porcentaje cercano al 30% en la validación podría considerarse como un buen resultado realmente.
La probabilidad de acierto por azar entre las 7 categorías es de un 14.3%. De esta manera, cuanto más superior sea la tasa de acierto en la validación a este porcentaje, mayor precisión podrá obtenerse en las predicciones.

Inicialmente, realizando un entrenamiento al uso, se han obtenido unas precisiones en general, de entre un 15.6% y un 30%.

En consecuencia a estos malos resultados (de un 1.3% a un 15.7% más precisos que una elección al azar) se ha ido ajustando el método de entrenamiento, resultando lo más adecuado utilizar como unidades de activación de las redes neuronales columnas de 2 píxeles de imagen, lo que evidentemente ayuda a diferenciar cambios en temperaturas y precipitaciones en la imagen pixelada. Por otro lado se ha visto que las capas totalmente conectadas grandes empeoraban también los resultados.
Es curioso que los mejores resultados en la validación se obtienen principalmente en las primeras etapas de aprendizaje, independientemente de la tasa de aprendizaje, antes de que la red neuronal tenga una precisión teórica superior al 50%. Pero hay alguna excepción, como la Desviación estándar de las Precipitaciones, donde la mejor precisión en la validación puede suceder en cualquier momento a lo largo del entrenamiento.

Resultados del modelo de Desviación estándar de la Temperatura ✅

Se obtiene una precisión en la validación del 35.7%, un 21.4% más que de realizar una selección al azar. Este valor no está nada mal, y es mucho mejor que el que se obtiene haciendo un entrenamiento al uso (30%). Lo más adecuado habría sido alcanzar un valor de en torno al 40%, pero así también se deberían poder obtener buenos resultados.

Resultados del modelo de Temperatura Mínima ❌

Se obtiene una precisión en la validación del 26.2%, un 11.9% más que de realizar una selección al azar. Son unos resultados bastante cuestionables, pero mucho mejores que los obtenidos en un entrenamiento convencional, de en torno a un 15% de precisión.

Resultados del modelo de Temperatura Media ❌

Se obtiene una precisión en la validación del 27.4%, un 13.1% más que de realizar una selección al azar. Son unos resultados más o menos aceptables.

Resultados del modelo de TAWRAT ✅

Se obtiene una precisión en la validación del 32.1%, un 17.8% más que de realizar una selección al azar. Son unos resultados bastante buenos.

Resultados del modelo de Precipitaciones ✅

Se obtiene una precisión en la validación del 33.3%, un 19.0% más que de realizar una selección al azar. Son también unos resultados bastante buenos.

Resultados del modelo de Desviación estándar de la TAWRAT ❌

Se obtiene una precisión en la validación del 27.4%, un 13.1% más que de realizar una selección al azar. Son unos resultados aceptables, si bien no parecen lo suficientemente buenos para realizar predicciones.

Resultados del modelo de Desv. estándar de las Precipitaciones ❌

Se obtiene una precisión en la validación del 25.0%, un 10.7% más que de realizar una selección al azar. Son unos resultados deficientes, pero lo que se pretende predecir tiene una naturaleza “abstracta” por así decirlo, se trata de medir una característica caótica sobre otra característica que ya suele tener un alto grado de caoticidad, así que quizá no está mal el resultado, o bien el resultado en el entrenamiento se ha obtenido por “puro azar”.
Sea como sea, no consideraremos válido este modelo, al igual que ocurre con los modelos de Temperatura Mínima y Media, y de Desviación estándar de la TAWRAT.

 

En vista de los resultados del entrenamiento de los modelos, basaremos las predicciones de temperatura en la temperatura Máxima (máxima media) y en la TAWRAT, lo que nos facilitará mucho los cálculos ya que no entrarán en conflicto predicciones basadas en Temperatura Mínima-Media-Máxima-TAWRAT, que por supuesto sugerirían diferentes resultados.

Los resultados en el entrenamiento realizado de los modelos nos permitirán predecir la Temperatura, su desviación, la TAWRAT y las precipitaciones.

Publicaré a continuación la predicción para el próximo mes de Septiembre (para el período del 1 al 28 de Septiembre en realidad), para la estación meteorológica del Puente Romano de Calamocha.

 

Predicción para el mes de Septiembre de 2022 (días 1 a 28) basada en modelos entrenados con Inteligencia Artificial

Probabilidad obtenida para cada posible resultado de la predicción

Desviación estándar de las Temperaturas (ºC)

Temperatura Máxima Media (ºC)

TAWRAT (%)

Precipitaciones (ppm)

00.86 %:  <7.32

00.04 %:  <20.73

00.10 %:  <2.19

17.14 %:  <3.96

19.30 %:  7.32-7.85

01.88 %:  20.73-21.92

14.54 %:  2.19-2.4

14.72 %:  3.96-7.69

16.41 %:  7.85-8.21

25.05 %:  21.92-22.86

19.72 %:  2.4-2.56

11.69 %:  7.69-11.97

21.00 %:  8.21-8.54

08.12 %:  22.86-23.82

30.21 %:  2.56-2.67

27.59 %:  11.97-15.78

16.68 %:  8.54-8.93

27.37 %:  23.82-24.65

18.13 %:  2.67-2.81

07.38 %:  15.78-21.23

21.47 %:  8.93-9.42

23.75 %:  24.65-25.79

16.12 %:  2.81-3.04

10.76 %:  21.23-28.95

04.28 %:  >9.42

13.80 %:  >25.79

01.18 %:  >3.04

10.72 %:  >28.95

Media:

8.40 ºC

Media:

23.27 ºC

Media:

2.63%

Media:

15.57ppm

Lo más probable será una temperatura máxima cercana a 22.55ºC o bien de en torno a 25.22ºC. Será casi 2 veces más probable este último caso, 2ºC superior a la media.

La temperatura mínima, extraída por medio de la TAWRAT, sería de 10.21ºC. La media para la Tª mínima es 8.06ºC.

La TAWRAT tendrá un valor cercano a 2.6%, próximo a la media.

Por último, las precipitaciones serán o bien nulas / menores de 5ppm (~20% de probabilidad), o rondarán los 12.7ppm (~35% de probabilidad), bastante poco, siendo la media 15.6ppm.

Dada la climatología actual, resulta muy realista y parece que la red neuronal ha logrado conocer realmente los patrones que modelan la climatología. Los modelos estadísticos que usaba anteriormente seguramente habrían predecido más precipitaciones por el simple hecho de que ya lleva mucho tiempo sin llover, pero la IA que he entrenado se atreve a decir que todavía va a seguir habiendo sequía...
Habrá que ver que tan buenos resultados aporta esta predicción. Por lo menos con las temperaturas parece estar en lo cierto, ya que ya llevamos una larga racha de temperaturas por encima de la media.

 

Análisis elaborado por Luis Manuel Muñoz Pérez

4 de Septiembre de 2022 

Contacto -- noticiarioclimatico.blogspot.com

Comentarios