Estamos en un momento del tiempo, en el cual muchos dicen que “la data es el nuevo petroleo” y, dado que la información es poder, para evitar generar aún más desigualdad entre las clases, es necesario que la población pueda entenderla, servirse de ella y, sobre todo, acceder a la misma.
Tal como sucede en el mundo físico, en el ámbito digital algunos datos están al alcance de todos y, otros se encuentran más escondidos y son difíciles de hallar. Curiosamente, al igual que el petroleo y sus derivados, mucha de esa data que se encuentra con dificultad, es la que más valor tiene!
Al interactuar con ChatGPT y preguntarle acerca de laimportancia de la Data, la respuesta no se hizo esperar:
La data es muy importante en muchas áreas, ya que nos permite obtener información valiosa y tomar decisiones informadas. En el mundo empresarial, la data puede ayudar a las empresas a entender mejor a sus clientes y a mejorar sus productos o servicios. En la investigación científica, la data es esencial para el análisis y la interpretación de los resultados. En el mundo de la tecnología, la data es un componente clave para el aprendizaje automático y la inteligencia artificial. En general, la data es un recurso valioso para tomar decisiones informadas y para entender mejor el mundo que nos rodea.
A partir de lo anterior se puede inferir la importancia de la data pero, dada la escala en la cual es creada, generalmente, suele ser difícil desenmarañar o clarificar la información que hay detrás, para poder entenderla y saber qué hacer con ella, cosa que no puede efectuar cualquier “aparecido” o “pintado en la pared”, toda vez que, se necesitan científicos familiarizados con procesos de análisis de miles de millones de datos que, puedan ayudar eliminar el ruido (fragmentos inservibles) y hasta el maquillaje que algunos expertos a veces le intentan adicionar. De esta manera, se puede llegar a lo que realmente es esencial.
Para los que aún tienen dudas sobre la importancia de la data en campos como el aprendizaje de máquina, le hicimos la pregunta a ChatGPT y la respuesta no se hizo esperar:
La data es muy importante en el aprendizaje automático y la inteligencia artificial, ya que es el combustible que alimenta a los modelos de aprendizaje automático. Los modelos de aprendizaje automático utilizan datos para “entrenar” o “ajustar” sus algoritmos y poder hacer predicciones precisas o realizar tareas específicas. Sin datos suficientes y de alta calidad, es difícil entrenar modelos de aprendizaje automático efectivos. Por lo tanto, la adquisición y la limpieza de datos de alta calidad son cruciales para el éxito de cualquier proyecto de aprendizaje automático.
Vale la pena resaltar que no toda la data es igual, existen diferentes tipos de datos con especial relevancia a nivel del aprendizaje de máquina, tal como lo resalta ChatGPT:
Existen dos tipos principales de datos utilizados en el aprendizaje automático y la inteligencia artificial: datos de entrenamiento y datos de prueba.
Los datos de entrenamiento son utilizados para “entrenar” o “ajustar” un modelo de aprendizaje automático. El modelo analiza estos datos y utiliza lo que aprende para hacer predicciones o realizar tareas específicas.
Los datos de prueba son utilizados para evaluar el rendimiento del modelo una vez que ha sido entrenado. El modelo es evaluado en base a su capacidad para hacer predicciones precisas con los datos de prueba, y esto nos permite medir cuán bien está funcionando el modelo.
Además de estos dos tipos de datos, también pueden utilizarse datos adicionales para validar el modelo o para realizar ajustes finales antes de su implementación. Por ejemplo, pueden utilizarse datos de validación para evaluar el rendimiento del modelo durante el proceso de entrenamiento, o pueden utilizarse datos de producción para hacer ajustes finales al modelo antes de su implementación en un entorno de producción
En este punto vale la pena aclarar que, existen diferentes tipos de Machine Learning con casos de uso diferentes y es difícil afirmar que uno es mejor que el otro pero, vale la pena dar un paseo rápido por el camino de los métodos de aprendizaje a nivel de la Inteligencia Artificial.
Finalmente, con el fin de entender un poco más a fondo la importancia de la data actualmente, hablamos con Ricardo Cheida, el experto de Fico que, muy amablemente, nos explicó los detalles por medio de diversos ejemplos, desde los más básicos hasta unos complejos como es el caso de las ciudades inteligentes!