La ciencia de datos es un campo interdisciplinar que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados. En un mundo en el que el volumen de datos que se maneja es cada vez mayor, los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el pasado, como son modelos, ecuaciones, algoritmos, así como evaluación e interpretación de resultados.
El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:
- Extraer datos, independientemente de la fuente y de su volumen.
- Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
- Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.
- Diseñar experimentos adicionales en caso de ser necesario.
- Crear visualizaciones gráficas de los datos relevantes de la investigación
Dentro de los lenguajes de programación para el trabajo con datos, existen diferentes opciones. En el ISM hemos apostado por la formación en los dos más utilizados en el campo científico y de los Sistemas de Información Geográfica, como son R y Python.
R es un software libre que permite realizar análisis estadísticos, proporcionando un amplio abanico de herramientas (modelos lineales y no lineales, test estadísticos, análisis de series temporales, algoritmos de clasificación y agrupamiento, etc.), una representación gráfica de alta calidad y permite realizar cálculos numéricos y elaboración de mapas con la información seleccionada.
R es además un lenguaje de programación Open Source, lo que permite que los usuarios lo desarrollen definiendo sus propias funciones. Desde sus inicios una extensa comunidad de usuarios y programadores de alto nivel contribuye a desarrollar nuevas funciones, paquetes y actualizaciones que son rápidamente accesibles a todo público de forma libre y gratuita.
En el curso «Introducción al manejo y análisis de datos ambientales en R» aprenderemos a manejar R y RStudio desde nivel 0 de uso de la herramienta y a visualizar, analizar, calcular, representar cartográficamente y comunicar datos de carácter ambiental de manera eficaz. El dominio de R nos proporciona competencias para resolver problemas estadísticos de gran complejidad y por ello es el más utilizado en el campo científico. Para usos más avanzados, el curso Visualización de Datos Ambientales en R: ggplot2, nos enseña como realizar gráficos de alta calidad y comunicar los datos de manera efectiva con el paquete ggplot2 de Tidyverse.
Python es un lenguaje de programación de código abierto, que destaca por la legibilidad de su código y por ser interpretado, es decir, que permite analizar y ejecutar otros programas.
Hemos puesto en marcha el curso «Programación en QGIS con Python (PyQGIS)» en el que se aprenderán las nociones necesarias para iniciarse a la programación con Python aplicada a uno de los programas de GIS de software libre más importantes, QGIS. Este curso está dirigido a personas usuarias del software libre QGIS, y que quieran avanzar en su manejo profesional aprendiendo las bases de programación en Python para la automatización de tareas, liberando así tiempo a los técnicos para el análisis de resultados. Una vez desarrollado el curso, serán capaces de pensar en los modelos y algoritmos necesarios para desarrollar un programa utilizando este lenguaje.
En nuestro catálogo formativo ya contábamos con el curso «PostGIS: Gestión de Bases Espaciales», basado en el lenguaje SQL. Dentro del mundo del software libre PostGre SQL y su extensión espacial PostGIS se han convertido en el sistema gestor de bases de datos (SGDB) más extensamente utilizado a nivel mundial, siendo empleado en multitud de proyectos y aplicaciones SIG tanto de escritorio como web.
También hemos incorporado un nuevo software a nuestro catálogo de ciencia de datos, se trata de Power BI, es una herramienta de análisis y visualización de datos de Microsoft, que permite analizar datos de forma interactiva, rápida y eficiente, puede conectarse con otras herramientas como Excel, o Teams y facilita la toma de decisiones basadas en información precisa y actualizada.
De esta forma seguimos ampliando nuestra oferta formativa en campos novedosos que ayudan a los profesionales del Medio Ambiente a mejorar sus perfiles.