Competencias de un data scientist
12/05/2017La ciencia de los datos (o data science) está integrada por profesionales multidisciplinares que requieren de unos conocimientos profundos en distintas áreas.
A continuación enumeramos algunas de las principales competencias relacionadas con un cientíco de datos:
- Álgebra, especialmente en conocimientos de cálculo de matrices, geometría de difusión y temas similares en matemáticas aplicadas.
- Estadística, incluyendo temas como por ejemplo la regresión lineal, regresión multivariable y correlación entre variables.
- Programación a nivel avanzado. Es necesario dominar los conceptos teóricos de programación estructurada i orientada al objeto, así como los conceptos relacionados de complejidad computacional. Los lenguajes más empleados, actualmente, son Python y R. También es importante conocer el lenguaje de scripting (bash) de los sistemas Unix/Linux.
- Conocimientos de diseño y uso de bases de datos relacionales. Incluye temas de diseño, como por ejemplo indexación, normalización, constraints o diseño físico; y también conceptos de querying y optimización de consultas. Recientemente también se deben incorporar conocimientos de diseño y uso de bases de datos NoSQL y NewSQL.
- Conocimientos de sistemas distribuidos (distributed computing y High Performance Computing, HPC), que abarcan conceptos relacionados con los modelos y problemas de la computación distribuida y el almacenamiento de datos distribuidos.
- Conocimientos profundo de los modelos y algoritmos de minería de datos (data mining) y aprendizaje automático (machine learning). En este campo se incluyen algoritmos supervisados (com por ejemplo, Árboles de desición, Redes neuronales, métodos probabilísticos, SVM, etc) y no supervisados (agrupamiento jerárquico o k-means) para problemas de clasificación, regresión o clustering.
- Conocer las distintas tipologías y el ciclo de vida de los datos es, también, una competencia muy relevante en este tipo de profesionales. Aquí se incluyen competencias relacionadas con la captura de datos (IoT, web semántica, open y linked data, entre muchos otros), etiquetado mediante meta-datos o procesos de extracción, transformación y carga (ETL, Extraction, Transform and Load). En conjunto, se conoce como modelado de datos o data modeling.
- Técnicas y herramientas de visualization de datos, que permiten identificar patrones de forma visual o presentar los resultados de una forma clara y concisa. Algunos de las herramientas más relevantes son Tableau, D3.js o Processing.
- La experiència i conocimiento del dominio (domain expertise) es, sin duda, una parte clave en el proceso de análisis de datos. Este conocimiento permite entender los datos en toda su profundidad y realizarse las preguntas adecuadas y relevantes.
- La gestión del proyecto (project management), como en cualquier otro proyecto, ocupa también una parte destacada de los conocimientos y competencias que debe tener un data scientist.
- Finalmente, pero no por ello menos importante, un científico de datos debe tener los conocimientos éticos y de privacidad necesarios para poder trabajar de forma adecuada con todos los datos que manipula durante la ejecución de un proyecto.