¿Cómo son los científicos de datos? (I)

19 septiembre, 2016

Nuestro colega (y sin embargo amigo) Josep Curto lo decía hace algunos posts: «Big Data trata de dominar el dato para generar valor». Inteligencia de negocio y Big Data tienen que ver con las tecnologías de almacenamiento y tratamiento de los datos, con técnicas y herramientas de análisis (lo que ya se llama la Ciencia de los Datos, ¿o es sólo estadística?), con un contexto organizativo que usa la información para tomar decisiones (empresas orientadas al dato) y con varias clases de profesionales: los ingenieros o tecnólogos de sistemas de datos, los científicos y analistas de datos, y los directivos y usuarios que trabajan necesariamente con datos. ¿Cómo son los profesionales orientados a los datos?

The_Data_Lifecycle

Gráfica: Mushonz, CC BY-SA 4.0

Entre todos éstos, el mayor interés está ahora en los «científicos de datos», los más buscados, los más difíciles de encontrar y los que más ganan.

Los científicos de datos manejan el ciclo de gestión de los datos:

-entienden y ayudan a definir el problema y las necesidades de datos para resolverlo;

-buscan los datos y los preparan para su procesamiento;

-hacen el análisis mediante modelos y algoritmos y crean o mejoran los algoritmos existentes;

-presentan los datos de forma atractiva, comprensible y que permita tomar decisiones;

-y, finalmente, los almacenan y archivan de forma que permita su re-utilización.

Los científicos de datos tienen que conocer e interactuar con los ingenieros informáticos que gestionan los almacenes de datos y el resto de las tecnologías de datos disponibles en la empresa. Los ingenieros proporcionan o ayudan al científico en el acceso a grandes conjuntos de datos y, cuando el científico ha hecho su trabajo, son capaces de escalar industrialmente las soluciones creadas. También tienen que trabajar con los usuarios de negocio, para entender y definir el problema, descubrir las hipótesis y respuestas y ayudarles a entender lo que los datos esconden, lo que se puede inferir y lo que no.

Los mayores demandantes son empresas muy grandes de internet (Amazon, Microsoft o Google son los mayores empleadores), operadores de telecomunicaciones y empresas de productos y servicios de gran consumo. En los últimos años, se han creado y sofisticado empresas de servicios de datos, a los que las empresas de cliente final encargan este tipo de trabajo. También ha crecido la demanda en empresas de consultoría.

Los científicos de datos hacen el análisis más sofisticado que el resto del personal de gestión de datos no sabe hacer; y reciben encargos ad-hoc dentro de un proyecto de datos, frecuentemente, al inicio de esta clase de proyectos (pruebas piloto, diseño y ensayo de algoritmos nuevos). O sea, normalmente, deberían ser un grupo de élite. Sin embargo, en la mayoría de las empresas de nuestro entorno este rol y capacidades no están bien definidos y se mezclan con los ingenieros de datos y los analistas de negocio. En la confusión del mercado de las ideas, de los proveedores de soluciones y de los programas de formación, la ciencia de los datos es el nuevo boom. España es el sexto país de Linkedin en número de científicos de datos por millón de usuarios, lo cual no parece que tenga mucho sentido.

Se puede decir que el científico de datos necesita una formación no sólo cuantitativa sino que es inseparable de la tecnología. Muchos sociólogos, economistas, periodistas, ingenieros no informáticos o matemáticos necesitan adquirir formación en ingeniería computacional. Los científicos de datos trabajan principalmente con herramientas de software libre, que eventualmente los ingenieros de datos escalan o integran después en las soluciones corporativas. Prefieren las herramientas de código abierto, como R y Python (y otras tecnologías de esta familia), bases de datos SQL (especialmente, las llamadas in memory) y toda la familia de bases de datos NoSQL, tecnologías de almacén de datos distribuidas (Apache Hadoop i Spark) y herramientas de presentación, tipo D3.js.

Hay muchos aspectos de esta formación y esta carrera que son parecidos a la investigación universitaria en algunos ámbitos. Algunas empresas están reclutando a doctorados de diferentes ramas para sus proyectos de datos… y les pagan cuatro veces más que en la academia.

Pero, además del conocimiento de métodos, técnicas y herramientas, la ciencia de los datos prospera entre gente que presenta algunos rasgos particulares del carácter y de la inteligencia, a los que dedicaremos la próxima entrada.

 

 

 

(Visited 26 times, 1 visits today)
Autor / Autora
José Ramón Rodríguez
Profesor de Dirección de Sistemas de Información, Gestión de Proyectos y Business Intelligence de los Estudios de Informática, Multimedia y Telecomunicación de la UOC y consultor de empresas independiente.
Comentarios
Deja un comentario