Comparte este artículo

“El trabajo más sexy en los próximos 10 años será el de Estadístico. La gente piensa que estoy bromeando, pero ¿quién habría supuesto en los 90’s que el trabajo más sexy entonces iba a ser el de Ingeniero de Software?”
Hal Varian, responsable de Economía de Google

Vivimos en la era de los datos y en los 2 últimos años se ha producido un crecimiento tan desmesurado en la generación y necesidades de almacenamiento de los mismos, que ha “roto” con las unidades de medida en Gigas y Teras que hasta ahora habíamos manejado.
El uso de dispositivos móviles y en general de los llamados “wearables” (smartwatchs, pulseras de actividad, gps,…), el acceso a redes sociales y el uso ya generalizado a portales de eCommerce ha contribuido principalmente a dicho crecimiento.

Todas las grandes empresas cuentan entre sus RRHH de Científico de datos, empresas como Linkedin, Facebook, Twitter, Google, Microsoft, Amazon, Netflix,… De hecho, Linkedin no sería lo que es actualmente sin la llegada en 2006 de Jonathan Goldman que puso en marcha las sugerencias de conexiones entre personas, a partir de los datos ya almacenados en sus bases de datos tradicionales.

Analista de datos VS. Científico de datos

Y atención, hemos pasado de necesitar Analista de Datos a requerir de Científico de datos.  Un Analista extrae conclusiones de los datos estructurados de que se dispone. El Científico de datos comienza su trabajo antes de tener esos datos, y no termina simplemente extrayendo conclusiones de los mismos.  Con la curiosidad que proporciona el pensamiento científico, les encanta bucear entre cualquier fuente de datos, crear relaciones entre ellos, filtrarlos, visualizar y comunicar resultados. Se trata de una mezcla entre hacker de datos, analista, comunicador y asesor de confianza de la dirección de la empresa.  Se trata de constructores de sistemas de información y no simplemente consultores.

Competencias del Científico de datos

Las competencias a desarrollar para ser considerado un Científico de datos son las siguientes:

  • Lenguajes de Programación. Es necesario tener conocimientos de lenguajes de programación que permitan el manejo de los datos de cualquier tipo. Entre ellos se encuentra R, Python, y los lenguajes de consultas a bases de datos estructuras como Transact-SQL.

R, Python o Transact-SQL son algunos de los lenguajes que el Científico de datos debe dominar

Estos lenguajes de programación, junto con otras herramientas, nos permitirán realizar transformaciones sobre los datos. El concepto original en inglés es “Data Munging”, y básicamente es la habilidad de partiendo de un conjunto de datos desordenado, con imperfecciones, con tipos de datos incorrectos o que simplemente ni tenemos, de “jugar” con ellos, y finalmente tener otro conjunto de datos limpio y preparado para poder trabajar ya directamente con ellos.

  • Técnicas Estadísticas. Es imprescindible tener conocimientos de técnicas estadísticas como por ejemplo tests estadísticos, distribuciones, estimadores de probabilidad, etc.
  • Machine Learning (“Aprendizaje Automático”). Las técnicas de aprendizaje automático nos van a permitir ir varios pasos más allá de la simple extracción de conclusiones a partir de los datos. Los algoritmos dentro de estas técnicas nos posibilitarán realizar predicciones mucho más avanzadas. Eso sí, requerirán además conocimientos matemáticos en Cálculo y Álgebra Lineal.  Hablé de aprendizaje automático en un post de hace varios meses.
  • Técnicas de Comunicación. Es necesario conocer herramientas que nos permitan visualizar de una forma muy clara la información, y hemos de tener las habilidades necesarias para saber comunicar los resultados obtenidos según la audiencia a la que nos dirijamos. Tan importante es obtener los datos, como llegar a comunicarlos de forma eficaz. Además, el Científico de datos debe ser una persona con una orientación muy clara hacia los objetivos estratégicos de la empresa. Digamos que siempre tiene en su mano la “brújula” de la empresa.
  • Técnicas de Ingeniería de software. El manejo y manipulación de los datos se basa en disponer de la infraestructura adecuada para poder manipularlos, tanto a nivel hardware como a nivel software. Es importante conocimientos en herramientas como Hadoop, y todo el ecosistema (“zoológico”) que lo rodea. Conocer que nos ofrecen los principales proveedores de Cloud Computing y cómo podemos aplicarlo. Los principales proveedores como Azure y Amazon, nos posibilitan el despliegue rápido de infraestructuras de Big Data y Machine Learning.

¿El Científico de datos es una única persona?

No es necesario que una única persona reúna todas las competencias anteriores y al final todo ello pueda ser desarrollado por un equipo de trabajo, pero es cierto que la personas que compongan dicho equipo deben tener mentalidad científica, con altos conocimientos informáticos y matemáticos.
Muchas Universidades ya están adaptando sus planes de estudio para dar cabida a este perfil, así como Escuelas de Negocio, y plataformas de formación on-line. De estas plataformas de formación escribí un post aquí que puede servir de referencia.
Para concluir, y dando alguna vuelva a la cita inicial de Hal Varian:

“Si quieres tener un trabajo apasionante y absorbente en el futuro próximo no tendrás más remedio que convertirte en un Científico de datos”


Comparte este artículo