En este artículo explicaremos las principales diferencias entre los perfiles profesionales más comunes en el amplio mundo de los datos (perfiles data por abreviar). Veremos qué características, habilidades y a qué se dedican en su día a día.
Cada vez más es habitual escuchar frases del tipo «los datos son el nuevo petróleo«, «el dato como valor diferencial«, «el dato como activo estratégico«, «organizaciones data-driven« o «esta década será la década de los datos«. Cada vez son más empresas las que apuestan por él (los) dato(s) como prioridad estratégica y sobre la que sustentar u organizar su estrategia a corto/medio plazo.
Por todo este interés están surgiendo nuevos perfiles cada vez más demandados y difíciles de conseguir. Esto se debe a la gran variedad de skills o habilidades o conocimientos que deben disponer o aportar estos profesionales.
En este ecosistema aparecen términos como científicos de datos (Data Scientist), analista de datos (Data Analyst), Ingeniero de aprendizaje automático (Machine Learning Engineer), Ingeniero de Datos (Data Engineer) o Arquitecto de Datos (Data Architect).
¿Realmente sabrías diferenciarlos? Es cierto que son términos estrechamente ligados y que en muchas ocasiones trabajan codo con codo. Si eres una persona de recursos humanos (recruiter) y un cliente solicita unas características ¿Sabrías buscar correctamente al candidato idóneo?
Es normal esta confusión, pues la mayoría de la gente y sobre todo las empresas confunde estos términos.
¿Qué conocimientos deben tener estos perfiles profesionales?
Empecemos hablando sobre las cualidades o conocimientos que, de forma general, aparecen o son comunes.
En primer lugar, todos los profesionales requieren de una constante formación y adopción de nuevas tecnologías. Así que las ganas de aprender debe ser requisito indispensable en todas y cada una de ellas.
Anyone who stops learning is old, whether at twenty or eighty. Anyone who keeps learning stays young
Henry Ford
En segundo lugar vamos a definir de forma genérica una serie de características, y más adelante especificaremos qué rol requiere cada una.
- Programación: existen infinidad de lenguajes de programación. Destacan en especial dos lenguajes: Python y R. En muchos casos también se utiliza Matlab, Java o Scala. Estos lenguajes son utilizados para implementar de forma práctica los algoritmos matemáticos diseñados, o bien para automatizar procesos, como los de ingesta que posteriormente detallaremos.
- Conocimientos de bases de datos: los datos a analizar estarán almacenados de diferentes maneras, o más técnicamente hablando, persistencias. Destaca conocimiento de SQL para bases de datos relaciones o Pyspark para Hadoop para las lectura de los datos.
- Conocimiento de negocio: importante conocer el negociado que se está analizando para extraer conclusiones coherentes.
- Matemáticas: en concreto la estadística, tanto inferencial como descriptiva. De forma que se puedan entender mejor los datos haciendo un análisis exploratorio. Además es necesario conocer la estadística subyacente de los algoritmos de Machine Learning.
- Machine Learning: para profundizar te recomiendo que visites esta sección.
- Visualización: muchas veces la representación gráfica ayuda mucho a buscar patrones de forma visual y más rápida. Destacan Tableau o Power BI.
- Computación en la nube: para mayor detalle ver esta sección.
- Habilidades de comunicación: se trata de la capacidad de transmitir conclusiones de una forma clara y concisa. Es decir, saber explicar el por qué de las predicciones de un modelo, o algún patrón identificado mediante la visualización.
Ingeniero/a de datos
De todos los perfiles profesionales en el mundo Data, el Ingeniero de Datos es el que mayor diferencia presenta, ya que se centra en la etapa de ingesta de los datos. Es decir, proporcionar o dotar la herramienta Big Data o de analítica que se esté utilizando de los datos de otras fuentes. En un proyecto de datos toma protagonismo en primer lugar.
Por tanto, es necesario que este perfil presente una amplia experiencia programando, especialmente en Scala, para automatizar todos los procesos de ingesta. Esta ingesta también se la conoce como ETL, por sus siglas en inglés Extract, Transform and Load.
Básicamente estos procesos ETL consisten en extraer los datos de una fuente y cargarlos en otra base de datos. Posteriormente los científicos de datos o analistas de datos, sacarán valor de ellos.
Por tanto, a modo de resumen, un ingeniero de datos debe disponer de grandes conocimientos de desarrollo de software, y sobre todo una mentalidad abierta o multiusos.

Analista de datos
Los roles o funciones de un analista de datos varían según a quién preguntes. Nosotros diferenciamos dos principalmente:
- Científico de datos junior. Es decir, con poca experiencia. En muchos puestos de trabajos para reclutar a gente con poca experiencia pero con los conocimientos de un científico de datos, buscan analistas de datos.

- Business Intelligence Analyst. En español analista de inteligencia de negocio. Es un perfil que normalmente responde a la pregunta ¿Qué ha sucedido? Es decir, analizan datos históricos para hacer reportes enfocándolos desde un punto de vista descriptivo. Para ello se apoyan en herramientas de visualización, como Tableau o Power BI, para crear dashboards,

Data Scientist
Empecemos por definir lo que es un científico de datos o Data Scientist. Básicamente es un profesional que analiza datos para sacar valor de éstos. Es decir extraer conclusiones, predecir otra información y, entre otras cosas, conseguir nuevas formas de negocio. Desde nuestro punto de vista, de todos los perfiles data, es el más completo, puesto que sabe “un poco” de todo, con especial foco en estadística.
Normalmente este perfil pretende responder a las preguntas ¿Que va a suceder? Es decir, principalmente un análisis predictivo y prescriptivo. El primero explica lo que sucederá en un futuro, mientras que el segundo describe el lo que debería suceder para obtener el mejor resultado.
Además creemos que un científico de datos debe disponer de cierta experiencia laboral, puesto que se necesita conocer bien el negocio para poder interpretar los resultados de los algoritmos. La explicabilidad de modelos es un tema en el que ahondaremos más en profundidad en este blog.
Por otro lado, hemos destacado el especial conocimiento en estadística que deben disponer, pero también conocen algoritmos avanzados de aprendizaje automático para solucionar problemas más complejos.
En el siguiente dibujo, representamos las tareas más habituales de un científico de datos:
Machine Learning Engineer
Conocido por sus siglas en inglés, Machine Learning Engineer, se trata de un data scientist que se ha especializado en el despliegue o puesta en producción de algoritmos avanzados, más en concreto en técnicas de redes neuronales.
Se trata de perfiles de desarrollo de Software que se han especializado en la automatización de algoritmos de Machine Learning. Para que se entienda de forma simple, automatizan y optimizan los algoritmos diseñados, normalmente, por los Data Scientist
Por tanto, además de conocimientos de programación deben disponer conocimientos de la infraestructura donde se despliegue el modelo, en una nube por ejemplo. Esto es necesario para conseguir una optimización de recursos en el despliegue de dicho algoritmo.
Para ahondar más en este concepto de puesta en producción, os aconsejo leer este artículo que hemos escrito.
Data Architect
Se trata de un perfil encargado de definir y diseñar la arquitectura o infraestructura de los sistemas Big Data. Para ello busca las alternativas más optimas desde el punto de vista de seguridad, gobierno del dato y rendimiento, alineadas con los objetivos de la empresa.
También es el encargado de mantener las plataformas actualizadas.

Una completa y eficiente definición y desarrollo de lo que es hoy el mundo laboral desde el punto de vista “data”. Pone en perspectiva las cosas y, en mi caso, ayuda a discernir entre tantos perfiles tan íntimamente ligados.