Científicos de datos: mitos frente a realidades

Publicado: 2018-04-05

Cualquier cosa que gane impulso rápidamente tiende a convertirse en aquello de lo que todo el mundo habla. Y, cuanto más se habla de algo, más conceptos erróneos y mitos se acumulan. Data Science and Analytics es uno de esos dominios que está en continuo aumento y, con él, hay un número cada vez mayor de mitos asociados.

Hoy, vamos a desacreditar algunos de estos mitos y conceptos erróneos que giran en torno a la vida y el trabajo de los científicos de datos. Pero antes de pasar a eso, primero comprendamos un día típico en la vida de un científico de datos.

Científico de datos

Una organización tiene montones de datos que han recopilado a lo largo del tiempo de varias fuentes y en varios formatos. Ahora, han decidido hacer algo al respecto. Quieren que sus datos cuenten. ¿A quién recurren?

¡Científicos de datos!
Sí, científicos de datos a quienes la mayoría confunde con seres sobrenaturales. Estas personas son el corazón y el alma del equipo de análisis de datos de cualquier organización. Ocupan un puesto vital y, aunque te sorprenda, su día habitual es como el día típico de cualquier otro empleado de cuello blanco.

Tabla de contenido

¡Reuniones, reuniones y algunas reuniones más!

Los científicos de datos deben asistir a reuniones, en su mayoría a diario, para recopilar requisitos, analizar el trabajo realizado y planificar el trabajo del día. También hay reuniones internas que son importantes para los objetivos de la organización y para superar los problemas comerciales. En general, el propósito de estas reuniones es tener una idea más clara de los problemas en cuestión y asegurarse de que todos en la organización estén en términos del camino a seguir.

¡Busque datos y hágalos prístinos!

Parte de su día se dedica a identificar los problemas del mundo real que enfrenta su organización y descubrir formas de hacer que sus datos ayuden a resolver esos problemas. Luego viene una parte más desafiante: determinar el tipo y la fuente de los datos requeridos. Un científico de datos experimentado siempre selecciona los datos de las fuentes más relevantes, las que tienen más probabilidades de generar valor.

Sin embargo, esto es algo que viene con la experiencia y los conocimientos. Por lo tanto, los científicos de datos necesitan dedicar bastante tiempo a ello.

Sin embargo, recopilar los datos solo hace la mitad del trabajo. El científico de datos también debe asegurarse de que los datos se validen y limpien. Si trabajan con datos imperfectos, las posibilidades de éxito disminuyen exponencialmente.

Fundamentos básicos de estadística para ciencia de datos

Ponte a hacer magia. Nos referimos a análisis.

Cuando los datos se limpian por completo, el científico de datos dedica el tiempo restante a identificar tendencias y patrones a partir de los datos. Este es otro aspecto problemático del trabajo de un científico de datos, especialmente porque no existe un método establecido para analizar estos datos de manera eficiente. La mayoría de las veces, se requiere que un científico de datos diseñe sus herramientas y algoritmos o los ajuste con los existentes. Esto exige una mente abierta y la voluntad de experimentar.

Tejer una historia.

Después de analizar los conjuntos de datos, viene la parte más importante: la visualización de datos. Los científicos de datos deben presentar sus hallazgos frente a una audiencia que en su mayoría no es tecnológica, como las partes interesadas y los especialistas en marketing de la empresa. Esto no siempre es una tarea diaria, pero debe hacerse con frecuencia para mantener las cosas en movimiento. La importante carga de trabajo del científico de datos aquí implica idear una técnica de visualización que no solo capture la esencia de sus datos, sino que también presente todo de una manera estéticamente agradable.

El papel de un científico de datos es extremadamente dinámico; no hay dos días iguales para ellos. Su trabajo implica que estén alerta y que siempre tengan puestos sus sombreros para pensar. Los datos con los que trabajan, los problemas que intentan resolver y los conocimientos que buscan descubrir cambian constantemente. Eso es lo que hace que el papel de un científico de datos sea tan único y emocionante.

Una guía para principiantes sobre ciencia de datos y sus aplicaciones

Ahora, dé un paso adelante y desacredite más de estos mitos, a veces absurdos: video

video de Youtube

Mito n.° 1: debe ser un experto en estadística con un doctorado. en estadísticas. O, al menos, debe tener un título en estadística.

Sí, tener un título formal en estadística asegurará que esté en condiciones con las mejores prácticas en estadísticas desde el día 1. Sin embargo, mantenga sus caballos allí: si observa el mundo de la ciencia de datos, encontrará más personas de un fondo gerencial/no matemático que los "científicos espaciales" adictos a las matemáticas.

Mito n.° 2: debe ser un programador empedernido para sobresalir en la ciencia de datos. Cuanto más duro, mejor.

Nuevamente, al igual que el mito que discutimos hace solo un par de líneas, esto también se basa en una suposición falsa sobre el trabajo del científico de datos. ¡La gente asume que ser un científico de datos implica escribir líneas de códigos y algoritmos y demás! Pero, si prestó atención a la rutina que discutimos anteriormente, se dará cuenta de que no hay una "codificación" significativa involucrada allí. La mayoría de los algoritmos o métodos están disponibles listos para usar con solo un pequeño ajuste necesario. Sin embargo, debe tener una mentalidad lógica para hacerlo.

Iníciate en la ciencia de datos con Python

Mito n.º 3: los científicos de datos no son científicos en ningún sentido significativo de la palabra.

Cada científico es por defecto un científico de datos. La ciencia pura siempre ha coexistido con los datos de observación. Sin la capacidad de tamizar, ordenar, estructurar, clasificar, teorizar y presentar sus datos, ningún científico puede aportar coherencia a su estudio. Del mismo modo, un científico de datos que no ha profundizado en el corazón de sus datos no puede presentar sus hallazgos de manera efectiva. Los controles estadísticos siempre han sido la base de la ciencia pura y ahora son las responsabilidades fundamentales de un científico de datos. Entonces, si un científico de datos observa las tendencias y los patrones en el comportamiento de los clientes de una organización y confirma sus hallazgos mediante estadísticas y experimentos del mundo real, es un científico, simple y llanamente.

Mito n.º 4: los científicos de datos trabajan con herramientas estadísticas complicadas y costosas para realizar su trabajo.

Esencialmente, el trabajo de un científico de datos les exige buscar tendencias y patrones ocultos en un amplio conjunto de datos. Para ello, pueden utilizar herramientas de visualización fáciles de usar, herramientas de inteligencia empresarial basadas en búsquedas de autoservicio, herramientas de exploración de datos interactivos o incluso herramientas sencillas que no requieren mucho dominio estadístico. Solo para agregar, muchos analistas de negocios del mundo pueden encontrar conocimientos profundos incluso modelando las características en una aplicación de hoja de cálculo primaria.

Mito n.º 5: la ciencia de datos tiene que ver con introducir datos en clústeres de Hadoop y usar MapReduce. ¡Sencillo!

Si la gente tratara de explorar antes de difundir mitos, no estaríamos aquí. Si habla con un científico de datos, se dará cuenta de que la ciencia y el análisis de datos son mucho más que Hadoop y MapReduce. Estas dos son solo dos de las muchas herramientas. La mayoría de las veces, un proyecto de ciencia de datos exitoso utiliza una variedad de herramientas en varias etapas. Por lo tanto, se espera que un científico de datos esté al tanto de cualquier avance tecnológico importante que tenga lugar en este dominio para hacer el cambio apropiado a cualquier herramienta o tecnología cuando sea necesario. Cuando se trata de Data Science, un solo zapato no sirve para todos, y no existe un tablero Ouija mágico para hacer que los espíritus de la ciencia de datos hablen con nosotros los mortales.

Los mejores pasos para dominar la ciencia de datos, créanme, los he probado

¡Esperamos que haya disfrutado ampliando su visión! Quédate con nosotros; Volveremos con más cazadores de mitos.

es Ph.D. obligatorio para convertirse en un científico de datos?

Analicemos el rol de un científico de datos en dos áreas para comprender mejor esto:

1. Función de ciencia de datos aplicada: trabajar con algoritmos actuales y comprender cómo funcionan es el enfoque principal de la ciencia de datos aplicada. Para decirlo de otra manera, se trata de incorporar estos métodos en su proyecto. La mayoría de las personas relacionadas con la carrera de Data Science entran en esta categoría. La mayoría de las ofertas de trabajo y las descripciones de trabajo se ven comúnmente para este rol.
2. Función de investigación: si está interesado en la función de investigación, es posible que necesite un doctorado. Un rol de investigación en ciencia de datos incluye crear nuevos algoritmos desde cero, investigarlos, escribir artículos científicos, etc.

¿Sustituirá la inteligencia artificial a los científicos de datos en un futuro próximo?

En la evolución de la ciencia de datos, es plausible decir que la inteligencia artificial eventualmente reemplazará las operaciones realizadas manualmente por los científicos de datos. Sin embargo, una computadora no puede decidir por sí misma si limpiar los datos, desarrollar un modelo eficiente, trabajar en la corrección del modelo, etc. Estas elecciones las hace alguien que tiene las calificaciones necesarias. Incluso si se intentan iniciativas para desarrollar algoritmos más avanzados con la esperanza de reducir la necesidad de científicos de datos, es poco probable que esto ocurra muy pronto. Incluso con los algoritmos más avanzados, mantener las empresas en funcionamiento aún necesitaría a alguien con buen juicio y conocimiento del dominio.

¿Puedo convertirme en un científico de datos con solo dominar las herramientas de ciencia de datos?

Es un error generalizado pensar que saber cómo usar herramientas y bibliotecas estadísticas lo califica como científico de datos. Trabajar con estas herramientas lo ayudará a comprenderlas mejor, pero la ciencia de datos es un conjunto de habilidades que combina una variedad de habilidades. Aprender sobre las herramientas que lo acompañan es solo un aspecto del proceso. Además de conocer herramientas como Python o R, también son vitales para dominar habilidades como la resolución de problemas, una comprensión profunda de los conceptos y la información sobre las aplicaciones correctas necesarias para un problema empresarial.