Una guía para principiantes sobre la ciencia de datos y sus aplicaciones

Publicado: 2018-02-24

Las palabras Data, Science o Data Science no son suficientes para incitar un sentimiento de miedo o pavor entre los lectores. Para ser honesto, son demasiado lindos para ser incluso desagradables, y mucho menos horribles, a diferencia de las palabras (teselación, k-media, k-vecinos más cercanos, árbol de expansión mínimo euclidiano y más de este tipo) palabras que usted encontrará en su viaje de Data Science.
Si bien la "ciencia de datos" no inspira miedo, tampoco explica nada sobre el campo. Todo el mundo sabe qué son los datos; al menos en un sentido laico. Los datos son esencialmente solo bits de información sin procesar. La ciencia, por otro lado, puede usarse para referirse a cualquier grupo de actividades que siguen un método científico.

Entonces, siguiendo esta lógica, podemos concluir que la ciencia de datos es un campo que utiliza métodos científicos en grandes cantidades de datos. ¿Pero para qué? ¿Y qué es exactamente la ciencia de datos?
Ese es nuestro tema de discusión de hoy. Después de leer este artículo, podrá responder las siguientes preguntas:

  • ¿Qué es la ciencia de datos?
  • ¿Cuáles son las diferentes fases de una canalización de ciencia de datos?
  • ¿Dónde puedo ver la ciencia de datos en acción?

Tabla de contenido

¿Qué es la ciencia de datos?

Wikipedia, la madre de todas las enciclopedias, define la ciencia de datos como un campo centrado en extraer conocimiento e información de los datos mediante el uso de métodos científicos. Sin embargo, lo que no te dice es que los humanos nacemos científicos de datos. ¿Cómo? Vamos a ver.
Estás observando el mundo que te rodea sin importar lo que estés haciendo. En cada momento de vigilia, estás captando detalles de tu entorno y alimentándolos a tu cerebro. Luego procesa estas observaciones en datos y los usa para comprender las cosas que lo rodean al descubrir significados y hacer predicciones de lo que es probable que suceda a continuación.

Cuando llegas tarde para irte al trabajo por una hora, llamas para decirles que trabajarás desde casa. Está utilizando sus observaciones anteriores de tráfico y detenciones en el camino que le hacen concluir que es probable que pierda más tiempo atascado en el tráfico de lo que ganaría estando en el cargo. Cuando entras en tu habitación y ves envoltorios de chocolate tirados, un análisis casual te dirá que alguien ha estado comiendo tus chocolates en tu ausencia.
Los 4 principales roles de análisis de datos a tener en cuenta

En cualquiera de los casos mencionados, si haces estos cálculos y predicciones en tu mente, sin anotarlo, eres un ser humano normal. Por otro lado, si continúa y registra estos puntos de datos (por supuesto, en un formato legible por máquina) y luego intenta diseñar un algoritmo (o procedimientos) y programas de computadora para ejecutar la aplicación. Si el resultado de este sistema "hipotético" es que "el tráfico va a apestar", o "tus compañeros de cuarto se comieron tus chocolates", ¡entonces bingo! Eres un científico de datos.

Es tan simple (en teoría) como lo hace sonar la analogía anterior. Al final del día, tiene datos, procedimientos, algoritmos y herramientas. Solo necesitas extraer conocimiento de él. Para hacerlo de manera eficiente, hay un flujo de trabajo/canalización que debe seguir. Veamos todo lo que se incluye en una canalización de ciencia de datos típica.

Tubería de ciencia de datos

La tubería de ciencia de datos habla sobre el flujo de todo el proceso, desde la obtención de los datos deseados hasta la realización de cálculos y predicciones precisos. Echemos un vistazo a los elementos de esta canalización:

Tubería de ciencia de datos

Obtenga sus datos

Esto es, de forma predeterminada, lo primero que debe hacer para practicar Data Science: ¡obtener los datos! Solo un pequeño aviso: hay algunas cosas que debe tener en cuenta al obtener sus datos. Primero debe identificar todos sus conjuntos de datos (pueden ser de Internet o bases de datos internas/externas). A continuación, debe extraer los datos en un formato utilizable (CSV, XML, JSON, etc.)
Aquí están las mejores habilidades y herramientas para dominar para ser un analista de datos

Habilidades requeridas

  • Gestión de base de datos: ya sea SQL o NoSQL, según sus necesidades y requisitos.
  • Consultando estas bases de datos
  • Recuperación de datos no estructurados en forma de videos, audios, textos, documentos, etc.
  • Almacenamiento distribuido: Hadoop, Apache Spark o Apache Flink.

Depuración/Limpieza de sus datos

Se debe dar la máxima importancia a la limpieza de los datos porque el resultado final de su sistema es tan bueno como los datos que ingresa en él. La limpieza se refiere a eliminar anomalías, completar valores vacíos/faltantes, ver si los datos son consistentes y otras cosas de esta naturaleza.

Habilidades requeridas

  • Lenguaje de secuencias de comandos: Python, R, SAS
  • Herramientas de gestión de datos: Python Pandas, R
  • Procesamiento distribuido: Hadoop, MapReduce/Spark

Exploración (Análisis exploratorio de datos)

Ahora que los datos están limpios, comenzará a comprender qué patrones tienen sus datos. En esta fase se utilizan diferentes tipos de visualizaciones y modelos estadísticos. Básicamente, esta fase tiene como objetivo derivar el significado oculto de nuestros datos.
Hay muchas cosas que suceden en el campo del análisis exploratorio de datos. Si cree que es algo que disfrutaría, no olvide leer nuestro artículo sobre el mismo.
Para desempeñarse mejor en esta fase, debe tener un hormigueo en sus "sentidos arácnidos". Vuélvase loco y detecte patrones o tendencias extraños; siempre esté atento a algo fuera de la caja. Sin embargo, mientras lo hace, no olvide el problema que desea resolver. No te salgas demasiado de la caja. El análisis exploratorio de datos es un arte, y un artista siempre debe tener en cuenta a la audiencia.

Habilidades requeridas

  • Bibliotecas de Python: Numpy, Matplotlib, Pandas, Scipy
  • Bibliotecas R: GGplot2, Dplyr
  • Estadística inferencial
  • Visualización de datos
  • Diseño experimental
Los mejores pasos para dominar la ciencia de datos, créanme, ¡los he probado!

Modelado (aprendizaje automático)

Esta es la parte divertida. Los modelos son simplemente reglas generales en un sentido estadístico. Un modelo de aprendizaje automático es simplemente una herramienta en su conjunto de herramientas. Tiene acceso a tantos algoritmos con diferentes casos de uso y objetivos que una simple investigación lo llevará a encontrar un algoritmo que se ajuste a las necesidades de su negocio.
Después de limpiar los datos y descubrir las características esenciales (en la fase EDA), el uso de un modelo estadístico como herramienta predictiva mejorará su toma de decisiones en general. En lugar de mirar hacia atrás para ver "¿qué pasó?", el análisis predictivo tiene como objetivo responder "¿qué sigue?" y “¿cómo deberíamos hacerlo?”.

Habilidades requeridas

  • Aprendizaje automático: algoritmos de aprendizaje supervisado/no supervisado/reforzado
  • Métodos de evaluación
  • Bibliotecas de aprendizaje automático: Python (Sci-kit Learn) / R (CARET)
  • Álgebra lineal y cálculo multivariante

Interpretación (narración de datos)

Esta es una de las tareas más desafiantes en la tubería. Aquí, su objetivo es explicar sus hallazgos a través de la comunicación. Al final del día, se trata de conectarse con su audiencia, y eso es lo que hace que la narración sea clave.
Sus hallazgos no son útiles si no puede transmitir su importancia al grupo no tecnológico en su oficina, o incluso a su jefe, para el caso. Una buena práctica para tener las cosas bajo control sería ensayar mucho. Trate de enmarcar una historia sobre sus hallazgos y cuéntasela a un profano (preferiblemente un niño). Si ellos lo entienden, también lo hará tu jefe. Y si no lo hacen, bueno, ya sabes lo que dijo Einstein:

“Si no puedes explicárselo a un niño de seis años, no lo entiendes tú mismo”.

Esta fase tiene como objetivo obtener información comercial real. Su principal desafío aquí es visualizar sus hallazgos y mostrarlos de una manera hermosa y comprensible.

Habilidades requeridas

  • Conocimiento de su dominio comercial
  • Herramientas de visualización de datos: Tableau, D3.JS, Matplotlib, GGplot, Seaborn, etc.
  • Comunicación: Habilidades de presentación, tanto verbal como escrita.

Este no es el final de nuestra canalización. Si realmente desea sacar lo mejor de su sistema, debe asegurarse de actualizar su modelo cuando surja la necesidad. En Data Science, una talla no sirve para todos, y deberá seguir revisando y actualizando su modelo.
Manipulación de datos: ¿Cómo puede detectar mentiras de datos?

Aplicaciones de la ciencia de datos

Como ya está claro, Data Science es un término amplio, al igual que sus aplicaciones. Casi todas las aplicaciones de su teléfono inteligente se nutren de los datos. Por lo tanto, es justo decir que es prácticamente imposible enumerar todas las aplicaciones de la ciencia de datos debido a su absoluta omnipresencia.
Echemos un vistazo a los amplios campos que utilizan la magia de la ciencia de datos:

1. Búsqueda en Internet

¿Cómo devuelve Google resultados de búsqueda tan *precisos* en una fracción de segundo? ¡Ciencia de los datos!

2. Sistemas de recomendación

Desde "personas que tal vez conozcas" en Facebook o LinkedIn hasta "a las personas que compraron este producto también les gustó..." en Amazon hasta tus listas de reproducción seleccionadas diariamente en Spotify e incluso "videos sugeridos" en YouTube, todo se basa en la ciencia de datos.

3. Reconocimiento de imagen/habla/caracteres

Esto prácticamente no hace falta decirlo. ¿Cuál crees que es el cerebro detrás de “Siri”, sino Data Science? Además, ¿cómo crees que Facebook reconoce a tu amigo cuando subes una foto con él? No es magia; es ciencia: ciencia de datos.

4. Juegos

EA Sports, Sony, Nintendo, Zynga y otros gigantes en este dominio se han encargado de llevar su experiencia de juego a un nivel completamente nuevo. Los juegos ahora se desarrollan y mejoran utilizando algoritmos de aprendizaje automático para que puedan actualizarse a medida que avanza a niveles más altos.

5. Sitios web de comparación de precios

Estos sitios web se alimentan de datos. Para ellos, cuantos más, mejor. Los datos se obtienen de los sitios web relevantes mediante API. PriceGrabber, PriceRunner, Junglee, Shopzilla son algunos de estos sitios web.

Iníciate en la ciencia de datos con Python

Terminando…

Si tiene experiencia en tecnología y tiene algo para los datos, entonces la ciencia de datos es su verdadera vocación. ¿La mejor parte? Hay mucho que hacer y explorar en Data Science y sus alrededores. Es un término general que cubre una serie de herramientas y tecnologías; dominar cualquiera de las cuales lo convertirá en un activo en el mercado cada vez mayor de la ciencia de datos. upGrad ofrece varios cursos sobre ciencia de datos para mantenerlo a la vanguardia. ¡No olvides echarles un vistazo!

¿Cuál es el alcance de la ciencia de datos en todas las industrias en la India?

La ciencia de datos tiene un gran impacto en muchas industrias en la India. Todas las industrias enumeradas a continuación dependen en gran medida de la ciencia de datos y ofrecen excelentes perspectivas para un científico de datos.

1. Atención médica: esta es una palabra general para cualquier cosa que tenga que ver con medicamentos, pacientes y enfermedades. La ciencia de datos ha comenzado a desempeñar un papel fundamental en esta industria, desde un diagnóstico más eficiente hasta la investigación médica.
2. Banca y seguros: evaluación de riesgos y detección de fraudes: los bancos recopilan perfiles de clientes, solicitudes y gastos anteriores, así como una variedad de otros datos personales, en particular para préstamos y seguros. Aquí es donde entra la ciencia de datos, ya que simplifica el proceso y distingue entre aquellos que son de bajo riesgo y aquellos que son de alto riesgo.
3. Marketing y publicidad: con todos los datos a su alcance, puede analizar y determinar quién debe ser su público objetivo para comercializar su servicio o producto de manera efectiva.
4. Industria de las aerolíneas: la ciencia de datos se utiliza en el sector de las aerolíneas para analizar las trayectorias y rutas de las aeronaves.

¿Cómo pueden los científicos de datos usar sus habilidades para resolver problemas comerciales?

Dependiendo de las demandas de su empresa, un científico de datos debe adoptar una estrategia diferente para resolver un desafío empresarial. Utilizando modelos híbridos de matemáticas e informática, los científicos de datos obtienen información procesable de los datos y ayudan a tomar mejores decisiones. Las aplicaciones de la ciencia de datos para resolver los desafíos comerciales del mundo real incluyen mejorar la calidad del producto, automatizar la colocación de anuncios digitales, aumentar la generación de ingresos al predecir la demanda y las oportunidades de crecimiento, automatizar los procesos de contratación, establecer precios en un mercado dinámico, entre otros casos de uso.

¿Cuál es el futuro de la ciencia de datos?

El futuro de la ciencia de datos es muy emocionante con un amplio alcance de implementación en casi todos los campos. Algunas de las mejores empresas nativas digitales, como Google, Amazon, Facebook, etc., han realizado una importante inversión en datos. El auge de la tecnología emergente combinado con la investigación en curso conducirá a aplicaciones innovadoras y casos de uso en el futuro. Desde el punto de vista de la carrera, la ciencia de datos es muy prometedora.