Fundamentos básicos de estadística para ciencia de datos
Publicado: 2018-02-27Si es un aspirante a científico de datos, debe estar familiarizado con los conceptos básicos de estadísticas para la ciencia de datos . No necesita ser un Ph.D. en Estadística para sobresalir en Data Science, pero necesita saber lo suficiente para tal vez describir un par de algoritmos básicos en una cena.
En el futuro, lo guiaremos a través de algunos de los requisitos previos de los conceptos básicos de Estadísticas para la ciencia de datos .
Si acaba de ingresar al mundo de la ciencia de datos, es posible que se haya encontrado con personas que indican "Matemáticas" como un requisito previo para la ciencia de datos. Con toda honestidad, no se trata de Matemáticas per se, pero tienes que aprender Estadística para la Ciencia de Datos .
En estos días, las bibliotecas como Tensorflow ocultan casi todas las matemáticas complejas lejos del usuario. Bien por nosotros, pero sigue siendo bueno tener una comprensión básica de los principios subyacentes sobre los que funcionan estas cosas. Tener una buena comprensión del análisis de datos puede ayudarlo a comprender todo mejor.
Este artículo lo ayudará a armarse con algunos teoremas, conceptos y ecuaciones que no solo ayudarán a su causa como científico de datos, sino que también lo harán parecer como si hubiera superado el curso de Computación estadística avanzada a lo grande.
Tabla de contenido
Distribuciones Estadísticas
Esta es probablemente una de las cosas más importantes que necesita saber mientras se arma con los requisitos previos de Estadísticas para ciencia de datos .
Distribución de veneno
La distribución de Poisson es una de las herramientas más esenciales en estadística. Se utiliza para calcular el número de eventos que es probable que ocurran en un intervalo de tiempo. Por ejemplo, cuántas llamadas telefónicas es probable que ocurran en un período de tiempo determinado.
El símbolo de aspecto divertido en esta ecuación (λ) se conoce como lambda . Se utiliza para representar el número promedio de eventos que ocurren por intervalo de tiempo.Otro buen ejemplo en el que la distribución de Poisson encuentra uso es para calcular la pérdida en la fabricación. Suponga que una máquina produce láminas de metal y tiene X fallas por yarda. Supongamos, por ejemplo, que la tasa de error fuera de 2 por yarda de la hoja; luego, utilizando la distribución de Poisson, podemos calcular la probabilidad de que ocurran exactamente dos errores en una yarda.
Distribución binomial

Si alguna vez te has encontrado con las estadísticas básicas, es posible que te hayas encontrado con la distribución binomial.Digamos que tienes un experimento de lanzar una moneda imparcial tres veces.
¿Puedes decir la probabilidad de que la moneda salga cara en los tres lanzamientos?Primero, a partir de la combinatoria básica, podemos descubrir que hay ocho combinaciones posibles de resultados cuando se lanza una moneda al aire tres veces. Ahora, podemos trazar las probabilidades de tener 0, 1, 2 o 3 caras. Esa gráfica nos dará nuestra distribución binomial requerida para este problema. Cuando se grafica, notará que se ve muy similar a una curva de distribución normal típica; en teoría, ambas son muy similares. Mientras que la distribución binomial es para valores discretos (un número limitado de lanzamientos de moneda), la distribución normal se encarga de los valores continuos.
Hay una serie de distribuciones además de las que mencionamos anteriormente. Si eres un alma interesada y también quieres armarte mejor con las estadísticas necesarias para la ciencia de datos , te sugerimos que leas también sobre las siguientes distribuciones:
- Distribución Geométrica
- Distribución Hipergeométrica
- Distribución Uniforme Discreta
- Distribución Binomial Negativa
Algunos teoremas y algoritmos
Cuando hablamos de estadísticas para la ciencia de datos , simplemente no podemos ignorar los teoremas y algoritmos básicos que son la base de muchas bibliotecas en las que trabajará como científico de datos. Hay una serie de algoritmos de clasificación, algoritmos de agrupamiento, algoritmos de redes neuronales, árboles de decisión, etc. En esta sección, hablaremos sobre algunos teoremas básicos que debes saber; también te ayudarán a comprender otros teoremas complejos con facilidad.
Teorema de Bayes
Este es uno de los teoremas comunes con los que te encontrarás si has tenido alguna educación formal en Ciencias de la Computación. Ha habido numerosos libros a lo largo de los años que discuten excesivamente el Teorema de Bayes y sus conceptos de una manera elaborada.
El teorema de Bayes simplifica enormemente los conceptos complejos. Explica muchos hechos estadísticos usando algunas variables simples. Apoya el concepto de " probabilidad condicional " (por ejemplo, si A ocurrió, desempeñó un papel en la ocurrencia de B). Lo más apreciable de esto es el hecho de que puede predecir la probabilidad de cualquier hipótesis usando solo los puntos de datos dados.
Bayes puede ayudarlo a predecir la probabilidad de que alguien tenga cáncer con solo saber su edad. También puede informarle si un correo electrónico es spam según la cantidad de palabras. Este teorema se utiliza en esencia para eliminar la incertidumbre.
Dato curioso: el teorema de Bayes ayudó a predecir la ubicación de los submarinos, así como a predecir la configuración de la máquina Enigma para traducir los códigos alemanes, en la Segunda Guerra Mundial. Incluso en la ciencia de datos moderna, Bayes encuentra amplias aplicaciones en muchos algoritmos.
El qué es qué del almacenamiento de datos y la minería de datos
Algoritmo de vecino más cercano K

Este es un algoritmo muy fácil tanto en términos de comprensión como de implementación. Tanto es así que se conoce como el "algoritmo perezoso". Su simplicidad radica en el hecho de que se basa en deducciones lógicas que cualquier fundamento de la estadística, per se. En términos simples, este algoritmo busca encontrar grupos más cercanos entre sí.

K-NN utiliza el concepto de distancia euclidiana. Busca grupos locales en y alrededor de un número específico de puntos focales. Ese número está representado por "k". Hay muchos enfoques para averiguar qué tan grande debe ser el valor de 'k', ya que este es un valor decidido por el usuario.
Este concepto es excelente para la agrupación de características, la segmentación básica del mercado y la búsqueda de valores atípicos de un grupo de entradas de datos. La mayoría de los lenguajes de programación modernos implementan el algoritmo K-NN en solo dos líneas de código.
Embolsado (agregación de Bootstrap)
El embolsado se refiere esencialmente a la creación de más de un modelo de un solo algoritmo, como un árbol de decisión. Cada uno de los modelos se entrena con datos de muestra diferentes (esto se denomina muestra de arranque).
Por lo tanto, cada árbol de decisión se realiza utilizando diferentes datos de muestra, lo que resuelve el problema del sobreajuste al tamaño de la muestra. Agrupar árboles de decisión como este esencialmente ayuda a reducir el error total, ya que la varianza general disminuye con cada nuevo árbol agregado. Una bolsa de tales árboles de decisión se conoce como bosque aleatorio.
Iníciate en la ciencia de datos con Python
Análisis de la curva ROC

El término ROC significa Característica Operativa del Receptor. La curva de análisis ROC encuentra un uso extensivo en Data Science. Predice qué tan bien es probable que funcione una prueba al medir su sensibilidad general frente a su tasa de caída. El análisis ROC es extremadamente importante para determinar la viabilidad de cualquier modelo.
¿Como funciona?
Tu modelo de aprendizaje automático puede darte algunas predicciones inexactas. Algunos de ellos se deben a que un valor particular debería haber sido 'verdadero' pero en su lugar se establece como 'falso', o viceversa.
¿Cuál es la probabilidad de que aciertes entonces?
Usando la curva ROC, puede ver qué tan precisa es su predicción. Con las dos parábolas diferentes, también puede averiguar dónde poner su valor de umbral. El umbral es donde decide si la clasificación binaria es positiva o negativa, verdadera o falsa.
A medida que las dos parábolas se acerquen, el área bajo la curva tenderá a cero. Básicamente, esto significa que su modelo tiende a ser impreciso. Cuanto mayor sea el área, mayor será la precisión de su modelo. Esta es una de las primeras pruebas que se utilizan al probar cualquier modelo, ya que ayuda a detectar problemas desde el principio al indicar si el modelo es correcto o no.
Un ejemplo de la vida real de las curvas ROC : se utilizan para representar la conexión/compensación entre la sensibilidad clínica y la especificidad para el corte de una prueba en particular o una combinación de pruebas, de forma gráfica. Para agregar a eso, el área bajo la curva ROC también da una buena idea de los beneficios de usar las pruebas mencionadas anteriormente. Por lo tanto, las curvas ROC encuentran un amplio uso en bioquímica para elegir un punto de corte adecuado. Idealmente, el mejor corte es el que tiene la tasa de falsos positivos más baja con la tasa de verdaderos positivos más alta juntas.
¿Cómo puede hacer la transición al análisis de datos?
Importancia de las estadísticas en la ciencia de datos
De la discusión anterior, ahora que conoce los conceptos básicos de Estadística y los fundamentos de Estadística, hablemos sobre la importancia de aprender Estadística para la ciencia de datos. Las herramientas y tecnologías cruciales para organizar y encontrar información profunda en los datos, para analizar y cuantificar datos son proporcionadas por Statistics for Data Analytics.
Le hemos brindado una descripción general de los conceptos básicos de las estadísticas y el impacto de las estadísticas en la exploración, el análisis, el modelado y la representación de datos. También indicamos al problema si hay una inconsistencia mientras se descuidan los conceptos básicos de Estadística. Si está interesado en unirse a la industria de más rápido crecimiento, ingrese directamente a nuestro sitio web en UpGrad para seguir nuestro tutorial de Estadísticas para la ciencia de datos, ya que ofrecemos cursos en línea y fuera de línea en el mismo. Una vez que domines tu juego en al menos los fundamentos de la estadística y los conceptos básicos de la estadística, estarás listo para trabajar.
En conclusión…
La lista anterior de temas no es de ninguna manera una lista completa de todo lo que necesita saber en Estadística. Esta lista es solo para darle una idea de todo lo que puede encontrar en su viaje de la ciencia de datos y cómo puede estar preparado para ello.
En general, este artículo presenta algunos de los conceptos básicos de las estadísticas para la ciencia de datos . Una comprensión profunda de los conceptos explicados en conjunto lo ayudará a comprender los otros conceptos fácilmente. Si desea explorar más y dominar la ciencia de datos, encuentre nuestros mejores cursos de ciencia de datos en línea.
¿Cuál es la importancia de la estadística para la ciencia de datos?
La estadística proporciona las técnicas y herramientas para identificar la estructura en big data, además de proporcionar a las personas y organizaciones una mayor comprensión de las realidades reveladas por sus datos, utilizando métodos estadísticos adecuados que permiten la clasificación y organización, ayuda a calcular la distribución de probabilidad y estimación, y encuentre estructura en los datos detectando anomalías y tendencias. Las estadísticas también ayudan en la visualización y el modelado de datos con el uso de gráficos y redes. Ayuda a identificar grupos de datos u otras estructuras que se ven afectadas por variables y ayuda a reducir la cantidad de suposiciones en un modelo, lo que lo hace más preciso y útil.
¿Cuáles son los conceptos fundamentales clave de Estadística necesarios para la ciencia de datos?
Los conceptos básicos de las estadísticas son imprescindibles para la ciencia de datos. Estos son algunos de los conceptos clave que lo ayudarán a comenzar su viaje de ciencia de datos:
1. Probabilidad: esto forma la base de la ciencia de datos. La teoría de la probabilidad es bastante útil para formular predicciones. Los datos son la base de todas las probabilidades y estadísticas.
2. Muestreo: el muestreo de datos es una técnica de análisis estadístico que implica seleccionar, manipular y analizar una selección representativa de puntos de datos para encontrar patrones y tendencias en una colección de datos más grande.
3. Tendencia y Distribución de Datos: La distribución de datos es un factor crucial. La importancia de una distribución bien conocida como la Distribución Normal es enorme. Como resultado, determinar la distribución y asimetría de los datos es un concepto crítico.
4. Prueba de Hipótesis: La Prueba de Hipótesis identifica situaciones en las que se debe o no tomar acción dependiendo de los resultados esperados.
5. Variaciones: Esto se refiere a la distorsión, error y cambio en los datos.
6. Regresión: es fundamental para la ciencia de datos, ya que ayuda a comprender las soluciones existentes, así como al descubrimiento de nuevas innovaciones.
¿Cómo se usa la estadística en la ciencia de datos?
Los científicos de datos usan estadísticas para ayudar a las empresas a tomar mejores decisiones sobre productos, diseñar e interpretar pruebas, determinar los factores que impulsan las ventas, pronosticar tendencias y patrones de ventas. La representación visual de los datos y el rendimiento del algoritmo ayuda a encontrar valores atípicos, patrones triviales específicos y resumen de métricas.
