Los 9 algoritmos principales de ciencia de datos que todo científico de datos debe conocer

Publicado: 2020-02-13

Un algoritmo es un conjunto de reglas o instrucciones seguidas por un programa de computadora para implementar cálculos o realizar otras funciones de resolución de problemas. Dado que la ciencia de datos se trata de extraer información significativa para conjuntos de datos, hay una gran cantidad de algoritmos disponibles para resolver el propósito.

Los algoritmos de ciencia de datos pueden ayudar a clasificar, predecir, analizar, detectar valores predeterminados, etc. Los algoritmos también constituyen la base de las bibliotecas de aprendizaje automático, como scikit-learn. Por lo tanto, es útil tener una comprensión sólida de lo que sucede debajo de la superficie.

Aprenda programas de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Leer: Algoritmos de aprendizaje automático para ciencia de datos

Tabla de contenido

Algoritmos de ciencia de datos de uso común
- 1. Clasificación
- 2. Regresión
- 3. Regresión lineal
- 4. El método de los mínimos cuadrados
- 5. Descenso de gradiente
- 6. Regresión logística
- 7. Agrupamiento de K-medias
- 8. K-vecino más cercano (KNN)
- 9. Análisis de componentes principales (PCA)
Terminando
¿Cuáles son algunos de los puntos que debemos considerar antes de elegir un algoritmo de ciencia de datos para ML?
¿Qué son los algoritmos flexibles y restrictivos?
¿Qué es el algoritmo Naive Bayes?

Algoritmos de ciencia de datos de uso común

1. Clasificación

Se utiliza para variables objetivo discretas y la salida se presenta en forma de categorías. La agrupación, la asociación y el árbol de decisiones son la forma en que se pueden procesar los datos de entrada para predecir un resultado. Por ejemplo, un nuevo paciente puede etiquetarse como "enfermo" o "sano" mediante el uso de un modelo de clasificación.

2. Regresión

La regresión se utiliza para predecir una variable objetivo, así como para medir la relación entre las variables objetivo, que son de naturaleza continua. Es un método sencillo de trazar 'la línea de mejor ajuste' en un gráfico de una sola característica o un conjunto de características, digamos x, y la variable objetivo, y.

Se puede utilizar la regresión para estimar la cantidad de lluvia en base a la correlación previa entre los diferentes parámetros atmosféricos. Otro ejemplo es predecir el precio de una casa en función de características como el área, la localidad, la antigüedad, etc.

Comprendamos ahora uno de los componentes básicos más fundamentales de los algoritmos de ciencia de datos : la regresión lineal.

3. Regresión lineal

La ecuación lineal para un conjunto de datos con N características se puede dar como: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , donde b 0 es alguna constante.

Para datos univariados (y = b 0 + b 1 .x), el objetivo es minimizar la pérdida o el error al valor más pequeño posible para la variable devuelta. Este es el propósito principal de una función de costo. Si asume que b 0 es cero e ingresa diferentes valores para b 1 , encontrará que la función de costo de regresión lineal tiene una forma convexa.

Las herramientas matemáticas ayudan a optimizar los dos parámetros, b 0 yb 1 , y minimizan la función de costo. Uno de ellos se analiza a continuación.

4. El método de los mínimos cuadrados

En el caso anterior, b 1 es el peso de x o la pendiente de la línea, y b 0 es la intersección. Además, todos los valores pronosticados de y se encuentran en la línea. Y el método de los mínimos cuadrados busca minimizar la distancia entre cada punto, digamos (x i , y i ), los valores predichos.

Para calcular el valor de b 0 , encuentre la media de todos los valores de x i y multiplíquelos por b 1 . Luego, reste el producto de la media de todos los y i . Además, puede ejecutar un código en Python por el valor de b 1 . Estos valores estarían listos para insertarse en la función de costo, y el valor de retorno se minimizará por pérdidas y errores. Por ejemplo, para b 0 = -34,671 y b 1 = 9,102, la función de costo devolvería 21,801.

5. Descenso de gradiente

Cuando hay múltiples funciones, como en el caso de la regresión múltiple, el cálculo complejo se realiza mediante métodos como el descenso de gradiente. Es un algoritmo de optimización iterativo aplicado para determinar el mínimo local de una función. El proceso comienza tomando un valor inicial para b 0 y b 1 y continúa hasta que la pendiente de la función de costo sea cero.

Supongamos que tienes que ir a un lago que se encuentra en el punto más bajo de una montaña. Si no tienes visibilidad y estás parado en la cima de la montaña, comenzarías en un punto donde la tierra tiende a descender. Después de dar el primer paso y seguir el camino de descenso, es probable que llegues al lago.

Si bien la función de costo es una herramienta que nos permite evaluar parámetros, el algoritmo de descenso de gradiente puede ayudar a actualizar y entrenar los parámetros del modelo. Ahora, repasemos algunos otros algoritmos para la ciencia de datos.

6. Regresión logística

Mientras que las predicciones de la regresión lineal son valores continuos, la regresión logística proporciona predicciones discretas o binarias. En otras palabras, los resultados en la salida pertenecen a dos clases después de aplicar una función de transformación. Por ejemplo, la regresión logística se puede usar para predecir si un estudiante aprobó o reprobó o si lloverá o no. Obtenga más información sobre la regresión logística.

7. Agrupamiento de K-medias

Es un algoritmo iterativo que asigna puntos de datos similares en grupos. Para hacer lo mismo, calcula los centroides de k grupos y agrupa los datos en función de la distancia mínima desde el centroide. Obtenga más información sobre el análisis de conglomerados en la minería de datos.

8. K-vecino más cercano (KNN)

El algoritmo KNN recorre todo el conjunto de datos para encontrar las k instancias más cercanas cuando se requiere un resultado para una nueva instancia de datos. El usuario especifica el valor de k a utilizar.

9. Análisis de componentes principales (PCA)

El algoritmo PCA reduce el número de variables capturando la variación máxima en los datos en un nuevo sistema de 'componentes principales'. Esto facilita la exploración y visualización de los datos.

Terminando

El conocimiento de los algoritmos de ciencia de datos explicados anteriormente puede resultar inmensamente útil si recién está comenzando en el campo. Comprender el meollo de la cuestión también puede ser útil al realizar funciones de ciencia de datos del día a día.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Programa ejecutivo PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Cuáles son algunos de los puntos que debemos considerar antes de elegir un algoritmo de ciencia de datos para ML?

Compruebe la linealidad; el método más sencillo para hacerlo es ajustar una línea recta o realizar una regresión logística o SVM y buscar errores residuales. Un error mayor indica que los datos no son lineales y que se requieren técnicas sofisticadas para ajustarlos.

Los algoritmos de regresión Naive Bayes, Linear y Logistic son fáciles de construir y ejecutar. SVM, que requiere ajuste de parámetros, redes neuronales con un tiempo de convergencia rápido y bosques aleatorios requieren una cantidad significativa de tiempo para entrenar los datos. Como resultado, haga su elección en función de su ritmo preferido.

Para generar predicciones fiables, normalmente se recomienda recopilar una gran cantidad de datos. Sin embargo, la disponibilidad de datos suele ser un problema. Si los datos de entrenamiento están restringidos o el conjunto de datos contiene menos observaciones y una mayor cantidad de características, como genética o datos textuales, use algoritmos con alto sesgo/baja varianza, como regresión lineal o SVM lineal.

¿Qué son los algoritmos flexibles y restrictivos?

Dado que crean una variedad limitada de formas de funciones de mapeo, se dice que algunos algoritmos son restrictivos. La regresión lineal, por ejemplo, es una técnica limitada ya que solo puede crear funciones lineales como líneas.

Se dice que algunos algoritmos son flexibles porque pueden crear una gama más amplia de formas de funciones de mapeo. KNN con k=1 es muy versátil, por ejemplo, ya que considera cada punto de datos de entrada mientras genera la función de salida de mapeo.

Si una función es capaz de predecir un valor de respuesta para una observación dada que está cerca del verdadero valor de respuesta, entonces esto se caracteriza por su precisión. Una técnica que es altamente interpretable (modelos restrictivos como la Regresión Lineal) significa que cada predictor individual puede ser comprendido, mientras que los modelos flexibles brindan una mayor precisión a expensas de una baja interpretabilidad.

¿Qué es el algoritmo Naive Bayes?

Es un algoritmo de clasificación basado en el Teorema de Bayes y el supuesto de independencia del predictor. En términos simples, un clasificador Naive Bayes establece que la presencia de una característica en una clase no está relacionada con la presencia de ninguna otra característica. El modelo Naive Bayes es simple de construir y es particularmente útil para grandes conjuntos de datos. Debido a su simplicidad, Naive Bayes es conocido por derrotar incluso a los algoritmos de clasificación más potentes.