5 tipos de algoritmos de clasificación en aprendizaje automático [2022]

Publicado: 2021-01-02

Tabla de contenido

Introducción

El aprendizaje automático es uno de los temas más importantes en la Inteligencia Artificial. Se divide además en aprendizaje supervisado y no supervisado, que se puede relacionar con análisis de datos etiquetados y no etiquetados o predicción de datos. En Aprendizaje Supervisado tenemos dos tipos más de problemas de negocios llamados Regresión y Clasificación.

La clasificación es un algoritmo de aprendizaje automático en el que obtenemos los datos etiquetados como entrada y necesitamos predecir la salida en una clase. Si hay dos clases, entonces se llama Clasificación Binaria. Si hay más de dos clases, se denomina Clasificación de clases múltiples. En escenarios del mundo real, tendemos a ver ambos tipos de Clasificación.

En este artículo investigaremos algunos tipos de algoritmos de clasificación junto con sus ventajas y desventajas. Hay tantos algoritmos de clasificación disponibles, pero centrémonos en los siguientes 5 algoritmos:

Regresión logística
K Vecino más cercano
Árboles de decisión
Bosque aleatorio
Máquinas de vectores de soporte

1. Regresión logística

Aunque el nombre sugiere regresión, es un algoritmo de clasificación. La regresión logística es un método estadístico para clasificar datos en los que hay una o más variables o características independientes que determinan un resultado que se mide con una variable (OBJETIVO) que tiene dos o más clases. Su objetivo principal es encontrar el mejor modelo de ajuste para describir la relación entre la variable objetivo y las variables independientes.

ventajas

1) Fácil de implementar, interpretar y eficiente para entrenar, ya que no hace suposiciones y es rápido en la clasificación.

2) Se puede utilizar para la clasificación de clases múltiples.

3) Es menos propenso a sobreajustarse pero se sobreajusta en conjuntos de datos de alta dimensión.

Contras

1) Sobreajustes cuando las observaciones son menores que las características.

2) Solo funciona con funciones discretas.

3) Los problemas no lineales no se pueden resolver.

4) Difícil de aprender patrones complejos y, por lo general, las redes neuronales los superan.

2. K Vecino más cercano

El algoritmo K-vecinos más cercanos (KNN) utiliza la técnica de 'similitud de características' o 'vecinos más cercanos' para predecir el grupo en el que cae un nuevo punto de datos. A continuación se muestran algunos pasos basados en los cuales podemos comprender mejor el funcionamiento de este algoritmo.

Paso 1 : para implementar cualquier algoritmo en el aprendizaje automático, necesitamos un conjunto de datos limpio y listo para el modelado. Supongamos que ya tenemos un conjunto de datos limpio que se ha dividido en conjuntos de datos de entrenamiento y prueba.

Paso 2 : como ya tenemos los conjuntos de datos listos, debemos elegir el valor de K (entero) que nos dice cuántos puntos de datos más cercanos debemos tener en cuenta para implementar el algoritmo. Podemos llegar a saber cómo determinar el valor de k en las etapas posteriores del artículo.

Paso 3 : este paso es iterativo y debe aplicarse para cada punto de datos en el conjunto de datos

Calcule la distancia entre los datos de prueba y cada fila de datos de entrenamiento utilizando cualquiera de las métricas de distancia
distancia euclidiana
distancia entre manhattan
distancia minkowski
Distancia de hamming.

Muchos científicos de datos tienden a usar la distancia euclidiana, pero podemos conocer el significado de cada uno en la última etapa de este artículo.

Necesitamos ordenar los datos según la métrica de distancia que hemos usado en el paso anterior.

Elija las K filas superiores en los datos ordenados transformados.

Luego, asignará una clase al punto de prueba en función de la clase más frecuente de estas filas.

Paso 4 – Fin

ventajas

Fácil de usar, entender e interpretar.
Tiempo de cálculo rápido.
Sin suposiciones sobre los datos.
Alta precisión de las predicciones.
Versátil: se puede utilizar para problemas comerciales de clasificación y regresión.
También se puede usar para problemas de clases múltiples.
Solo tenemos un parámetro Hyper para modificar en el paso de ajuste de hiperparámetros.

Contras

Computacionalmente costoso y requiere mucha memoria ya que el algoritmo almacena todos los datos de entrenamiento.
El algoritmo se vuelve más lento a medida que aumentan las variables.
Es muy sensible a las características irrelevantes.
Maldición de dimensionalidad.
Elegir el valor óptimo de K.
El conjunto de datos de clase desequilibrada causará problemas.
Los valores faltantes en los datos también causan problemas.

Leer: Ideas de proyectos de aprendizaje automático

3. Árboles de decisión

Los árboles de decisión se pueden usar tanto para la clasificación como para la regresión, ya que pueden manejar datos numéricos y categóricos. Descompone el conjunto de datos en subconjuntos o nodos cada vez más pequeños a medida que se desarrolla el árbol. El árbol de decisión tiene una salida con nodos de decisión y de hoja donde un nodo de decisión tiene dos o más ramas, mientras que un nodo de hoja representa una decisión. El nodo superior que corresponde al mejor predictor se denomina nodo raíz.

ventajas

Sencillo de entender
Visualización fácil
Menos datos Interpretación
Maneja datos numéricos y categóricos.

Contras

A veces no generalizo bien
Inestable a los cambios en los datos de entrada

4. Bosques aleatorios

Los bosques aleatorios son un método de aprendizaje conjunto que se puede utilizar para la clasificación y la regresión. Funciona mediante la construcción de varios árboles de decisión y genera los resultados tomando la media de todos los árboles de decisión en problemas de regresión o votación mayoritaria en clasificación. Puede llegar a saber por el nombre mismo que un grupo de árboles se llama Bosque.

ventajas

Puede manejar grandes conjuntos de datos.
Dará salida a la importancia de las variables.
Puede manejar valores faltantes.

Contras

Es un algoritmo de caja negra.
Predicción lenta en tiempo real y algoritmos complejos.

5. Máquinas de vectores de soporte

La máquina de vectores de soporte es una representación del conjunto de datos como puntos en el espacio separados en categorías por un claro espacio o línea que está lo más lejos posible. Los nuevos puntos de datos ahora se mapean en ese mismo espacio y se clasifican para pertenecer a una categoría según el lado de la línea o la separación en la que se encuentran.

ventajas

Funciona mejor en espacios de alta dimensión.
Utiliza un subconjunto de puntos de datos de entrenamiento en la función de decisión, lo que lo convierte en un algoritmo eficiente en memoria.

Contras

No proporcionará estimaciones de probabilidad.
Puede calcular estimaciones de probabilidad mediante validación cruzada, pero requiere mucho tiempo.

Lea también: Carrera en aprendizaje automático

Conclusión

En este artículo hemos discutido sobre los 5 algoritmos de clasificación, sus breves definiciones, pros y contras. Estos son solo algunos algoritmos que hemos cubierto, pero hay algoritmos más valiosos como Naive Bayes, Neural Networks, Ordered Logistic Regression. No se puede saber qué algoritmo funciona bien para qué problema, por lo que la mejor práctica es probar algunos y seleccionar el modelo final en función de las métricas de evaluación.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Cuál es el propósito principal detrás del uso de la regresión logística?

La regresión logística se utiliza principalmente en probabilidades estadísticas. Utiliza una ecuación de regresión logística para comprender la relación entre las variables dependientes y las variables independientes presentes en los datos dados. Esto se hace estimando las probabilidades de eventos individuales. Un modelo de regresión logística es muy similar al modelo de regresión lineal, sin embargo, se prefiere su uso cuando la variable dependiente proporcionada en los datos es dicotómica.

¿En qué se diferencia SVM de la regresión logística?

Aunque SVM proporciona más precisión que los modelos de regresión logística, es complejo de usar y, por lo tanto, no es fácil de usar. En el caso de grandes cantidades de datos, no se prefiere el uso de SVM. Si bien SVM se usa para resolver problemas de regresión y clasificación, la regresión logística solo resuelve bien los problemas de clasificación. A diferencia de SVM, el sobreajuste es una ocurrencia común cuando se usa la regresión logística. Además, la regresión logística es más vulnerable a los valores atípicos en comparación con las máquinas de vectores de soporte.

¿Es un árbol de regresión un tipo de árbol de decisión?

Sí, los árboles de regresión son básicamente árboles de decisión que se utilizan para tareas de regresión. Los modelos de regresión se utilizan para comprender la relación entre las variables dependientes y las variables independientes que realmente han surgido de la división del conjunto de datos inicial dado. Los árboles de regresión solo se pueden usar cuando el árbol de decisión consta de una variable objetivo continua.