Introducción al algoritmo de clasificación: conceptos y varios tipos

Publicado: 2020-04-13

Los algoritmos de clasificación lo ayudan a dividir sus datos en diferentes clases. Al igual que cuando desea ordenar las cosas mientras empaqueta, un algoritmo de clasificación lo ayuda a clasificar los datos. En este artículo, veremos qué son los algoritmos de clasificación, los tipos de algoritmos de clasificación, algunos conceptos básicos de este tema y cómo funcionan.

Tabla de contenido

¿Qué significa Clasificación?

Para predecir la clase objetivo, cuando usamos nuestro conjunto de datos de entrenamiento para obtener condiciones de contorno, llamamos a este proceso clasificación. Hay muchos tipos de clases objetivo que puede lograr. Por ejemplo, suponga que desea predecir si sus clientes comprarían o no un producto en particular de acuerdo con los datos de clientes que tiene. En este caso, las clases objetivo serían 'Sí' o 'No'.

Por otro lado, es posible que quieras clasificar las verduras según su peso, tamaño o color. En este escenario, las clases de destino disponibles podrían ser espinaca, tomate, cebolla, patata y col. También puede realizar una clasificación de género, donde las clases de destino serían Mujer y Hombre.

Entendamos un poco cómo funciona un algoritmo de clasificación considerando el tercer ejemplo. Podemos mantener la longitud del cabello como un parámetro de característica, aunque es solo por el bien de este ejemplo. Podemos entrenar nuestro modelo mediante el uso de un algoritmo de clasificación y dejar que determine las condiciones de contorno para realizar la diferenciación entre los géneros femenino y masculino a través del parámetro de característica dado, es decir, la longitud del cabello.

Conceptos básicos de clasificación

Antes de que comencemos a hablar más sobre los algoritmos de clasificación, debe estar familiarizado con varias definiciones. De esta manera, podrá evitar cualquier confusión más adelante:

Características

Es una propiedad individual medible de un fenómeno particular que observamos en un momento.

Clasificadores

Un clasificador es un algoritmo que asigna los datos de entrada de un modelo a una categoría particular.

Modelos de clasificación

Los modelos de clasificación tienen que concluir los valores de entrada que le damos al modelo durante el entrenamiento. Estos modelos predicen las categorías (etiquetas de clase) para los nuevos datos que les proporcionamos.

Clasificación multietiqueta

La clasificación de múltiples etiquetas es cuando asignamos cada muestra a un conjunto de etiquetas objetivo de múltiples clases. Por ejemplo, una mochila escolar puede tener libros, una lonchera y bolígrafos al mismo tiempo.

Clasificación multiclase

La clasificación multiclase es cuando asignamos cada muestra a una sola etiqueta objetivo. Tiene lugar cuando tenemos más de dos clases. Por ejemplo, un automóvil puede estar en movimiento o parado, pero no ambos al mismo tiempo.

Clasificación binaria

La clasificación binaria es cuando tenemos solo dos clases posibles. Por ejemplo, el género de una persona puede ser masculino o femenino.

Tipos de algoritmos de clasificación

Aquí están todos los tipos de algoritmos de clasificación:

Estimación del núcleo

(K-vecino más cercano)

Clasificadores lineales

(Regresión logística, discriminante lineal de Fisher y clasificador Naive Bayes)

Clasificadores cuadráticos
Redes neuronales
Cuantificación de vectores de aprendizaje
Máquinas de vectores de soporte

(Los mínimos cuadrados admiten máquinas vectoriales)

Analicemos ahora algunos de los tipos esenciales de algoritmos de clasificación:

Más información: Tipos de algoritmos de aprendizaje automático con ejemplos de casos de uso

K-vecino más cercano

El vecino más cercano K, también conocido como KNN, es un algoritmo popular para resolver problemas de regresión y clasificación. Clasifica los casos nuevos según los votos de los k-vecinos. Determinamos k-vecinos más cercanos usando funciones de distancia. La función de distancia más popular es euclidiana, pero también hay otras opciones, como Manhattan y Hamming.

Para comprender KNN, puede echar un vistazo a un ejemplo de la vida real. Supón que quieres hacerte amigo de una persona de la que no tienes mucha información. Para conocerlos mejor, primero hablaría con sus amigos y colegas para tener una idea de cómo son. Así es como funciona el algoritmo KNN.

Al usar el algoritmo del vecino más cercano, asegúrese de normalizar las variables, ya que las variables de mayor rango pueden desarrollar un sesgo. Además, los algoritmos KNN son bastante costosos desde el punto de vista computacional.

Árboles de decisión

Los árboles de decisión lo ayudan a predecir posibles resultados de acuerdo con una serie de opciones. Es un algoritmo de aprendizaje supervisado y utiliza varias características con variables dependientes continuas y categóricas.

Por ejemplo, supón que quieres salir a comprar frutas para ti, pero notas que el clima está nublado. Ahora, tienes dos opciones, puedes ir, o quizás no. Si vas, puede llover, y luego tendrás que regresar con las manos vacías. Por otro lado, si no llueve, puedes comprar la fruta que necesites comprar. Era un ejemplo simple que contenía múltiples variables, pero entiendes la idea.

Lea también: Árbol de decisión en R

Regresión logística

La regresión logística no es un algoritmo de regresión. La regresión logística estima valores discretos de acuerdo con un conjunto particular de variables independientes. En otras palabras, predice las posibilidades de un evento usando una función logit. Por eso también tiene el nombre de regresión logit.

Debido a que la regresión logística se diseñó para Clasificación, es una opción popular entre los expertos. Además, es el algoritmo más adecuado para comprender la influencia de varias variables independientes en un posible resultado. Su desventaja es que solo funciona con variables binarias predecibles y asume que sus datos no contienen valores faltantes.

Máquinas de vectores soporte

En una máquina de vectores de soporte, el valor de cada característica es el valor de una coordenada específica, y cada elemento es un punto en un espacio n-dimensional. Aquí, 'n' representa la cantidad de funciones que tiene.

Supongamos que tiene dos características, longitud del cabello y altura. En este caso, primero trazaríamos estas variables en un espacio bidimensional y cada punto tiene dos coordenadas. Llamamos a estas coordenadas Vectores de Soporte; es por eso que este algoritmo se llama Support Vector Machine.

Después de graficar esos puntos, encontraremos una línea que divide los datos en dos grupos claramente clasificados. Esta línea es el clasificador, y crearíamos clases de acuerdo con el lado en el que se encuentran nuestros datos de prueba en el resultado final.

Pensamientos concluyentes

En este blog, hemos tratado de explicar los algoritmos de clasificación de la manera más completa posible. Si desea obtener más información sobre este tema, le sugerimos que visite nuestro blog, que está lleno de valiosos artículos de este tipo.

También puedes ir a nuestro catálogo de cursos de Machine learning para conocer más sobre este tema. Estamos seguros de que encontrará algo útil.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

Prepárate para una carrera del futuro

DIPLOMA PG EN MACHINE LEARNING E INTELIGENCIA ARTIFICIAL

Más información @ ACTUALIZAR