Los mejores conjuntos de datos para proyectos de aprendizaje automático: todo lo que necesita saber
Publicado: 2020-03-20Tabla de contenido
Introducción
El aprendizaje automático es una de las tecnologías más poderosas que se utilizan en la actualidad. Es una rama muy importante de la inteligencia artificial utilizada para hacer que las computadoras sean más inteligentes, dándoles la capacidad de aprender sin intervención humana. Esto hace que el aprendizaje automático sea una herramienta vital para el manejo de datos. Dado que los datos se usan literalmente en todas partes, desde la toma de decisiones comerciales hasta la selección de experiencias de los clientes, el aprendizaje automático facilita la identificación de los patrones ocultos dentro de estos enormes conjuntos de datos.
Lo que es más importante, estos conjuntos de datos son una forma de organizar grandes cantidades de datos sin procesar. Usando estos conjuntos de datos, los programas se escriben para crear aplicaciones que facilitan las operaciones comerciales. En este artículo, aprendemos sobre los diferentes conjuntos de datos para el aprendizaje automático .
Pero antes de entrar en eso, primero comprendamos los conceptos básicos del aprendizaje automático.
¿Qué es el aprendizaje automático?
El aprendizaje automático es responsable de impulsar sus plataformas favoritas, como Netflix, Facebook, Twitter, YouTube, Spotify, Google y Baidu. ¡Incluso los asistentes de voz como Alexa y Siri seleccionan sus canciones favoritas para usar el aprendizaje automático! Todas estas plataformas intentan utilizar los datos asociados a usted. Esto incluye sus búsquedas, clics, vistas, imágenes que comparte, comentarios, reacciones y publicaciones. Obtenga más información sobre las principales aplicaciones de aprendizaje automático.
El aprendizaje automático utiliza estos datos para hacerse una idea de sus preferencias. Por ejemplo, Netflix lo usa para sugerir una serie de televisión que podría disfrutar viendo, según las que haya visto. Incluso plataformas como Amazon utilizan el aprendizaje automático para sugerir sus productos, en función de su historial de compras anterior.
El segmento más destacado del mercado del aprendizaje automático es el aprendizaje profundo, que puede llegar a mil millones para 2025.

¿Parece interesante? Entremos en los tecnicismos del tema.
Categorías de aprendizaje automático
El aprendizaje automático se divide ampliamente en tres: aprendizaje supervisado, no supervisado y aprendizaje por refuerzo .
Aprendizaje supervisado
En este proceso, la computadora aprenderá de un conjunto de datos llamado datos de entrenamiento . Tomará decisiones y predecirá resultados futuros basados en esto. Más adelante aprenderá a entrenar conjuntos de datos para el aprendizaje automático . Aquí, el sistema recibe pares de entrada-salida y, mientras trabaja con estos pares, aprende cómo se asignan juntos. Es como tener un conjunto de preguntas que tienen las respuestas correctas etiquetadas.
Cuando el sistema o el algoritmo aprende la relación entre los pares de entrada-salida, puede predecir la salida cuando se le proporciona una nueva entrada. Obtenga más información sobre los tipos de aprendizaje supervisado.
Aprendizaje sin supervisión
Aquí, la computadora busca conjuntos de datos para identificar patrones ocultos sin ninguna ayuda. Trabaja en tareas complicadas y descubre resultados por sí mismo. Obtenga más información sobre el aprendizaje no supervisado.
Aprendizaje reforzado
Este proceso de aprendizaje automático utiliza un método de prueba y error para determinar la solución a un problema. Entonces, la salida del programa dependerá de la entrada actual que se le proporcione.
Ahora que tiene una comprensión básica del aprendizaje automático, pasemos a los conjuntos de datos.
¿Qué son los conjuntos de datos para el aprendizaje automático?
Un conjunto de datos, como su nombre indica, es una colección de datos . Pueden ser los datos de una sola base de datos, donde se utiliza una variable para representar las columnas. Las filas de esta tabla pueden estar representadas por un miembro de este conjunto de datos en particular.
Es importante preparar conjuntos de datos para el aprendizaje automático . Esto se debe a que los algoritmos no pueden funcionar correctamente en datos sin procesar o no estructurados. Se requiere un conjunto de datos adecuado para resolver los problemas y llegar a decisiones. Por ejemplo, es posible que una aplicación meteorológica no tenga el conjunto de datos adecuado que contenga los datos climáticos de los últimos días o semanas. Por lo tanto, no podrá ofrecer pronósticos meteorológicos precisos para la próxima semana.
Por lo tanto, sin conjuntos de datos adecuados para el aprendizaje automático , el proyecto de aprendizaje automático no tendrá éxito, incluso con científicos de datos capacitados.
Los conjuntos de datos para el aprendizaje automático se utilizan para crear modelos de aprendizaje automático . Estos modelos representan un problema del mundo real usando una expresión matemática. Para generar un modelo de este tipo, debe proporcionarle un conjunto de datos para aprender y trabajar.
Los tipos de conjuntos de datos que se utilizan en el aprendizaje automático son los siguientes:
1. Conjunto de datos de entrenamiento
Este es quizás el más importante entre los conjuntos de datos para el aprendizaje automático. Se alimenta a un algoritmo de aprendizaje automático para crear un modelo. El algoritmo busca patrones de datos para identificar las variables de entrada. Esto lo ayudará a alcanzar su objetivo final o el resultado deseado. El resultado de este conjunto de datos es un modelo de aprendizaje automático que puede usar para predecir resultados.
Alrededor del 60% del conjunto de datos está ocupado por un conjunto de datos de entrenamiento.
2. Conjunto de datos de validación
Se utiliza un conjunto de datos de validación en la etapa de validación, mientras se crea un proyecto de aprendizaje automático. Esta etapa viene justo después del entrenamiento. Este conjunto de datos es importante para evaluar el modelo de aprendizaje automático. Los ingenieros de aprendizaje automático utilizan este conjunto para modificar y ajustar los hiperparámetros del modelo. Estos hiperparámetros son parámetros que tienen valores establecidos antes de que el programa comience a aprender.
Sus valores no pueden estimarse a partir de los datos. Por ejemplo, los hiperparámetros pueden incluir la profundidad de un árbol o varias capas no detectadas en una red neuronal.
Según los famosos escritores Max Kuhn y Kjell Johnson , “un modelo de datos debe evaluarse usando muestras que no se usaron para crearlo o ajustarlo. Esto le da un resultado imparcial de la efectividad del modelo. Cuando se trabaja con una gran cantidad de datos, es mejor reservar algunas muestras de datos para su evaluación. El conjunto de entrenamiento es la muestra utilizada para construir el modelo, mientras que las muestras de validación y prueba se utilizan para analizar su rendimiento”.
3. Conjunto de datos de prueba
Los conjuntos de datos de prueba para el aprendizaje automático se utilizan para comprender cómo funcionará el modelo de aprendizaje automático en el futuro. Con este conjunto de datos, podrá comprender qué tan preciso es su modelo de datos. En términos simples, este conjunto de datos le dirá cuánto ha aprendido su modelo de datos del conjunto de entrenamiento.
Estos conjuntos ocupan el 20% de los datos. El conjunto contendrá variables de entrada junto con salidas verificadas. Sin embargo, en los proyectos de aprendizaje automático , generalmente no usamos un conjunto de datos de entrenamiento en la etapa de prueba. Esto se debe a que el algoritmo estará al tanto de la salida esperada, ya que ha aprendido de este conjunto de datos anteriormente.
Después de la fase de prueba, el modelo de datos generalmente ya no se ajusta. Esto se debe a que un mayor ajuste puede dar lugar a un sobreajuste . El sobreajuste ocurre cuando un modelo de datos se entrena con demasiados datos. En este caso, el modelo comienza a aprender de las entradas de datos inexactas en el conjunto de datos dado. Como resultado, no funciona correctamente en nuevos conjuntos de datos. ¡Es como tratar de entrar en jeans de gran tamaño cuando no puedes!
Pero para que el modelo de aprendizaje automático funcione correctamente, debe proporcionarle un buen conjunto de datos. Sin conjuntos de datos para el aprendizaje automático , el algoritmo no podrá aprender y resolver los problemas. Por ejemplo, cuando no tiene los libros y recursos adecuados, no puede aprobar la prueba que desea.

Preparación de conjuntos de datos para el aprendizaje automático
Averigüemos los pasos necesarios para crear conjuntos de datos para el aprendizaje automático .
Recopilación de datos
El primer paso es recopilar todos los datos relevantes que pueda necesitar para su modelo de aprendizaje automático. La cantidad de datos dependerá de la complejidad del proyecto de aprendizaje automático . Un proyecto simple requerirá menos datos que uno complicado. Por lo tanto, debe determinar todo lo que realmente necesita para resolver el problema en cuestión.
Los datos se pueden recopilar fácilmente respondiendo las siguientes preguntas:
- ¿Qué tipo de datos están disponibles para usted para el proyecto?
- ¿Qué datos no están disponibles que necesita para el proyecto? – Esto puede incluir ciertas bases de datos o datos almacenados en sistemas en la nube. Es posible que necesite derivar estos datos.
- ¿Qué datos puede eliminar de los datos existentes? Esto significa eliminar los datos no deseados que son irrelevantes para su proyecto.
Cuando tenga las respuestas a todas estas preguntas, puede comenzar a recopilar datos de varias fuentes. Estos pueden ser archivos de texto, archivos .csv, buscando estructuras de datos anidados en archivos JSON y XML y repositorios de datos.
Ahora puede pasar al siguiente paso en la creación de conjuntos de datos para el aprendizaje automático .
Preprocesamiento de datos
Ahora que tiene todos los datos que necesita, debe procesarlos correctamente para su modelo. El método de preprocesamiento está convirtiendo conjuntos de datos sin procesar en conjuntos significativos que se pueden utilizar. El proceso consta de los tres pasos siguientes:
Formateo
Muchos de los datos sin procesar que ha recopilado no están en un formato adecuado para su modelo de aprendizaje automático. Puede estar en un archivo JSON o en una base de datos relacional. Debe convertir estos datos en un archivo de texto o un archivo .csv según su conveniencia.
Limpieza
Este es el proceso en el que corrige y elimina datos faltantes y no deseados de su conjunto de datos. Es posible que estas instancias de datos no ayuden a resolver el problema. Además, puede haber información confidencial dentro de algunos de los atributos que puede necesitar ocultar o eliminar por completo. Esto hace que sus conjuntos de datos para el aprendizaje automático sean más significativos.
Muestreo
Es posible que haya recopilado muchos más datos de los que realmente necesita para el proyecto. Grandes conjuntos de datos consumen mucho espacio de memoria. También provocan tiempos de ejecución más prolongados y muchos más cálculos cuando se alimentan a un algoritmo de aprendizaje automático. Para evitar estos problemas, debe crear muestras más pequeñas de los datos seleccionados que su modelo pueda usar fácilmente. Este proceso se llama muestreo .
Ingeniería de características
Aquí, el conjunto de datos se analiza para determinar las mejores características y patrones que ayudarán a resolver el problema y hacer predicciones. Entonces, en este proceso, algunos de los datos pueden eliminarse de un gran conjunto de datos. La atención se centra en las características más importantes que se adaptan al modelo.
Los datos se pueden descomponer en partes pequeñas para identificar las características cruciales. Por ejemplo, los datos de ventas de un año en particular se pueden desglosar en meses y días de la semana. De esta forma, el análisis del rendimiento de las ventas es más fácil y rápido. Esto también ayuda a que el algoritmo de aprendizaje automático calcule más rápido.
Dividir los datos
Ahora los datos deben dividirse en tres conjuntos: entrenamiento, prueba y validación. Debe dividirlo en 70%, 20% y 10% respectivamente para los conjuntos. Para una prueba adecuada, asegúrese de seleccionar solo subconjuntos de datos que no se superpongan. Dividir conjuntos de datos correctamente para permitir que el modelo de aprendizaje automático alcance el resultado deseado más rápido. Puede refinar el modelo de datos más adelante.
Bueno, ahora ha aprendido cómo curar un conjunto de datos para un algoritmo de aprendizaje automático. Pero, ¿qué sucede si tiene un proyecto y no tiene tiempo para crear su propio conjunto de datos? Gracias a Internet, hay muchos conjuntos de datos listos para usar disponibles para que elijas.
Conjuntos de datos de aprendizaje automático en línea
Estos son los conjuntos de datos más útiles para el aprendizaje automático en la web:
- El conjunto de datos de vivienda de Boston
Una opción popular entre los conjuntos de datos para el aprendizaje automático . Se utiliza para el reconocimiento de patrones. Consiste en información sobre las distintas casas de Boston, incluidos datos como el número de habitaciones, la tasa de impuestos y la tasa de criminalidad en el área. El conjunto de datos, que consta de 506 filas y 14 variables en las columnas de datos, es bueno para predecir los precios de la vivienda.
- Conjunto de datos de Parkinson
Este conjunto de datos consta de 195 registros de pacientes, junto con 23 atributos diferentes que tienen mediciones biomédicas. Puede utilizar el conjunto de datos para separar a los pacientes sanos de los que tienen la enfermedad de Parkinson.
- IMDB
Un conjunto de datos que consta de 25.000 reseñas de películas. Esto se utiliza para la clasificación de sentimientos binarios.
- MIMIC-III
Este es un conjunto de datos disponible abiertamente que fue creado por el MIT Lab for Computational Physiology. Consiste en datos de salud de alrededor de 40,000 pacientes de cuidados críticos. Aquí se incluye información como medicamentos, pruebas de laboratorio, signos vitales y datos demográficos.

- Berkeley DeepDrive BDD100k
El Berkeley DeepDrive BDD100k es actualmente el mayor conjunto de datos utilizado para desarrollar programas de aprendizaje automático para automóviles autónomos. Contiene más de 100.000 videos conduciendo en varios momentos del día en diferentes condiciones climáticas. Los datos se basan en las ciudades de Nueva York y San Francisco.
- Conjunto de datos de Uber Pickups
Este conjunto de datos tiene información sobre las recolecciones de los clientes de Uber de abril a septiembre de 2014 en Nueva York. Hay alrededor de 4,5 millones de datos de clientes de este tipo y 14 millones más de enero a junio de 2015. Puede realizar análisis de datos utilizando este conjunto de datos para recopilar más información sobre los clientes. Esto puede ayudar a las empresas a mejorar significativamente sus negocios.
- Conjunto de datos de clientes de centros comerciales
Contiene información sobre las personas que visitan los centros comerciales. El conjunto de datos contiene detalles como sexo, edad, ID de cliente, puntuación de gastos y mucho más. Esto puede ser muy útil en el marketing de destino. Según datos como la edad y el puntaje de gasto, las empresas pueden segmentar a los clientes en grupos. Pueden crear experiencias de cliente únicas para estos grupos.
Conclusión
Al igual que las palabras y frases adecuadas hacen que un poema se quede contigo durante mucho tiempo, se necesita el conjunto de datos correcto para un proyecto exitoso. Esta es la razón por la que muchas de las mejores empresas contratan ingenieros de datos para la tarea de crear el mejor conjunto de datos para un sistema de aprendizaje automático en particular. Así que tómese su tiempo mientras prepara sus conjuntos de datos para el aprendizaje automático .
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e inteligencia artificial de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.
¿Qué es un conjunto de datos para el aprendizaje automático?
Los datos son el componente más importante para el aprendizaje automático. El conjunto de datos es una colección de información que se utiliza para aprender. El conjunto de datos generalmente proviene de una fuente que es diferente de los datos de entrenamiento. Estos datos se utilizan para evaluar qué tan bien funciona el modelo. Por ejemplo, para entrenar un clasificador de imágenes, utilizará imágenes de la colección ImageNet. Vale la pena señalar que una imagen puede estar presente tanto en los conjuntos de datos de entrenamiento como de prueba, pero tiene que estar en categorías distintas. Otro uso popular de los conjuntos de datos es entrenar el algoritmo de reconocimiento de imágenes. Para entrenar el algoritmo, deberá tener diez mil imágenes de gatos y diez mil imágenes de perros. ImageNet es uno de los conjuntos de datos más utilizados en la industria.
¿Qué es un conjunto de datos de validación en el aprendizaje automático?
En el aprendizaje automático supervisado, tenemos el conjunto de datos de entrenamiento, que consta de muestras de entradas y sus salidas deseadas. El conjunto de datos de validación es el segundo conjunto de datos, en el que no se entrenan el modelo o los parámetros del modelo. Los parámetros del modelo/modelo se estiman en el conjunto de datos de entrenamiento. El conjunto de datos de validación se utiliza para estimar la precisión esperada del modelo de aprendizaje supervisado en muestras no vistas, es decir, muestras de prueba. El conjunto de datos de validación se utiliza para medir o estimar el error de generalización del modelo de aprendizaje supervisado.
¿Cuáles son algunos conjuntos de datos populares utilizados en el aprendizaje automático?
Hay varios conjuntos de datos que podemos usar para mejorar en el aprendizaje automático. Algunos de ellos son: datos de encuestas demográficas e ingresos de los hogares, encuesta de propietarios de empresas de la Oficina del Censo de EE. UU., precios de la bolsa de valores, edad y sexo de los ciudadanos estadounidenses, uso de energía de los estados de EE. UU., porcentaje de viviendas compradas, vendidas y alquiladas, hashtags de Twitter, Facebook Me gusta y otras actividades de las personas en Facebook, conjuntos de datos ImageNet Large Scale Visual Recognition Challenge (ILSVRC), volumen de envío mensual desde los principales puertos de EE. UU., etc. Hay muchos más conjuntos de datos que podemos usar para el aprendizaje automático.