4 tipos de datos: nominal, ordinal, discreto, continuo

Publicado: 2020-12-01

Tabla de contenido

Introducción

La ciencia de datos se trata de experimentar con datos sin procesar o estructurados. Los datos son el combustible que puede llevar a una empresa por el camino correcto o, al menos, proporcionar información procesable que puede ayudar a diseñar estrategias de campañas actuales, organizar fácilmente el lanzamiento de nuevos productos o probar diferentes experimentos.

Todas estas cosas tienen un componente de conducción común y esto es Data. Estamos entrando en la era digital donde producimos muchos datos. Por ejemplo, una empresa como Flipkart produce más de 2 TB de datos al día.

Cuando estos datos tienen tanta importancia en nuestra vida, se vuelve importante almacenarlos y procesarlos correctamente sin ningún error. Cuando se trata de conjuntos de datos, la categoría de datos juega un papel importante para determinar qué estrategia de preprocesamiento funcionaría para un conjunto en particular para obtener los resultados correctos o qué tipo de análisis estadístico se debe aplicar para obtener los mejores resultados. Profundicemos en algunas de las categorías de datos más utilizadas.

Tipo de datos cualitativos

Los datos cualitativos o categóricos describen el objeto bajo consideración utilizando un conjunto finito de clases discretas. Significa que este tipo de datos no se pueden contar o medir fácilmente usando números y, por lo tanto, se pueden dividir en categorías. El sexo de una persona (hombre, mujer u otros) es un buen ejemplo de este tipo de datos.

Por lo general, se extraen de audio, imágenes o medios de texto. Otro ejemplo puede ser una marca de teléfono inteligente que brinda información sobre la calificación actual, el color del teléfono, la categoría del teléfono, etc. Toda esta información se puede categorizar como datos cualitativos. Hay dos subcategorías debajo de esto:

Nominal

Son el conjunto de valores que no poseen un ordenamiento natural. Entendamos esto con algunos ejemplos. El color de un teléfono inteligente se puede considerar como un tipo de dato nominal ya que no podemos comparar un color con otros.

No es posible afirmar que 'Rojo' es mayor que 'Azul'. El género de una persona es otro en el que no podemos diferenciar entre hombre, mujer u otros. Las categorías de teléfonos móviles, ya sea de rango medio, segmento económico o teléfono inteligente premium, también son tipos de datos nominales.

Leer: Carrera en ciencia de datos

Ordinal

Este tipo de valores tienen un ordenamiento natural manteniendo su clase de valores. Si consideramos el tamaño de una marca de ropa, podemos clasificarlos fácilmente según su etiqueta de nombre en el orden de pequeño <mediano <grande. El sistema de calificación al calificar a los candidatos en una prueba también se puede considerar como un tipo de datos ordinales donde A+ es definitivamente mejor que la calificación B.

Estas categorías nos ayudan a decidir qué estrategia de codificación se puede aplicar a qué tipo de datos. La codificación de datos para datos cualitativos es importante porque los modelos de aprendizaje automático no pueden manejar estos valores directamente y es necesario convertirlos a tipos numéricos, ya que los modelos son de naturaleza matemática.

Para el tipo de datos nominales donde no hay comparación entre las categorías, se puede aplicar la codificación one-hot, que es similar a la codificación binaria considerando que hay menos cantidad y para el tipo de datos ordinales, se puede aplicar la codificación de etiquetas, que es una forma de número entero. codificación

Tipo de datos cuantitativos

Este tipo de datos trata de cuantificar cosas y lo hace considerando valores numéricos que lo hacen contable por naturaleza. El precio de un teléfono inteligente, el descuento ofrecido, la cantidad de calificaciones de un producto, la frecuencia del procesador de un teléfono inteligente o la RAM de ese teléfono en particular, todas estas cosas se incluyen en la categoría de tipos de datos cuantitativos.

La clave es que puede haber un número infinito de valores que puede tomar una característica. Por ejemplo, el precio de un teléfono inteligente puede variar de una cantidad x a cualquier valor y se puede desglosar aún más según los valores fraccionarios. Las dos subcategorías que los describen claramente son:

Discreto

Los valores numéricos que caen dentro de los números enteros o números enteros se colocan en esta categoría. La cantidad de parlantes en el teléfono, cámaras, núcleos en el procesador, la cantidad de sims compatibles, todos estos son algunos de los ejemplos del tipo de datos discretos.

Continuo

Los números fraccionarios se consideran valores continuos. Estos pueden tomar la forma de la frecuencia operativa de los procesadores, la versión de Android del teléfono, la frecuencia wifi, la temperatura de los núcleos, etc.

Debe leer: Salario del científico de datos en India

¿Pueden superponerse los tipos ordinal y discreto?

Si presta atención a esto, puede dar numeración a las clases ordinales, y entonces debería llamarse tipo discreto u ordinal. La verdad es que sigue siendo ordinal. La razón de esto es que incluso si se hace la numeración, no transmite las distancias reales entre las clases.

Por ejemplo, considere el sistema de calificación de una prueba. Los grados respectivos pueden ser A, B, C, D, E, y si los numeramos desde el principio sería 1,2,3,4,5. Ahora, de acuerdo con las diferencias numéricas, la distancia entre el grado E y el grado D es la misma que la distancia entre el grado D y el C, lo cual no es muy preciso, ya que todos sabemos que el grado C sigue siendo aceptable en comparación con el grado E, pero la mitad la diferencia los declara iguales.

También puede aplicar la misma técnica a un formulario de encuesta donde la experiencia del usuario se registra en una escala de muy mala a muy buena. Las diferencias entre varias clases no están claras, por lo que no se pueden cuantificar directamente.

Diferentes Pruebas

Hemos discutido todas las principales clasificaciones de datos. Esto es importante porque ahora podemos priorizar las pruebas a realizar en diferentes categorías. Ahora tiene sentido trazar un histograma o gráfico de frecuencia para datos cuantitativos y un gráfico circular y un gráfico de barras para datos cualitativos.

El análisis de regresión, donde se analiza la relación entre una variable dependiente y dos o más independientes, solo es posible para datos cuantitativos. La prueba ANOVA (Análisis de varianza) se aplica solo a variables cualitativas, aunque puede aplicar la prueba ANOVA de dos vías que usa una variable de medición y dos variables nominales.

De esta forma, puede aplicar la prueba de Chi-cuadrado sobre datos cualitativos para descubrir relaciones entre variables categóricas.

Conclusión

En este artículo, discutimos cómo los datos que producimos pueden cambiar las tornas, cómo las diversas categorías de datos se organizan según sus necesidades. También analizamos cómo los tipos de datos ordinales pueden superponerse con los tipos de datos discretos.

También se discutió qué tipo de gráfico es adecuado para qué categoría de datos junto con varios tipos de prueba que se pueden aplicar en tipos de datos específicos y otras pruebas que usan todo tipo de datos.

Si tiene curiosidad por aprender ciencia de datos para estar al frente de los avances tecnológicos vertiginosos, consulte la Certificación avanzada en ciencia de datos de upGrad & IIIT-B

¿Por qué es importante la ciencia de datos?

La importancia de la ciencia de datos radica en el hecho de que reúne la experiencia en el dominio de la programación, las matemáticas y las estadísticas para generar nuevos conocimientos y dar sentido a grandes cantidades de datos. Para las empresas, la ciencia de datos es un recurso importante para tomar decisiones basadas en datos, ya que describe la recopilación, el almacenamiento, la clasificación y la evaluación de datos. Los expertos informáticos altamente experimentados lo emplean con frecuencia. Cuando nos preguntamos por qué la ciencia de datos es esencial, la respuesta es porque el valor de los datos sigue aumentando. La ciencia de datos tiene una gran demanda porque demuestra cómo los datos digitales alteran las organizaciones y les permiten tomar decisiones más informadas y esenciales.

¿Cuál es el alcance de la ciencia de datos?

La ciencia de datos se puede encontrar en casi cualquier lugar en estos días. Eso incluye transacciones en línea como compras en Amazon, fuentes de redes sociales como Facebook/Instagram, recomendaciones de Netflix e incluso las capacidades de reconocimiento facial y de dedos que brindan los teléfonos inteligentes. La ciencia de datos cubre numerosas ideas tecnológicas de vanguardia, como la inteligencia artificial, el Internet de las cosas (IoT) y el aprendizaje profundo, por mencionar algunas. El efecto de la ciencia de datos ha crecido dramáticamente debido a sus avances y avances técnicos, ampliando su alcance. Al aprender ciencia de datos, puede elegir su perfil de trabajo entre muchas opciones, y la mayoría de estos trabajos están bien pagados. Algunos de estos perfiles de trabajo son analista de datos, científico de datos, ingeniero de datos, científico e ingeniero de aprendizaje automático, desarrollador de inteligencia comercial, arquitecto de datos, estadístico, etc.

¿En qué se diferencian los datos nominales de los datos ordinales?

Los datos nominales incluyen nombres o características que contienen dos o más categorías, y las categorías no tienen un orden inherente. En otras palabras, estos tipos de datos no tienen ninguna clasificación u orden natural. Un tipo de datos ordinal es similar a uno nominal, pero la distinción entre los dos es un orden obvio en los datos. En general, los datos ordinales tienen algún orden, pero los datos nominales no. Todos los datos de clasificación, como las escalas de Likert, las escalas de heces de Bristol y cualquier otra escala calificada entre 0 y 10, se pueden expresar mediante datos ordinales.