PCA en aprendizaje automático: suposiciones, pasos para aplicar y aplicaciones
Publicado: 2020-11-12Tabla de contenido
Comprender la reducción de la dimensionalidad en ML
Los algoritmos de ML (aprendizaje automático) se prueban con algunos datos que se pueden llamar un conjunto de características en el momento del desarrollo y la prueba. Los desarrolladores deben reducir la cantidad de variables de entrada en su conjunto de características para aumentar el rendimiento de cualquier modelo/algoritmo de ML en particular.
Por ejemplo, suponga que tiene un conjunto de datos con numerosas columnas o tiene una matriz de puntos en un espacio tridimensional. En ese caso, puede reducir las dimensiones de su conjunto de datos aplicando técnicas de reducción de dimensionalidad en ML. PCA (Análisis de componentes principales) es una de las técnicas de reducción de dimensionalidad más utilizadas por los desarrolladores/evaluadores de ML. Profundicemos en la comprensión de PCA en el aprendizaje automático.
Análisis de componentes principales
PCA es una técnica estadística no supervisada que se utiliza para reducir las dimensiones del conjunto de datos. Los modelos de ML con muchas variables de entrada o mayor dimensionalidad tienden a fallar cuando se opera en un conjunto de datos de entrada más alto. PCA ayuda a identificar relaciones entre diferentes variables y luego acoplarlas. PCA funciona con algunas suposiciones que deben seguirse y ayuda a los desarrolladores a mantener un estándar.
PCA implica la transformación de variables en el conjunto de datos en un nuevo conjunto de variables que se denominan PC (componentes principales). Los componentes principales serían iguales al número de variables originales en el conjunto de datos dado.
El primer componente principal (PC1) contiene la variación máxima que estaba presente en las variables anteriores, y esta variación disminuye a medida que avanzamos hacia el nivel inferior. La PC final tendría la menor variación entre las variables y podrá reducir las dimensiones de su conjunto de funciones.
Supuestos en PCA
Hay algunos supuestos en PCA que deben seguirse, ya que conducirán al funcionamiento preciso de esta técnica de reducción de dimensionalidad en ML. Los supuestos en PCA son:

• Debe haber linealidad en el conjunto de datos, es decir, las variables se combinan de manera lineal para formar el conjunto de datos. Las variables exhiben relaciones entre sí.
• PCA asume que se debe prestar atención al componente principal con alta varianza y los PC con menor varianza se descartan como ruido. El marco de coeficientes de correlación de Pearson condujo al origen de PCA, y allí se asumió primero que los ejes con alta varianza solo se convertirían en componentes principales.
• Se debe acceder a todas las variables en el mismo nivel de medición de relación. La norma más preferida es al menos 150 observaciones del conjunto de muestras con una relación de medición de 5:1.
• Los valores extremos que se desvían de otros puntos de datos en cualquier conjunto de datos, que también se denominan valores atípicos, deben ser menores. Una mayor cantidad de valores atípicos representará errores experimentales y degradará su modelo/algoritmo de ML.
• El conjunto de características debe estar correlacionado y el conjunto de características reducido después de aplicar PCA representará el conjunto de datos original pero de una manera efectiva con menos dimensiones.
Debe leer: Salario de aprendizaje automático en India
Pasos para aplicar PCA
Los pasos para aplicar PCA en cualquier modelo/algoritmo de ML son los siguientes:
• La normalización de datos es muy necesaria para aplicar PCA. Los datos sin escalar pueden causar problemas en la comparación relativa del conjunto de datos. Por ejemplo, si tenemos una lista de números debajo de una columna en algún conjunto de datos 2D, la media de esos números se resta de todos los números para normalizar el conjunto de datos 2D. La normalización de los datos también se puede hacer en un conjunto de datos 3D.
• Una vez que haya normalizado el conjunto de datos, busque la covarianza entre diferentes dimensiones y colóquelas en una matriz de covarianza. Los elementos fuera de la diagonal en la matriz de covarianza representarán la covarianza entre cada par de variables y los elementos diagonales representarán las varianzas de cada variable/dimensión.
Una matriz de covarianza construida para cualquier conjunto de datos siempre será simétrica. Una matriz de covarianza representará la relación en los datos y podrá comprender fácilmente la cantidad de varianza en cada componente principal.
• Debe encontrar los valores propios de la matriz de covarianza que representa la variabilidad en los datos sobre una base ortogonal en la gráfica. También deberá encontrar los vectores propios de la matriz de covarianza que representarán la dirección en la que se produce la varianza máxima entre los datos.
Suponga que su matriz de covarianza 'C' tiene una matriz cuadrada 'E' de valores propios de 'C'. En ese caso, debería satisfacer esta ecuación – determinante de (EI – C) = 0, donde 'I' es una matriz identidad de la misma dimensión que 'C'. Debe verificar que su matriz de covarianza sea una matriz simétrica/cuadrada porque solo es posible el cálculo de valores propios.

• Organice los valores propios en orden ascendente/descendente y seleccione los valores propios más altos. Puede elegir con cuántos valores propios desea continuar. Perderá algo de información al ignorar los valores propios más pequeños, pero esos valores mínimos no tendrán suficiente impacto en el resultado final.
Los valores propios más altos seleccionados se convertirán en las dimensiones de su conjunto de funciones actualizado. También formamos un vector de características, que es una matriz vectorial que consta de vectores propios de valores propios relativos elegidos.
• Usando el vector de características, encontramos los componentes principales del conjunto de datos bajo análisis. Multiplicamos la transposición del vector de características con la transposición de la matriz escalada (una versión escalada de los datos después de la normalización) para obtener una matriz que contiene los componentes principales.
Notaremos que el valor propio más alto será apropiado para los datos, y los otros no proporcionarán mucha información sobre el conjunto de datos. Esto prueba que no estamos perdiendo datos al reducir las dimensiones del conjunto de datos; simplemente lo estamos representando de manera más efectiva.
Estos métodos se implementan para finalmente reducir las dimensiones de cualquier conjunto de datos en PCA.
Aplicaciones de PCA
Los datos se generan en muchos sectores, y existe la necesidad de analizarlos para el crecimiento de cualquier firma/empresa. PCA ayudará a reducir las dimensiones de los datos, lo que facilitará su análisis. Las aplicaciones de PCA son:
• Neurociencia: los neurocientíficos usan PCA para identificar cualquier neurona o para mapear la estructura del cerebro durante las transiciones de fase.
• Finanzas: PCA se utiliza en el sector financiero para reducir la dimensionalidad de los datos para crear carteras de renta fija. Muchas otras facetas del sector financiero involucran PCA, como la previsión de rendimientos, la creación de algoritmos de asignación de activos o algoritmos de equidad, etc.
• Tecnología de imágenes: PCA también se utiliza para la compresión de imágenes o el procesamiento de imágenes digitales. Cada imagen se puede representar a través de una matriz trazando los valores de intensidad de cada píxel, y luego podemos aplicarle PCA.
• Reconocimiento facial: PCA en el reconocimiento facial conduce a la creación de caras propias que hacen que el reconocimiento facial sea más preciso.
• Médico: PCA se utiliza en una gran cantidad de datos médicos para encontrar la correlación entre diferentes variables. Por ejemplo, los médicos usan PCA para mostrar la correlación entre el colesterol y las lipoproteínas de baja densidad.

• Seguridad: las anomalías se pueden encontrar fácilmente mediante PCA. Se utiliza para identificar ataques informáticos/cibernéticos y visualizarlos con la ayuda de PCA.
Puntos para llevar
PCA también puede conducir a un bajo rendimiento del modelo después de aplicarlo si el conjunto de datos original tiene una correlación débil o no tiene correlación. Las variables deben estar relacionadas entre sí para aplicar PCA perfectamente. PCA nos proporciona una combinación de funciones, y se erradica la importancia de las funciones individuales del conjunto de datos original. Los ejes principales con la mayor variación son los componentes principales ideales.
Lea también: Ideas de proyectos de aprendizaje automático
Conclusión
PCA es una técnica ampliamente utilizada para disminuir las dimensiones de un conjunto de características.
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.
¿Se puede usar PCA en todos los datos?
Si. El análisis de componentes principales (PCA) es una técnica de análisis de datos que proporciona una forma de ver y comprender datos que tienen una dimensión muy alta. En otras palabras, PCA se puede aplicar a datos que tienen una gran cantidad de variables. Existe una idea errónea común de que PCA solo se puede usar en datos que están en una forma determinada. Por ejemplo, muchas personas piensan que PCA solo es útil en variables que son numéricas. Este no es el caso. De hecho, PCA se puede utilizar en variables de todo tipo. Por ejemplo, PCA se puede aplicar a variables categóricas, variables ordinales, etc.
¿Cuáles son las limitaciones del análisis de componentes principales?
PCA es una gran herramienta para analizar sus datos y extraer dos o tres factores más importantes. Es genial detectar los valores atípicos y la tendencia. Pero tiene algunas limitaciones como: No es adecuado para conjuntos de datos pequeños (generalmente, el conjunto de datos debe tener más de 30 filas). No encuentra los factores importantes, sino que los selecciona en función de los valores. Por lo tanto, es difícil encontrar los factores importantes. No tiene una fuerte estructura matemática detrás. Es difícil comparar los datos con PCA. No puede encontrar ninguna relación no lineal.
¿Cuáles son las ventajas del análisis de componentes principales?
El análisis de componentes principales (PCA) es un método estadístico utilizado para transformar una gran cantidad de variables posiblemente correlacionadas en una cantidad mucho menor de variables no correlacionadas denominadas componentes principales. PCA se puede utilizar como una técnica de reducción de datos, ya que nos permite encontrar las variables más importantes que se necesitan para describir un conjunto de datos. PCA también se puede utilizar para reducir la dimensionalidad del espacio de datos con el fin de obtener información sobre la estructura interna de los datos. Esto es útil cuando se trata de grandes conjuntos de datos.