Top 9 des algorithmes de science des données que tout scientifique de données devrait connaître

Publié: 2020-02-13

Un algorithme est un ensemble de règles ou d'instructions qui sont suivies par un programme informatique pour implémenter des calculs ou effectuer d'autres fonctions de résolution de problèmes. Comme la science des données consiste à extraire des informations significatives pour les ensembles de données, il existe une myriade d'algorithmes disponibles pour résoudre le problème.

Les algorithmes de science des données peuvent aider à classer, prédire, analyser, détecter les défauts, etc. Les algorithmes constituent également la base des bibliothèques d'apprentissage automatique telles que scikit-learn. Ainsi, il est utile d'avoir une solide compréhension de ce qui se passe sous la surface.

Apprenez les programmes de science des données des meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Lire : Algorithmes d'apprentissage automatique pour la science des données

Table des matières

Algorithmes de science des données couramment utilisés
- 1. Classement
- 2. Régression
- 3. Régression linéaire
- 4. La méthode des moindres carrés
- 5. Descente en dégradé
- 6. Régression logistique
- 7. Regroupement K-means
- 8. Voisin le plus proche K (KNN)
- 9. Analyse en composantes principales (ACP)
Emballer
Quels sont certains des points à prendre en compte avant de choisir un algorithme de science des données pour le ML ?
Que sont les algorithmes flexibles et restrictifs ?
Qu'est-ce que l'algorithme Naive Bayes ?

Algorithmes de science des données couramment utilisés

1. Classement

Il est utilisé pour les variables cibles discrètes et la sortie se présente sous la forme de catégories. Le regroupement, l'association et l'arbre de décision sont la façon dont les données d'entrée peuvent être traitées pour prédire un résultat. Par exemple, un nouveau patient peut être étiqueté comme « malade » ou « en bonne santé » en utilisant un modèle de classification.

2. Régression

La régression est utilisée pour prédire une variable cible ainsi que pour mesurer la relation entre les variables cibles, qui sont de nature continue. Il s'agit d'une méthode simple pour tracer «la ligne de meilleur ajustement» sur un tracé d'une seule caractéristique ou d'un ensemble de caractéristiques, disons x, et la variable cible, y.

La régression peut être utilisée pour estimer la quantité de précipitations sur la base de la corrélation précédente entre les différents paramètres atmosphériques. Un autre exemple consiste à prédire le prix d'une maison en fonction de caractéristiques telles que la superficie, la localité, l'âge, etc.

Comprenons maintenant l'un des éléments constitutifs les plus fondamentaux des algorithmes de science des données - la régression linéaire.

3. Régression linéaire

L'équation linéaire pour un ensemble de données avec N caractéristiques peut être donnée comme suit : y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , où b 0 est certaines constantes.

Pour les données univariées (y = b 0 + b 1 .x), le but est de minimiser la perte ou l'erreur à la plus petite valeur possible pour la variable renvoyée. C'est le but principal d'une fonction de coût. Si vous supposez que b 0 est égal à zéro et que vous entrez des valeurs différentes pour b 1 , vous constaterez que la fonction de coût de régression linéaire est de forme convexe.

Des outils mathématiques aident à optimiser les deux paramètres, b 0 et b 1 , et minimisent la fonction de coût. L'un d'eux est discuté comme suit.

4. La méthode des moindres carrés

Dans le cas ci-dessus, b 1 est le poids de x ou la pente de la droite, et b 0 est l'ordonnée à l'origine. De plus, toutes les valeurs prédites de y se trouvent sur la ligne. Et la méthode des moindres carrés cherche à minimiser la distance entre chaque point, disons (x i , y i ), les valeurs prédites.

Pour calculer la valeur de b 0 , trouvez la moyenne de toutes les valeurs de x i et multipliez-les par b 1 . Ensuite, soustrayez le produit de la moyenne de tous les y i . De plus, vous pouvez exécuter un code en Python pour la valeur de b 1 . Ces valeurs seraient prêtes à être connectées à la fonction de coût et la valeur de retour serait minimisée pour les pertes et les erreurs. Par exemple, pour b 0 = -34,671 et b 1 = 9,102, la fonction de coût renvoie 21,801.

5. Descente en dégradé

Lorsqu'il y a plusieurs caractéristiques, comme dans le cas d'une régression multiple, le calcul complexe est pris en charge par des méthodes telles que la descente de gradient. C'est un algorithme d'optimisation itératif appliqué pour déterminer le minimum local d'une fonction. Le processus commence par prendre une valeur initiale pour b 0 et b 1 et continue jusqu'à ce que la pente de la fonction de coût soit nulle.

Supposons que vous deviez vous rendre à un lac situé au point le plus bas d'une montagne. Si vous n'avez aucune visibilité et que vous vous tenez au sommet de la montagne, vous commencerez à un point où la terre a tendance à descendre. Après avoir franchi la première marche et suivi le chemin de descente, il est probable que vous atteigniez le lac.

Alors que la fonction de coût est un outil qui nous permet d'évaluer les paramètres, l'algorithme de descente de gradient peut aider à mettre à jour et à former les paramètres du modèle. Passons maintenant en revue quelques autres algorithmes pour la science des données.

6. Régression logistique

Alors que les prédictions de la régression linéaire sont des valeurs continues, la régression logistique donne des prédictions discrètes ou binaires. En d'autres termes, les résultats de la sortie appartiennent à deux classes après application d'une fonction de transformation. Par exemple, la régression logistique peut être utilisée pour prédire si un élève a réussi ou échoué ou s'il pleuvra ou non. En savoir plus sur la régression logistique.

7. Regroupement K-means

Il s'agit d'un algorithme itératif qui attribue des points de données similaires dans des clusters. Pour faire de même, il calcule les centroïdes de k clusters et regroupe les données en fonction de la plus petite distance par rapport au centroïde. En savoir plus sur l'analyse de clusters dans l'exploration de données.

8. Voisin le plus proche K (KNN)

L'algorithme KNN parcourt l'ensemble de données pour trouver les k instances les plus proches lorsqu'un résultat est requis pour une nouvelle instance de données. L'utilisateur spécifie la valeur de k à utiliser.

9. Analyse en composantes principales (ACP)

L'algorithme PCA réduit le nombre de variables en capturant la variance maximale des données dans un nouveau système de "composantes principales". Cela facilite l'exploration et la visualisation des données.

Emballer

La connaissance des algorithmes de science des données expliqués ci-dessus peut s'avérer extrêmement utile si vous débutez dans le domaine. Comprendre les moindres détails peut également être utile lors de l'exécution des fonctions quotidiennes de science des données.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quels sont certains des points à prendre en compte avant de choisir un algorithme de science des données pour le ML ?

Vérifiez la linéarité ; la méthode la plus simple consiste à ajuster une ligne droite ou à effectuer une régression logistique ou SVM et à rechercher les erreurs résiduelles. Une erreur plus grande indique que les données ne sont pas linéaires et que des techniques sophistiquées sont nécessaires pour les ajuster.

Les algorithmes de régression Naive Bayes, linéaire et logistique sont simples à construire et à exécuter. SVM, qui nécessite un ajustement des paramètres, les réseaux de neurones avec un temps de convergence rapide et les forêts aléatoires nécessitent tous une quantité importante de temps pour former les données. En conséquence, faites votre choix en fonction de votre rythme préféré.

Pour générer des prédictions fiables, il est généralement recommandé de collecter une grande quantité de données. Cependant, la disponibilité des données est souvent un problème. Si les données d'apprentissage sont restreintes ou si l'ensemble de données contient moins d'observations et un plus grand nombre de caractéristiques, telles que des données génétiques ou textuelles, utilisez des algorithmes avec un biais élevé/une faible variance, tels que la régression linéaire ou la SVM linéaire.

Que sont les algorithmes flexibles et restrictifs ?

Puisqu'ils créent une variété limitée de formes de fonctions de mappage, certains algorithmes sont dits restrictifs. La régression linéaire, par exemple, est une technique limitée car elle ne peut créer que des fonctions linéaires comme des lignes.

Certains algorithmes sont dits flexibles car ils peuvent créer une plus grande gamme de formes de fonctions de mappage. KNN avec k = 1 est très polyvalent, par exemple, car il considère chaque point de données d'entrée lors de la génération de la fonction de sortie de mappage.

Si une fonction est capable de prédire une valeur de réponse pour une observation donnée qui est proche de la vraie valeur de réponse, cela se caractérise par sa précision. Une technique hautement interprétable (modèles restrictifs comme la régression linéaire) signifie que chaque prédicteur individuel peut être compris, tandis que les modèles flexibles offrent une plus grande précision au détriment d'une faible interprétabilité.

Qu'est-ce que l'algorithme Naive Bayes ?

C'est un algorithme de classification basé sur le théorème de Bayes et l'hypothèse d'indépendance des prédicteurs. En termes simples, un classificateur Naive Bayes indique que la présence d'une caractéristique dans une classe n'est pas liée à la présence d'une autre caractéristique. Le modèle Naive Bayes est simple à construire et est particulièrement utile pour les grands ensembles de données. En raison de sa simplicité, Naive Bayes est connu pour vaincre même les algorithmes de classification les plus puissants.