Guide de démarrage pour l'analyse de données (première partie)

Publié: 2017-10-14

C'est le premier d'une série en deux parties.

Table des matières

Première partie - Construire un entrepôt de données

De nos jours, tout le monde veut construire un entrepôt de données. Mais en a-t-on vraiment besoin ? Même si vous en avez besoin, comment savez-vous que vous construisez la bonne chose et quand allez-vous vraiment commencer à en récolter les premiers bénéfices ?

Mais tout d'abord, qu'est-ce qu'un entrepôt de données ? En termes simples, il s'agit d'un emplacement unique où vous pouvez stocker des données provenant de toutes les sources. Il aide à répondre aux questions qui nécessitent une analyse complexe impliquant des données provenant de plusieurs sources. Vous pouvez également créer un entrepôt de données de manière à répondre rapidement à vos besoins en données les plus fréquents.

Il y a un an, nous étions aux prises avec cette question à UpGrad : construire ou ne pas construire un entrepôt de données ?

Afin de répondre à cela, et à bien d'autres questions de ce genre, nous avons parlé à beaucoup d'autres personnes qui l'avaient déjà fait. La première chose que nous avons remarquée est que pour construire un entrepôt de données (ou DW), vous avez besoin de la bonne équipe d'ingénieurs de données, d'architectes, d'analystes et de chefs de produit. La première question que nous avons posée était : cela vaut-il vraiment autant d'investissement ?

Pour trouver la bonne réponse, nous devons nous poser les bonnes questions. Ces questions peuvent prendre beaucoup de temps et d'énergie, mais une fois que vous en avez terminé, vous serez beaucoup plus confiant quant à l'opportunité d'aller de l'avant avec DW ou non. Ici, nous fournirons les réponses que nous avons obtenues de notre propre exercice pour améliorer votre compréhension et, espérons-le, vous aider dans ce processus de décision de créer ou non votre propre entrepôt de données.

Un guide de démarrage pour l'analyse de données Blog UpGrad

Question 1 : Quelles réponses souhaitez-vous obtenir des analyses/données ? Et à quelle fréquence ?

Comme vous l'avez déjà noté, c'est la question la plus importante de toutes. Vous devez impliquer d'autres équipes (Ventes, Marketing, Business) en répondant à ces questions pour vous assurer de ne rien manquer.

Ce que cela signifiait pour nous : Nous voulions 3 réponses importantes à partir des analyses/données :

une. Quels canaux de marketing fonctionnent bien, c'est-à-dire l'attribution multicanal ?

L'équipe marketing d'UpGrad utilise différents canaux, en ligne et hors ligne, pour l'acquisition d'utilisateurs. Nous organisons des ateliers et des événements hors ligne pour les professionnels à la recherche d'une mise à niveau de carrière. Nous utilisons également des canaux en ligne comme Facebook et Google pour attirer ces professionnels. Il devient donc très important pour nous de savoir quels canaux fonctionnent bien, afin d'élaborer notre stratégie marketing sur une base hebdomadaire, voire quotidienne. De plus, nous voulons également savoir si le remarketing ou les efforts hors ligne ont un effet sur la conversion de ces utilisateurs en étudiants rémunérés.

b. À quoi ressemble notre entonnoir de conversion ?

Notre entonnoir semble beaucoup plus grand que la plupart des entreprises. Première visite - inscription - début de la candidature - soumission de la candidature - test passé / exempté - liste restreinte - payé. Il est essentiel de savoir à quoi ressemble l'entonnoir en fonction de plusieurs caractéristiques différentes telles que la ville, le groupe d'âge, le canal d'acquisition, etc.

c. Peut-on prédire si un utilisateur finira par payer ou non, c'est-à-dire le lead scoring ?

La notation des prospects peut être basée sur deux éléments : l'adéquation et l'intérêt. L'adéquation est déterminée par les attributs de l'utilisateur tels que les années d'expérience, le score GRE/GMAT/CAT, etc. L'intérêt est basé sur le degré d'activité de l'utilisateur sur le site Web ou sur sa réactivité aux appels ou aux e-mails.

En dehors de ceux-ci, nous voulions :

ré. Suivez les performances de chaque étudiant dans un cours ou un programme afin que nous puissions les aider au bon moment.

e. Surveillez les évaluations et les critiques des étudiants sur le contenu du cours.

Nous avons reçu beaucoup plus de questions de ce type de la part de différentes équipes… mais vous voyez l'idée.

Les 4 principales compétences en analyse de données dont vous avez besoin

Question #2 : Lesquelles de ces réponses sont déjà fournies par la configuration actuelle, ou ne nécessiteraient que des ajustements minimes ?

Poser cette question vous donnera une bonne idée des capacités actuelles de la base de données. Assurez-vous d'avoir les bons ingénieurs dans la salle lorsque vous posez cette question (indice : la plupart d'entre eux seraient des ingénieurs back-end dans une startup qui s'occupent de la base de données transactionnelle).

Ce que cela signifiait pour nous :

une. Attribution multicanal

Avant d'effectuer un achat, les visiteurs effectuent de nombreuses visites via différents canaux. Parfois, ils vous trouvent simplement sur Google et viennent sur votre site Web, et parfois ils viennent assister à un événement promotionnel hors ligne. Ainsi, lorsqu'un visiteur achète enfin le produit, nous voulons être en mesure d'attribuer les canaux qui ont été les plus efficaces. Pour ce faire, nous devons fusionner les données en ligne et hors ligne* en un seul endroit et exécuter différents modèles d'attribution.

b. Entonnoirs de conversion

Notre entonnoir comprend à nouveau des composants hors ligne, comme des listes restreintes et des tests qui sont téléchargés manuellement dans Salesforce par l'équipe de conseil. L'entonnoir nécessite la fusion des données du flux Web avec les données Salesforce.

c. Notation des leads

La plupart des outils de notation des prospects sont basiques. Par exemple, vous pouvez marquer sur la base des événements diffusés dans Pardot (par Salesforce). Nous avions besoin d'un système capable de fusionner les données de Salesforce, des analyses Web et des e-mails pour donner un score final basé sur l'adéquation et l'intérêt.

ré. Performances des étudiants

Étant donné que ces données sont stockées dans une base de données transactionnelle, nous pourrions trouver un outil de visualisation comme BIME ou Tableau pour extraire les données et créer ces tableaux de bord de suivi.

e. Notes et avis des étudiants

Identique à (d) ci-dessus.

Nous avons donc commencé à créer un schéma d'entrepôt de données, en gardant à l'esprit a, b et c. De nombreuses startups n'ont pas besoin de notation des prospects et n'ont qu'une seule source de données pour les entonnoirs de conversion et l'attribution. Pour ces startups, un outil de Business Intelligence (BI) est plus efficace que la construction d'un entrepôt de données.

Un guide de démarrage pour l'analyse de données UpGrad Blog

Question n° 3 : Les choses vont-elles changer à mesure que vous évoluerez au cours des 1 à 2 prochaines années ?

À grande échelle, votre base de données transactionnelle peut devenir très volumineuse et les requêtes peuvent ralentir ou commencer à échouer. Vous devez également prévoir de telles situations lors de la conception de l'entrepôt.

Ce que cela signifiait pour nous :

Notre table de base de données sur les activités des étudiants augmentera très rapidement à mesure que nous ajouterons plus de cours et d'étudiants. Les requêtes ont déjà commencé à ralentir. Il était logique de garder cela à l'esprit lors de la conception du schéma.

Question #4 : Y a-t-il un autre endroit où vous souhaitez envoyer les données que vous souhaitez dans votre entrepôt de données ?

Les données stockées dans l'entrepôt peuvent avoir de nombreux cas d'utilisation différents, en dehors du principal. Ces cas d'utilisation vous aident à réfléchir au schéma et à inclure des champs supplémentaires, si nécessaire, lors de la création du schéma.

Ce que cela signifiait pour nous :

Le score du prospect est utilisé par l'équipe de conseil, nous devons donc l'envoyer à Salesforce. Le score d'ajustement de la notation principale peut également être utilisé par une équipe de cours particulière pour les exempter automatiquement du cours. Le modèle d'attribution est utilisé par l'équipe marketing, nous devons donc l'envoyer à l'outil de BI dans un format particulier.

Enfin, Question #5 : Avez-vous la bonne équipe pour prendre des décisions comme :

  1. Quelle base de données d'analyse devez-vous utiliser, en fonction de l'échelle et des cas d'utilisation d'analyse ?
  2. Quel devrait être le schéma/modèle de données pour les cas d'utilisation actuels ? Ce schéma est-il évolutif ?
  3. Quel type d'ETL serait nécessaire pour créer la base de données d'analyse ? Combien de temps l'ETL prendrait-il ?
  4. Quelle serait la fréquence de mise à jour des différentes tables ? Comment gérer les cas d'utilisation en temps réel, comme celui des moteurs de recommandation ?

Vous aurez besoin d'un ingénieur de données, d'un ingénieur senior qui a déjà travaillé avec des données pendant au moins 3 à 5 ans et d'un data scientist pour prendre bon nombre de ces décisions.

12 façons de connecter l'analyse de données aux résultats commerciaux

Après avoir réfléchi à ces 5 questions, une startup peut décider de construire ou non un entrepôt de données. Voici une simple liste des avantages et des inconvénients d'un entrepôt de données, pour vous aider à évaluer encore plus :

Avantages -

  1. Vous aurez un contrôle total sur vos données et passerez facilement à des outils tiers au fur et à mesure qu'ils deviennent plus chers pour vous ou ne répondent pas à vos besoins.
  2. Vous pouvez créer des produits de science des données ! Recommandations, recherche, analyse des sentiments, spam vs jambon, etc. Soyez prudent et vérifiez au préalable si vous aurez besoin de données en temps réel pour ces produits, ou s'ils devront être mis à jour toutes les heures/jour.
  3. Comme indiqué précédemment, vous pouvez économiser beaucoup de temps et de problèmes pour les analystes. Les requêtes seront plus rapides et les données seront fiables.

Les inconvénients -

  1. Vous devez investir massivement dans les ressources d'ingénierie et de stockage de données, bien avant de pouvoir commencer à en récolter les bénéfices.
  2. Il y a de fortes chances que votre première construction soit loin d'être parfaite. Si vous êtes une entreprise en phase de démarrage ou intermédiaire, de nombreux processus évoluent encore. Vous ne pouvez pas couvrir les cas qui vont survenir dans les 3 à 6 prochains mois. Faire face à des questions comme pourquoi n'y avons-nous pas pensé, etc. pourrait finir par vous décourager. Vous devrez éliminer ces petits revers et garder les yeux sur l'objectif à long terme.
  3. La plupart des organisations n'ont pas la recherche et la patience nécessaires pour créer la solution d'entrepôt de données adaptée à leurs besoins. Il vous faudra investir beaucoup de temps avant de tout démarrer.

Un guide de démarrage pour l'analyse de données UpGrad Blog

Une fois que vous aurez terminé cet exercice, je suis à peu près sûr que vous serez prêt à vous lancer dans l'aventure de l'analyse de données pour votre startup et que vous éviterez des erreurs coûteuses. Commentez ci-dessous et faites-nous savoir si vous avez aimé cet article ou l'avez trouvé utile. Restez à l'écoute pour le prochain!

* Si nous n'avions eu que des canaux en ligne, nous aurions pu utiliser l'attribution multicanal de google analytics. Nous avons également des données d'événements hors ligne, qui peuvent être téléchargées sur Google Analytics. Problème résolu? Hélas! GA vous interdit d'envoyer des informations personnellement identifiables. En l'absence d'informations sur les e-mails, il est difficile de lier ces données à d'autres sources de données, à moins que vous ne mappiez l'identifiant de Google Analytics aux e-mails de votre propre base de données, que vous recherchiez ces identifiants et que vous téléchargiez des données hors ligne avec ces identifiants dans GA.

Pourquoi le Data Analytics est-il important dans une start-up ?

Pour commencer, l'analyse des données peut aider une start-up à déterminer ses objectifs. Il serait difficile de fixer des objectifs et de suivre les progrès sans mesures, ce qui aide une start-up à continuer à s'améliorer et à aller de l'avant. Deuxièmement, tout le monde dans une entreprise peut utiliser les données pour augmenter la productivité et améliorer la prise de décision. Il aide les entrepreneurs à prendre des décisions de démarrage sages, mesurées et bien informées. De plus, savoir ce que veulent les clients à l'avance rend les campagnes marketing plus centrées sur le client. Enfin, l'analyse de données aide les start-ups à découvrir d'autres opportunités potentielles d'optimisation des opérations et d'augmentation des revenus.

Le Data Analytics est-il vraiment important pour les start-up ?

La réponse est oui! Les start-ups sont à la fois passionnantes et épuisantes. Les possibilités sont illimitées, ce qui est à la fois exaltant et accablant. De nombreuses choses doivent être mises en place, mais l'analyse des données est souvent négligée. Si vous pensez que l'analyse des données est quelque chose que vous pouvez reporter jusqu'à ce que votre entreprise soit bien établie, vous constaterez qu'il est beaucoup plus difficile d'y parvenir. Ce que vous apprenez de l'analyse des données pourrait être la clé pour vous faire passer au niveau supérieur. Ce sont des données qui répondent à des questions cruciales sur votre marketing, vos utilisateurs, votre produit, votre productivité, votre service client, pour vous aider à prendre la bonne direction pour votre start-up.

Quels sont les meilleurs outils de Data Analytics pour les start-up ?

Au XXIe siècle, la collecte et l'analyse de données sont cruciales pour prendre des décisions. Que vous vendiez un petit produit, une entreprise de logiciel en tant que service (SaaS) ou que vous exploitiez un site Web, vous devez savoir ce qui motive vos clients à acheter votre produit, à quoi ressemble votre entonnoir marketing et comment vous pouvez l'améliorer. Certains des outils d'analyse les plus efficaces pour contribuer au succès de votre entreprise sont Google Analytics, R et Python, Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, Qlik View, Talend, Splunk, etc.