データ分析のスタートアップガイド(パート1)
公開: 2017-10-14これは2部構成のシリーズの最初のものです。
目次
パート1—データウェアハウスの構築
今日、誰もがデータウェアハウスを構築したいと考えています。 しかし、本当にそれが必要なのでしょうか? あなたがそれを必要としているとしても、あなたはあなたが正しいものを構築していることをどのように知っていますか、そしてあなたはいつそれから初期の利益を本当に享受し始めるつもりですか?
しかし、まず最初に、データウェアハウスとは何ですか? 簡単に言えば、すべてのソースからのデータを保存できる単一の場所です。 これは、複数のソースからのデータを含む複雑な分析を必要とする質問に答えるのに役立ちます。 また、最も頻繁なデータ要件を迅速に処理できるようにデータウェアハウスを構築することもできます。
1年前、私たちはUpGradでこの質問に苦労していました—データウェアハウスを構築するかどうか?
これや他の多くの質問に答えるために、私たちは以前にそれをしたことのある他の多くの人々と話をしました。 私たちが最初に気付いたのは、データウェアハウス(またはDW)を構築するには、データエンジニア、アーキテクト、アナリスト、および製品マネージャーの適切なチームが必要であるということでした。 私たちが最初に尋ねた質問は、それだけの投資の価値があるのかということでした。
正しい答えを見つけるには、正しい質問をする必要があります。 これらの質問にはかなりの時間と労力がかかるかもしれませんが、これらを終えると、DWを進めるかどうかについてはるかに自信が持てるようになります。 ここでは、理解を深めるために独自の演習から得た回答を提供し、独自のデータウェアハウスを設定するかどうかを決定するこのプロセスで役立つことを願っています。

質問1:分析/データからどのような答えを得たいですか? そして、どのくらいの頻度で?
すでにお気づきのように、これはすべての中で最も重要な質問です。 これらの質問に答えるときは、他のチーム(営業、マーケティング、ビジネス)を巻き込んで、何かを見逃さないようにする必要があります。
これが私たちにとって何を意味するのか:分析/データから3つの重要な回答が必要でした:
a。 マーケティングのどのチャネルがうまく機能していますか、つまりマルチチャネルアトリビューションですか?
UpGradのマーケティングチームは、ユーザー獲得のためにオンラインとオフラインの両方で異なるチャネルを使用しています。 キャリアアップを目指すプロフェッショナル向けに、オフラインのワークショップやイベントを実施しています。 また、FacebookやGoogleなどのオンラインチャネルを使用して、これらの専門家を引き付けています。 したがって、毎週、または毎日でもマーケティング戦略を作成するために、どのチャネルがうまく機能しているかを知ることが非常に重要になります。 さらに、リマーケティングやオフラインの取り組みが、これらのユーザーを有給の学生に変えることに影響を与えるかどうかも知りたいと思います。
b。 コンバージョンファネルはどのように見えますか?
私たちの目標到達プロセスは、ほとんどの企業よりもはるかに大きく見えます。 最初の訪問—サインアップ—アプリケーションの開始—アプリケーションの送信—受験/免除—候補リスト—支払い済み。 都市、年齢層、取得チャネルなどの複数の異なる機能に基づいて、目標到達プロセスがどのように見えるかを知ることが重要です。
c。 ユーザーが最終的に支払うかどうか、つまりリードスコアリングを予測できますか?
リードスコアリングは、適合性と関心の2つに基づくことができます。 適合度は、経験年数、GRE / GMAT / CATスコアなどのユーザー属性によって決定されます。関心は、ユーザーがWebサイトでどれだけアクティブであったか、またはユーザーが電話や電子メールにどれだけ反応したかに基づいています。
これらとは別に、次のことを行いました。
d。 コースまたはプログラムのすべての生徒の成績を追跡して、適切なタイミングで生徒を支援できるようにします。
e。 コースコンテンツの学生の評価とレビューを監視します。
さまざまなチームからこのような質問がさらにたくさんありました…しかし、あなたはその考えを理解しています。
必要なデータ分析スキルトップ4質問2 :これらの回答のうち、現在の設定ですでに提供されているものはどれですか、それとも最小限の調整のみが必要ですか?
この質問をすることで、現在のデータベース機能をよく理解できます。 これを尋ねるときは、部屋に適切なエンジニアがいることを確認してください(ヒント:これらのほとんどは、トランザクションデータベースを管理するスタートアップのバックエンドエンジニアです)。
これが私たちにとって何を意味するのか:
a。 マルチチャネルアトリビューション
購入する前に、訪問者はさまざまなチャネルを介して多くの訪問を行います。 彼らは単にGoogleであなたを見つけてあなたのウェブサイトにアクセスすることもあれば、オフラインのプロモーションイベントに参加することもあります。 したがって、訪問者が最終的に製品を購入したときに、どのチャネルが最も効果的であったかを特定できるようにしたいと考えています。 そのためには、オンラインとオフラインの両方のデータ*を1か所に統合し、さまざまなアトリビューションモデルを実行する必要があります。
b。 コンバージョンファネル
私たちの目標到達プロセスには、カウンセリングチームによってSalesforceに手動でアップロードされる候補リストやテストなどのオフラインコンポーネントが含まれています。 目標到達プロセスでは、WebストリームデータをSalesforceデータにマージする必要があります。

c。 リードスコアリング
リードスコアリングツールのほとんどは基本的なものです。 たとえば、(Salesforceによって)Pardotでストリーミングされたイベントに基づいてスコアを付けることができます。 Salesforce、Web分析、および電子メールからのデータをマージして、適合性と関心に基づいて最終的なスコアを与えることができるシステムが必要でした。
d。 学生のパフォーマンス
このデータはトランザクションデータベースに保存されているため、BIMEやTableauなどの視覚化ツールを見つけてデータを取得し、これらの追跡ダッシュボードを作成できます。
e。 学生の評価とレビュー
上記(d)と同じ。
そこで、a、b、cを念頭に置いて、データウェアハウススキーマの構築を開始しました。 多くの新興企業はリードスコアリングを必要とせず、コンバージョンファネルとアトリビューションのためのデータソースは1つだけです。 これらのスタートアップにとって、ビジネスインテリジェンス(BI)ツールは、実際にデータウェアハウスを構築するよりも効果的です。

質問3:今後1〜2年間で規模を拡大すると、状況は異なりますか?
大規模な場合、トランザクションデータベースが非常に大きくなり、クエリが遅くなったり、失敗し始めたりする可能性があります。 倉庫を設計する際には、そのような状況についても計画する必要があります。
これが私たちにとって何を意味するのか:
コースと学生を追加すると、学生活動データベーステーブルは非常に速く成長します。 クエリはすでに減速し始めています。 スキーマを設計する際には、このことを念頭に置いておくのが理にかなっています。
質問4 :データウェアハウスに必要なデータを送信したい場所は他にありますか?
ウェアハウスに保存されているデータには、主要なユースケースとは別に、さまざまなユースケースがあります。 これらのユースケースは、スキーマを検討するのに役立ち、スキーマの構築中に必要に応じて追加のフィールドを含めることができます。
これが私たちにとって何を意味するのか:
リードスコアはカウンセリングチームによって使用されるため、Salesforceに送信する必要があります。 リードスコアの適合スコアは、特定のコースチームがコースから自動的に除外するために使用することもできます。 アトリビューションモデルはマーケティングチームによって使用されるため、特定の形式でBIツールに送信する必要があります。
最後に、質問5 :次のような決定を下すための適切なチームがありますか。
- 規模と分析のユースケースに基づいて、どの分析データベースを使用する必要がありますか?
- 現在のユースケースのスキーマ/データモデルはどうあるべきですか? このスキーマはスケーラブルですか?
- 分析データベースを作成するには、どのようなETLが必要ですか? ETLにはどのくらいの時間がかかりますか?
- さまざまなテーブルの更新頻度はどれくらいですか? レコメンデーションエンジンのようなリアルタイムのユースケースをどのように処理する必要がありますか?
これらの決定の多くを行うには、データエンジニア、少なくとも3〜5年間データを扱ってきたシニアエンジニア、およびデータサイエンティストが必要です。
データ分析をビジネス成果に結び付ける12の方法これらの5つの質問を検討した後、スタートアップはデータウェアハウスを構築するかどうかを決定できます。 データウェアハウスの長所と短所の簡単なリストを次に示します。これは、さらに評価するのに役立ちます。
長所—
- データを完全に制御し、サードパーティのツールが高額になったり、要件を満たしていない場合は、サードパーティのツールに簡単に切り替えることができます。
- データサイエンス製品を構築できます! 推奨事項、検索、感情分析、スパムとハムなど。これらの製品のリアルタイムデータが必要かどうか、または1時間ごとまたは1日ごとに更新する必要があるかどうかを事前に確認してください。
- 先に指摘したように、アナリストの時間と手間を大幅に節約できます。 クエリが高速になり、データの信頼性が高まります。
短所—
- メリットを享受し始めるずっと前に、エンジニアリングとデータストレージのリソースに多額の投資をする必要があります。
- 最初のビルドは完璧にはほど遠い可能性があります。 あなたが初期から中期の会社であるならば、多くのプロセスはまだ進化しています。 今後3〜6か月で発生するケースをカバーすることはできません。 なぜそう思わなかったのかなどの質問に直面すると、がっかりするかもしれません。 これらの小さな挫折を一掃し、長期的な目標に目を光らせる必要があります。
- ほとんどの組織には、ニーズに合ったデータウェアハウスソリューションを構築するための適切な調査と忍耐力がありません。 すべてを開始する前に、多くの時間を投資する必要があります。

この演習を完了すると、スタートアップのデータ分析の旅に出る準備が整い、コストのかかるミスを回避できると確信しています。 以下にコメントして、この投稿が気に入ったか、役に立ったかをお知らせください。 次のものをお楽しみに!
*オンラインチャネルしかない場合は、Googleアナリティクスのマルチチャネルアトリビューションを使用できたはずです。 また、Googleアナリティクスにアップロードできるオフラインイベントデータもあります。 問題が解決しました? ああ! GAは、個人を特定できる情報を送信することを禁じています。 メール情報がない場合、GoogleアナリティクスのIDを独自のデータベースのメールにマッピングし、これらのIDを検索して、これらのIDを含むオフラインデータをGAにアップロードしない限り、このデータを他のデータソースにリンクすることは困難です。
スタートアップでデータ分析が重要なのはなぜですか?
まず、データ分析は、スタートアップがその目的を決定するのに役立ちます。 指標なしで目標を設定し、進捗状況を追跡することは困難です。これは、新興企業が改善と前進を続けるのに役立ちます。 第二に、企業の誰もがデータを利用して生産性を高め、意思決定を向上させることができます。 これは、起業家が賢明で、測定され、十分な情報に基づいてスタートアップを決定するのを支援します。 また、顧客が何を望んでいるかを事前に知ることで、マーケティングキャンペーンはより顧客中心になります。 最後に、データ分析は、新興企業が業務を最適化し、収益を増やすためのさらなる潜在的な機会を発見するのを支援します。
データ分析は新興企業にとって本当に重要ですか?
答えはイエスです! 新興企業はスリリングで疲れ果てています。 可能性は無限であり、それは爽快で圧倒的です。 導入しなければならないことはたくさんありますが、データ分析は見過ごされがちです。 データ分析は、会社が十分に確立されるまで延期できるものだと思う場合、そこに到達することははるかに困難であることがわかります。 データ分析から学んだことは、次のレベルに到達するための鍵となる可能性があります。 これは、マーケティング、ユーザー、製品、生産性、カスタマーサービスに関する重要な質問に答え、スタートアップの正しい方向に進むのに役立つデータです。
新興企業に最適なデータ分析ツールはどれですか?
21世紀では、データの収集と分析は意思決定に不可欠です。 小さな製品を販売する場合でも、サービスとしてのソフトウェア(SaaS)ビジネスを販売する場合でも、Webサイトを運営する場合でも、顧客が製品を購入する動機、マーケティングファネルの外観、および製品を改善する方法を知る必要があります。 ビジネスの成功を支援する最も効果的な分析ツールには、Google Analytics、RおよびPython、Microsoft Excel、Tableau、RapidMiner、KNIME、Power BI、Apache Spark、Qlik View、Talend、Splunkなどがあります。
