数据分析初创公司指南(第一部分)
已发表: 2017-10-14这是两部分系列的第一部分。
目录
第一部分——构建数据仓库
如今,每个人都想建立一个数据仓库。 但是真的需要吗? 即使你需要它,你怎么知道你正在构建正确的东西,你什么时候真正开始从中获得早期收益?
但首先,什么是数据仓库? 简而言之,它是一个可以存储所有来源数据的地方。 它有助于回答需要涉及来自多个来源的数据的复杂分析的问题。 您还可以以快速处理最常见的数据需求的方式构建数据仓库。
一年前,我们在 UpGrad 为这个问题苦苦挣扎——建还是不建数据仓库?
为了回答这个问题,以及许多其他类似的问题,我们采访了很多以前做过的人。 我们注意到的第一件事是,要构建数据仓库(或 DW),您需要合适的数据工程师、架构师、分析师和产品经理团队。 我们问的第一个问题是——真的值得这么多投资吗?
为了找到正确的答案,我们需要问自己一组正确的问题。 这些问题可能需要大量的时间和精力,但是一旦你完成了这些,你就会对是否继续使用 DW 更有信心。 在这里,我们将提供我们从自己的练习中得到的答案,以增强您的理解,并希望在您决定是否建立自己的数据仓库的过程中有所帮助。

问题 #1:您想从分析/数据中得到什么答案? 频率是多少?
正如您必须已经注意到的那样,这是最重要的问题。 在回答这些问题时,您必须让其他团队(销售、营销、业务)参与进来,以确保您不会错过任何事情。
这对我们意味着什么:我们希望从分析/数据中获得 3 个重要答案:
一种。 哪些营销渠道表现良好,即多渠道归因?
UpGrad 的营销团队使用线上和线下的不同渠道来获取用户。 我们为寻求职业升级的专业人士举办线下研讨会和活动。 我们还使用 Facebook 和 Google 等在线渠道来吸引这些专业人士。 因此,了解哪些渠道表现良好对于我们来说非常重要,以便每周甚至每天制定我们的营销策略。 此外,我们还想知道再营销或线下努力是否对将这些用户转化为付费学生有任何影响。
湾。 我们的转化漏斗是什么样的?
我们的漏斗看起来比大多数公司大得多。 初访——注册——申请开始——申请提交——应试/免试——入围——付费。 根据城市、年龄组、获取渠道等多种不同的特征来了解漏斗的外观至关重要。
C。 我们能否预测用户最终是否会付费,即潜在客户评分?
潜在客户评分可以基于两件事 - 适合度和兴趣。 适合度取决于用户属性,如多年经验、GRE/GMAT/CAT 分数等。兴趣取决于用户在网站上的活跃程度,或者用户对电话或电子邮件的响应程度。
除了这些,我们还想:
d。 跟踪每个学生在课程或计划中的表现,以便我们能够在正确的时间帮助他们。
e. 监控学生对课程内容的评分和评论。
我们从不同的团队收到了更多这样的问题……但你明白了。
您需要的 4 大数据分析技能问题 #2 :当前设置已经提供了哪些答案,或者只需要很少的调整?
问这个问题将使您对当前的数据库功能有一个很好的了解。 当你问这个问题时,请确保你在房间里有合适的工程师(提示:其中大多数是初创公司中负责事务数据库的后端工程师)。
这对我们意味着什么:
一种。 多渠道归因
在进行购买之前,访问者会通过不同的渠道进行多次访问。 有时他们只是在 Google 上找到您并访问您的网站,有时他们来参加线下促销活动。 因此,当访问者最终购买产品时,我们希望能够确定哪个渠道最有效。 为此,我们必须将在线和离线数据* 合并到一个地方并运行不同的归因模型。
湾。 转化漏斗
我们的漏斗再次包含一些离线组件,例如由咨询团队手动上传到 Salesforce 的候选清单和测试。 漏斗需要将 webstream 数据合并到 Salesforce 数据。

C。 领先评分
大多数潜在客户评分工具都是基本的。 例如,您可以根据 Pardot 中流式传输的事件(由 Salesforce)进行评分。 我们需要一个可以合并来自 Salesforce、网络分析和电子邮件的数据的系统,以根据适合度和兴趣给出最终分数。
d。 学生表现
由于这些数据存储在事务数据库中,我们可以找到像 BIME 或 Tableau 这样的可视化工具来提取数据并创建这些跟踪仪表板。
e. 学生的评分和评论
同上(d)。
因此,我们开始构建数据仓库模式,牢记 a、b 和 c。 许多初创公司不需要潜在客户评分,并且只有一个用于转换漏斗和归因的数据源。 对于那些初创公司来说,商业智能 (BI) 工具比实际构建数据仓库更有效。

问题 3:随着您在未来 1 到 2 年的扩展,情况会有所不同吗?
在规模上,您的事务数据库可能会变得非常大,查询可能会变慢或开始失败。 在设计仓库时,您也应该为这种情况做好计划。
这对我们意味着什么:
随着我们添加更多课程和学生,我们的学生活动数据库表将增长得非常快。 查询已经开始放缓。 在设计模式时牢记这一点是有意义的。
问题 #4 :您还想在数据仓库中的其他任何地方发送您想要的数据吗?
存储在仓库中的数据可能有许多不同的用例,除了主要的用例。 这些用例可帮助您考虑架构,并在构建架构时根据需要包含其他字段。
这对我们意味着什么:
咨询团队使用领先分数,因此我们必须将其发送给 Salesforce。 特定课程团队也可以使用领先评分的适合分数来自动免除他们的课程。 归因模型由营销团队使用,因此我们必须以特定格式将其发送到 BI 工具。
最后,问题 #5 :您是否有合适的团队来做出以下决定:
- 根据规模和分析用例,您应该使用哪个分析数据库?
- 当前用例的模式/数据模型应该是什么? 这个模式是否可扩展?
- 创建分析数据库需要什么样的 ETL? ETL 需要多长时间?
- 不同表的更新频率是多少? 您应该如何处理实时用例,例如推荐引擎的用例?
您将需要一名数据工程师、一名已经使用数据至少 3 到 5 年的高级工程师,以及一名数据科学家来做出许多此类决策。
将数据分析与业务成果联系起来的 12 种方法思考完这5个问题,创业公司就可以决定是否建数据仓库了。 以下是数据仓库优缺点的简单列表,可帮助您进一步评估:
优点 —
- 您将完全控制您的数据,并在第三方工具变得更昂贵或不符合您的要求时轻松切换到它们。
- 您可以构建数据科学产品! 推荐、搜索、情绪分析、垃圾邮件与非垃圾邮件等。请注意并事先检查您是否需要这些产品的实时数据,或者是否需要每小时/每天更新一次。
- 如前所述,您可以为分析师节省大量时间和麻烦。 查询将更快,数据将是可靠的。
缺点——
- 您需要大量投资于工程和数据存储资源,然后才能开始获得收益。
- 您的第一次构建可能远非完美。 如果您是一家处于早期到中期阶段的公司,那么很多流程仍在不断发展。 您无法涵盖将在未来 3-6 个月内出现的案件。 面对诸如我们为什么没有想到这一点之类的问题,最终可能会让您感到沮丧。 您将需要消除这些小挫折,并着眼于长期目标。
- 大多数组织没有足够的研究和耐心来构建满足其需求的数据仓库解决方案。 在开始之前,您需要投入大量时间。

一旦你完成了这个练习,我很确定你将准备好为你的创业公司踏上数据分析的旅程,并将避免代价高昂的错误。 在下方发表评论,让我们知道您是否喜欢这篇文章或觉得它有用。 请继续关注下一个!
*如果我们只有在线渠道,我们可以使用谷歌分析多渠道归因。 我们还有离线事件数据,可以上传到谷歌分析。 问题解决了? 唉! GA 禁止您发送任何个人身份信息。 在没有电子邮件信息的情况下,很难将此数据链接到其他数据源,除非您将谷歌分析的 ID 映射到您自己数据库中的电子邮件,查找这些 ID 并将具有这些 ID 的离线数据上传到 GA。
为什么数据分析在初创企业中很重要?
首先,数据分析可以帮助初创企业确定其目标。 如果没有指标,就很难设定目标和跟踪进度,这有助于初创企业不断改进和前进。 其次,公司中的每个人都可以利用数据来提高生产力并改进决策。 它帮助企业家做出明智、衡量和消息灵通的创业决策。 此外,提前了解客户想要什么使营销活动更加以客户为中心。 最后,数据分析可帮助初创企业发现进一步优化运营和增加收益的潜在机会。
数据分析对初创企业真的很重要吗?
答案是肯定的! 初创公司既令人兴奋又令人筋疲力尽。 可能性是无限的,这既令人振奋又令人难以抗拒。 有许多事情必须落实到位,但数据分析经常被忽视。 如果您认为数据分析是您可以推迟到您的公司建立完善的事情,您会发现实现这一目标更具挑战性。 你从数据分析中学到的东西可能是让你更上一层楼的关键。 这些数据可以回答有关您的营销、用户、产品、生产力、客户服务的关键问题,以帮助您为创业找到正确的方向。
哪些是适合初创企业的最佳数据分析工具?
在 21 世纪,数据收集和分析对于决策至关重要。 无论您是销售小型产品、软件即服务 (SaaS) 业务还是运营网站,您都需要了解是什么促使您的客户购买您的产品、您的营销渠道是什么样的,以及如何改进它。 帮助您的业务取得成功的一些最有效的分析工具包括 Google Analytics、R 和 Python、Microsoft Excel、Tableau、RapidMiner、KNIME、Power BI、Apache Spark、Qlik View、Talend、Splunk 等。
