데이터 분석에 대한 스타트업 가이드(1부)
게시 됨: 2017-10-142부작 시리즈의 첫 번째 작품입니다.
목차
1부 — 데이터 웨어하우스 구축
오늘날 모든 사람들은 데이터 웨어하우스를 구축하고 싶어합니다. 하지만 정말 필요할까요? 필요한 경우에도 올바른 것을 구축하고 있는지 어떻게 알 수 있으며 언제부터 초기 이점을 얻을 수 있습니까?
그러나 먼저 데이터 웨어하우스가 무엇입니까? 간단히 말해서 모든 소스의 데이터를 저장할 수 있는 단일 장소입니다. 여러 소스의 데이터와 관련된 복잡한 분석이 필요한 질문에 답하는 데 도움이 됩니다. 가장 빈번한 데이터 요구 사항을 신속하게 처리하는 방식으로 데이터 웨어하우스를 구축할 수도 있습니다.
1년 전 우리는 UpGrad에서 이 질문으로 고심하고 있었습니다. 데이터 웨어하우스를 구축할 것인가 말 것인가?
이것과 다른 많은 질문에 답하기 위해 우리는 이전에 그것을 한 적이 있는 많은 사람들과 이야기를 나눴습니다. 데이터 웨어하우스(또는 DW)를 구축하려면 데이터 엔지니어, 설계자, 분석가 및 제품 관리자로 구성된 적절한 팀이 필요하다는 사실을 처음 알았습니다. 우리가 질문한 첫 번째 질문은 — 정말 그렇게 많은 투자를 할 가치가 있습니까?
올바른 답을 찾으려면 올바른 질문을 스스로에게 던져야 합니다. 이러한 질문에는 상당한 시간과 에너지가 필요할 수 있지만 일단 이 질문을 마치면 DW를 계속 진행할지 여부에 대해 훨씬 더 확신하게 될 것입니다. 여기에서는 이해를 돕기 위해 자체 실습에서 얻은 답변을 제공하고 자체 데이터 웨어하우스를 설정할지 여부를 결정하는 이 프로세스에 도움이 되기를 바랍니다.

질문 1: 분석/데이터에서 어떤 답변을 얻고 싶습니까? 그리고 어떤 주파수에서?
이미 언급했듯이 이것은 가장 중요한 질문입니다. 이 질문에 답하는 동안 다른 팀(영업, 마케팅, 비즈니스)을 참여시켜 놓친 부분이 없는지 확인해야 합니다.
이것이 우리에게 의미하는 바 : 우리는 분석/데이터에서 3가지 중요한 답변을 원했습니다.
ㅏ. 마케팅의 어떤 채널(예: 다중 채널 기여)이 잘 수행되고 있습니까?
UpGrad의 마케팅 팀은 사용자 확보를 위해 온라인과 오프라인의 다양한 채널을 사용합니다. 경력 업그레이드를 원하는 전문가를 위해 오프라인 워크샵 및 이벤트를 진행합니다. 또한 Facebook 및 Google과 같은 온라인 채널을 사용하여 이러한 전문가를 유치합니다. 따라서 매주 또는 매일의 마케팅 전략을 수립하기 위해 어떤 채널이 잘 수행되고 있는지 아는 것이 매우 중요합니다. 또한 리마케팅이나 오프라인 노력이 이러한 사용자를 유료 학생으로 전환하는 데 영향을 미치는지 여부도 알고 싶습니다.
비. 전환 퍼널은 어떻게 생겼 습니까?
깔때기는 대부분의 회사보다 훨씬 커 보입니다. 첫 방문 - 가입 - 지원 시작 - 지원서 제출 - 시험 응시/면제 - 후보자 명단 - 유료. 도시, 연령 그룹, 획득 채널 등과 같은 다양한 기능을 기반으로 유입경로가 어떻게 생겼는지 아는 것이 중요합니다.
씨. 사용자가 지불을 끝낼지 여부, 즉 리드 스코어링을 예측할 수 있습니까 ?
리드 스코어링은 적합성과 관심의 두 가지를 기반으로 할 수 있습니다. 적합성은 수년간의 경험, GRE/GMAT/CAT 점수 등과 같은 사용자 속성에 따라 결정됩니다. 관심은 사용자가 웹사이트에서 얼마나 활동했는지 또는 사용자가 전화나 이메일에 얼마나 반응했는지에 따라 결정됩니다.
이 외에도 우리는 다음을 원했습니다.
디. 코스나 프로그램에서 모든 학생의 성과 를 추적하여 적시에 도움을 줄 수 있습니다.
이자형. 과정 내용에 대한 학생의 평가 및 리뷰 를 모니터링합니다.
우리는 다른 팀에서 이러한 질문을 더 많이 받았지만 아이디어를 얻었습니다.
필요한 상위 4가지 데이터 분석 기술질문 #2 : 이 답변 중 현재 설정에서 이미 제공한 답변은 무엇입니까? 아니면 최소한의 조정만 필요합니까?
이 질문을 하면 현재 데이터베이스 기능에 대한 좋은 감각을 얻을 수 있습니다. 이 질문을 할 때 적절한 엔지니어가 있는지 확인하십시오(힌트: 이들 대부분은 트랜잭션 데이터베이스를 관리하는 스타트업의 백엔드 엔지니어일 것입니다).
이것이 우리에게 의미하는 바 :
ㅏ. 다중 채널 기여
방문자는 구매하기 전에 다양한 채널을 통해 많은 방문을 합니다. 때로는 단순히 Google에서 귀하를 찾아 귀하의 웹사이트를 방문하기도 하고, 때로는 오프라인 프로모션 행사에 참석하기 위해 방문하기도 합니다. 따라서 방문자가 마침내 제품을 구매할 때 어떤 채널이 가장 효과적인지 알 수 있기를 원합니다. 그렇게 하려면 온라인 데이터와 오프라인 데이터*를 한 곳에서 병합하고 다른 기여 모델을 실행해야 합니다.
비. 전환 유입경로
우리의 깔때기에는 상담 팀이 Salesforce에 수동으로 업로드하는 후보 목록 및 테스트와 같은 일부 오프라인 구성 요소가 다시 포함됩니다. 깔때기는 웹스트림 데이터를 Salesforce 데이터에 병합해야 합니다.

씨. 리드 득점
대부분의 리드 스코어링 도구는 기본입니다. 예를 들어 Pardot(Salesforce에 의해)에서 스트리밍된 이벤트를 기반으로 점수를 매길 수 있습니다. Salesforce, 웹 분석 및 이메일의 데이터를 병합하여 적합도와 관심도에 따라 최종 점수를 줄 수 있는 시스템이 필요했습니다.
디. 학생 성과
이 데이터는 트랜잭션 데이터베이스에 저장되므로 BIME 또는 Tableau와 같은 시각화 도구를 찾아 데이터를 가져와 이러한 추적 대시보드를 만들 수 있습니다.
이자형. 학생의 평가 및 리뷰
위의 (d)와 동일합니다.
그래서 우리는 b, c를 염두에 두고 데이터 웨어하우스 스키마를 구축하기 시작했습니다. 많은 스타트업은 리드 스코어링이 필요하지 않으며 전환 유입경로 및 기여에 대한 데이터 소스가 하나만 있습니다. 이러한 신생 기업의 경우 BI(비즈니스 인텔리전스) 도구가 실제로 데이터 웨어하우스를 구축하는 것보다 더 효과적입니다.

질문 3: 향후 1~2년 동안 규모를 확장하면 상황이 달라지나요?
규모에 따라 트랜잭션 데이터베이스가 매우 커질 수 있고 쿼리가 느려지거나 실패하기 시작할 수 있습니다. 창고를 설계하는 동안에도 이러한 상황에 대한 계획을 세워야 합니다.
이것이 우리에게 의미하는 바:
우리의 학생 활동 데이터베이스 테이블은 더 많은 과정과 학생을 추가함에 따라 매우 빠르게 성장할 것입니다. 쿼리가 이미 느려지기 시작했습니다. 스키마를 디자인할 때 이 점을 염두에 두는 것이 좋습니다.
질문 4 : 데이터 웨어하우스에서 원하는 데이터를 보내고 싶은 다른 곳이 있습니까?
웨어하우스에 저장된 데이터는 주요 사용 사례 외에도 다양한 사용 사례를 가질 수 있습니다. 이러한 사용 사례는 스키마를 통해 생각하는 데 도움이 되며 스키마를 빌드하는 동안 필요한 경우 추가 필드를 포함합니다.
이것이 우리에게 의미하는 바:
리드 점수는 상담 팀에서 사용하므로 Salesforce에 보내야 합니다. 리드 득점의 적합 점수는 특정 코스 팀에서 코스에서 자동으로 제외하는 데 사용할 수도 있습니다. 기여 모델은 마케팅 팀에서 사용하므로 특정 형식으로 BI 도구에 보내야 합니다.
마지막으로 질문 #5 : 다음과 같은 결정을 내릴 수 있는 적절한 팀이 있습니까?
- 규모 및 분석 사용 사례에 따라 어떤 분석 데이터베이스를 사용해야 합니까?
- 현재 사용 사례에 대한 스키마/데이터 모델은 무엇이어야 합니까? 이 스키마는 확장 가능합니까?
- 분석 데이터베이스를 생성하려면 어떤 종류의 ETL이 필요합니까? ETL에 시간이 얼마나 걸리나요?
- 다른 테이블의 업데이트 빈도는 어떻게 됩니까? 추천 엔진의 경우와 같은 실시간 사용 사례를 어떻게 처리해야 합니까?
이러한 결정을 내리기 위해서는 데이터 엔지니어, 이미 데이터 관련 작업을 이미 3~5년 이상 경험한 선임 엔지니어, 데이터 과학자가 필요합니다.
데이터 분석을 비즈니스 결과에 연결하는 12가지 방법이 5가지 질문에 대해 생각한 후 스타트업은 데이터 웨어하우스를 구축할지 여부를 결정할 수 있습니다. 다음은 더 자세히 평가하는 데 도움이 되는 데이터 웨어하우스의 장단점에 대한 간단한 목록입니다.
장점 —
- 데이터를 완벽하게 제어할 수 있으며 비용이 더 많이 들거나 요구 사항을 충족하지 못하는 타사 도구로 쉽게 전환할 수 있습니다.
- 데이터 과학 제품을 만들 수 있습니다! 추천, 검색, 감정 분석, 스팸 vs 햄 등 이러한 제품에 대한 실시간 데이터가 필요한지, 아니면 매시간/매일 업데이트해야 하는지 사전에 주의하고 확인하십시오.
- 앞서 지적했듯이 분석가의 시간과 수고를 많이 절약할 수 있습니다. 쿼리가 더 빨라지고 데이터가 신뢰할 수 있습니다.
단점 —
- 이점을 누리기 훨씬 전에 엔지니어링 및 데이터 스토리지 리소스에 막대한 투자를 해야 합니다.
- 첫 번째 빌드가 완벽하지 않을 가능성이 있습니다. 초기 단계에서 중간 단계의 회사라면 많은 프로세스가 여전히 진화하고 있습니다. 향후 3~6개월 동안 발생할 사건은 보장할 수 없습니다. 왜 우리는 그 생각을 하지 않았는지 등과 같은 질문에 직면하면 결국 당신을 낙담시킬 수 있습니다. 이러한 작은 차질을 없애고 장기적인 목표를 주시해야 합니다.
- 대부분의 조직에는 필요에 맞는 데이터 웨어하우스 솔루션을 구축할 수 있는 적절한 조사와 인내심이 없습니다. 모든 것을 시작하기 전에 많은 시간을 투자해야 합니다.

이 연습을 완료하면 스타트업을 위한 데이터 분석 여정을 시작할 준비가 되었으며 값비싼 실수를 피할 수 있을 것이라고 확신합니다. 아래에 댓글을 달고 이 게시물이 마음에 들었거나 유용했다면 알려주세요. 다음편도 기대해주세요!
* 온라인 채널만 있었다면 Google 애널리틱스 다중 채널 어트리뷰션을 사용할 수 있었을 것입니다. Google 애널리틱스에 업로드할 수 있는 오프라인 이벤트 데이터도 있습니다. 문제 해결됨? 아아! GA는 개인 식별 정보를 보내는 것을 금지합니다. 이메일 정보가 없으면 이 데이터를 다른 데이터 소스에 연결하기가 어렵습니다. Google 애널리틱스의 ID를 자체 데이터베이스의 이메일에 매핑하고, 이 ID를 조회하고, 이 ID가 있는 오프라인 데이터를 GA에 업로드하지 않는 한.
스타트업에서 데이터 분석이 왜 중요한가요?
시작하려면 데이터 분석을 통해 신생 기업이 목표를 결정하는 데 도움이 될 수 있습니다. 메트릭 없이 목표를 설정하고 진행 상황을 추적하는 것은 어려울 것이며, 이는 스타트업이 계속 개선하고 앞으로 나아갈 수 있도록 도와줍니다. 둘째, 회사의 모든 사람이 데이터를 활용하여 생산성을 높이고 의사 결정을 개선할 수 있습니다. 그것은 기업가가 현명하고, 측정되며, 정보에 입각한 창업 결정을 내리는 데 도움이 됩니다. 또한 고객이 원하는 것이 무엇인지 미리 알면 마케팅 캠페인을 보다 고객 중심적으로 만들 수 있습니다. 마지막으로, 데이터 분석은 스타트업이 운영을 최적화하고 수익을 높일 수 있는 추가적인 잠재적 기회를 발견하는 데 도움이 됩니다.
데이터 분석이 스타트업에게 정말 중요한가요?
대답은 예입니다! 스타트업은 설레기도 하고 피곤하기도 합니다. 가능성은 무한하며 짜릿하고 압도적입니다. 갖춰야 할 사항은 많지만 데이터 분석을 간과하는 경우가 많습니다. 데이터 분석이 회사가 잘 설립될 때까지 미룰 수 있는 일이라고 생각한다면 거기에 도달하는 것이 훨씬 더 어렵다는 것을 알게 될 것입니다. 데이터 분석에서 배우는 것은 다음 단계로 나아가는 열쇠가 될 수 있습니다. 마케팅, 사용자, 제품, 생산성, 고객 서비스에 대한 중요한 질문에 답하여 스타트업의 올바른 방향을 잡는 데 도움이 되는 데이터입니다.
스타트업을 위한 최고의 데이터 분석 도구는 무엇입니까?
21세기에 데이터 수집 및 분석은 의사 결정에 매우 중요합니다. 소규모 제품을 판매하든, SaaS(Software as a Service) 비즈니스를 운영하든, 웹사이트를 운영하든, 고객이 제품을 구매하도록 동기를 부여하는 동기, 마케팅 유입 경로 및 개선 방법을 알아야 합니다. 비즈니스 성공에 도움이 되는 가장 효과적인 분석 도구로는 Google Analytics, R 및 Python, Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, Qlik View, Talend, Splunk 등이 있습니다.
