데이터 과학자: 신화와 현실

게시 됨: 2018-04-05

빠르게 추진력을 얻는 것은 모두가 이야기하는 것이 되는 경향이 있습니다. 그리고 사람들이 무언가에 대해 이야기할수록 더 많은 오해와 신화가 쌓입니다. 데이터 과학 및 분석은 지속적으로 증가하는 영역 중 하나이며 이와 함께 관련 신화도 증가하고 있습니다.

오늘 우리는 데이터 과학자의 삶과 작업을 둘러싼 이러한 신화와 오해의 일부를 폭로할 것입니다. 그러나 그 내용으로 넘어가기 전에 먼저 데이터 과학자의 일반적인 일상을 이해해 보겠습니다.

데이터 과학자

조직에는 다양한 소스와 다양한 형식으로 시간이 지남에 따라 수집한 데이터 힙이 있습니다. 이제 그들은 그것에 대해 뭔가를 하기로 결정했습니다. 그들은 데이터를 중요하게 생각합니다. 그들은 누구에게 의지합니까?

데이터 과학자!
예, 대다수가 초자연적인 존재로 혼동하는 데이터 과학자입니다. 이 사람들은 모든 조직의 데이터 분석 팀의 핵심이자 영혼입니다. 그들은 중요한 직책을 맡고 있으며 당신에게 놀라운 일이겠지만 그들의 일상은 다른 사무직 직원의 일상과 매우 비슷합니다.

목차

회의, 회의, 그리고 더 많은 회의!

데이터 과학자는 요구 사항을 수집하고 완료된 작업에 대해 논의하고 하루의 작업을 계획하기 위해 대부분 매일 회의에 참석해야 합니다. 조직의 목표를 달성하고 비즈니스 문제를 해결하는 데 중요한 내부 회의도 있습니다. 대체로 이러한 회의의 목적은 당면한 문제에 대한 보다 명확한 아이디어를 얻고 조직의 모든 사람이 앞으로 나아갈 방향에 대해 확신을 갖도록 하는 것입니다.

데이터를 찾아 깨끗한 상태로 만드십시오!

하루 중 일부는 조직이 직면한 실제 문제를 식별하고 이러한 문제를 해결하는 데 데이터가 도움이 될 수 있는 방법을 찾는 데 사용됩니다. 그런 다음 필요한 데이터의 유형과 소스를 결정하는 더 어려운 부분이 있습니다. 숙련된 데이터 과학자는 항상 가장 관련성이 높은 소스, 즉 가치를 제공할 가능성이 있는 소스에서 데이터를 선택합니다.

그러나 이것은 경험과 전문성이 수반되는 일입니다. 따라서 데이터 과학자는 이에 대해 상당한 시간을 할애해야 합니다.

그러나 데이터 수집은 작업의 절반만 수행합니다. 데이터 과학자는 또한 데이터가 검증되고 정리되었는지 확인해야 합니다. 불완전한 데이터로 작업하면 성공 가능성이 기하급수적으로 줄어듭니다.

데이터 과학 통계 기초 기초

마법을 부리세요. 우리는 분석을 의미합니다.

데이터가 완전히 정리되면 데이터 과학자는 데이터에서 추세와 패턴을 식별하는 데 남은 시간을 보냅니다. 이것은 특히 이 데이터를 효율적으로 분석하기 위한 정해진 방법이 없기 때문에 데이터 과학자의 작업의 또 다른 문제 측면입니다. 종종 데이터 과학자가 도구와 알고리즘을 설계하거나 기존 도구와 함께 조정해야 합니다. 이를 위해서는 열린 마음과 실험에 대한 의지가 필요합니다.

이야기를 짜세요.

데이터 세트를 분석한 후 가장 중요한 부분인 데이터 시각화가 이어집니다. 데이터 과학자는 회사의 이해 관계자 및 마케터와 같은 기술 분야가 아닌 청중 앞에서 자신의 결과를 발표해야 합니다. 이것은 항상 일상적인 작업은 아니지만 작업을 계속 진행하려면 자주 수행해야 합니다. 여기서 데이터 과학자의 중요한 작업량은 데이터의 본질을 포착할 뿐만 아니라 모든 것을 미학적으로 만족스러운 방식으로 제시하는 시각화 기술을 고안하는 것과 관련됩니다.

데이터 과학자의 역할은 매우 역동적입니다. 그들에게 똑같은 이틀은 없습니다. 그들의 직업은 그들이 긴장을 늦추지 않고 항상 생각하는 모자를 쓰는 것과 관련이 있습니다. 그들이 작업하는 데이터, 해결하려는 문제, 발견하고자 하는 통찰력은 모두 끊임없이 변화하고 있습니다. 이것이 데이터 과학자의 역할을 독특하고 흥미롭게 만드는 이유입니다.

데이터 과학 및 응용 프로그램에 대한 초보자 가이드

이제 한 걸음 더 나아가 때때로 터무니없는 신화에 대해 더 폭로하십시오. 비디오

유튜브 영상

통념 #1: 박사 학위 를 가진 전문 통계학자가 되어야 합니다 . 통계에서. 또는 최소한 통계학 학위가 있어야 합니다.

예, 공식 통계 학위를 소지하면 첫날부터 통계에 대한 더 나은 관행을 이해할 수 있습니다. 그러나 말을 거기에 두십시오. 데이터 과학의 세계를 보면 더 많은 사람들을 찾을 수 있습니다. 수학에 중독된 "로켓 과학자"보다 경영/비수학 배경.

통념 #2: 데이터 과학에서 두각을 나타내려면 하드코어 프로그래머가 되어야 합니다. 하드코어할수록 좋습니다.

다시 말하지만, 우리가 몇 줄 전에 논의한 신화와 마찬가지로 이 역시 데이터 과학자의 직업에 대한 잘못된 가정에 기반을 두고 있습니다. 사람들은 데이터 과학자가 되는 것이 코드와 알고리즘 등을 작성하는 것과 관련이 있다고 가정합니다! 그러나 앞서 논의한 루틴에 주의를 기울인다면 여기에는 중요한 "코딩"이 포함되어 있지 않다는 것을 알게 될 것입니다. 대부분의 알고리즘이나 방법은 약간의 조정만 필요하면 기성품으로 사용할 수 있습니다. 그러나 그렇게 하려면 논리적 사고가 필요합니다.

Python으로 데이터 과학 시작하기

통념 #3: 데이터 과학자는 의미 있는 의미의 과학자가 아닙니다.

모든 과학자는 기본적으로 데이터 과학자입니다. 순수 과학은 항상 관측 데이터와 공존해 왔습니다. 데이터를 선별하고, 분류하고, 구조화하고, 분류하고, 이론화하고, 제시할 수 있는 능력이 없다면 어떤 과학자도 연구에 일관성을 가져올 수 없습니다. 마찬가지로, 데이터의 핵심을 깊이 파고들지 않은 데이터 과학자는 결과를 효과적으로 제시할 수 없습니다. 통계적 통제는 항상 순수 과학의 기반이었고 이제는 데이터 과학자의 기본적인 책임이 되었습니다. 따라서 데이터 과학자가 조직 고객 행동의 경향과 패턴을 관찰하고 통계 및 실제 실험을 사용하여 결과를 확인하는 경우 그들은 단순하고 단순한 과학자입니다.

통념 #4: 데이터 과학자는 작업을 완료하기 위해 비용이 많이 들고 복잡한 통계 도구를 사용합니다.

기본적으로 데이터 과학자의 직업은 광범위한 데이터 집합에서 숨겨진 추세와 패턴을 찾아야 합니다. 이를 위해 사용자 친화적인 시각화 도구, 셀프 서비스 검색 기반 비즈니스 인텔리전스 도구, 대화형 데이터 탐색 도구 또는 통계적 숙달이 많이 필요하지 않은 간단한 도구를 사용할 수 있습니다. 덧붙이자면, 전 세계의 많은 비즈니스 분석가는 기본 스프레드시트 응용 프로그램의 기능 모델링에서도 심오한 통찰력을 찾을 수 있습니다.

통념 #5: 데이터 과학은 데이터를 Hadoop 클러스터에 공급하고 MapReduce를 사용하는 것입니다. 단순한!

사람들이 신화를 퍼뜨리기 전에 탐험을 시도했다면 우리는 여기에 없었을 것입니다. 데이터 과학자와 이야기하면 데이터 과학 및 분석에 Hadoop 및 MapReduce보다 훨씬 더 많은 것이 있음을 알게 될 것입니다. 이 두 가지는 많은 도구 중 두 가지일 뿐입니다. 종종 성공적인 데이터 과학 프로젝트는 다양한 단계에서 일련의 도구를 사용합니다. 따라서 데이터 과학자는 필요할 때마다 도구나 기술로 적절한 전환을 하기 위해 이 영역에서 일어나는 모든 주요 기술 발전의 맨 위에 있어야 합니다. 데이터 사이언스의 경우 한 켤레가 모든 사람에게 적합하지 않으며 데이터 사이언스 정신이 우리 인간에게 말을 걸게 만드는 마법의 위자 보드는 없습니다.

데이터 과학을 마스터하기 위한 최고의 단계, 내가 시도한 것을 믿으세요

당신의 시야가 넓어지는 것을 즐겼기를 바랍니다! 우리와 함께하십시오. 더 많은 Mythbusters로 돌아오겠습니다.

박사인가 데이터 과학자가 되기 위해 필수?

이를 더 잘 이해하기 위해 데이터 과학자의 역할을 두 가지 영역으로 분류해 보겠습니다.

1. 응용 데이터 과학 역할 - 현재 알고리즘으로 작업하고 알고리즘이 어떻게 작동하는지 이해하는 것이 응용 데이터 과학의 주요 초점입니다. 다시 말해 이러한 방법을 프로젝트에 통합하는 것입니다. 데이터 과학 경력과 관련된 대부분의 사람들이 이 범주에 속합니다. 대부분의 채용 공고 및 직무 설명은 일반적으로 이 역할에 대해 표시됩니다.
2. 연구 역할 – 연구 역할에 관심이 있다면 박사 학위가 필요할 수 있습니다. 데이터 과학의 연구 역할에는 처음부터 새로운 알고리즘 생성, 연구, 과학 논문 작성 등이 포함됩니다.

가까운 장래에 인공 지능이 데이터 과학자를 대체하게 될까요?

데이터 과학의 진화에서 인공 지능은 결국 데이터 과학자가 수동으로 수행하는 작업을 대체할 것이라고 말할 수 있습니다. 그러나 컴퓨터는 데이터 정리, 효율적인 모델 개발, 모델 정확성 작업 등을 스스로 결정할 수 없습니다. 이러한 선택은 필요한 자격을 갖춘 사람이 합니다. 데이터 과학자의 필요성을 줄이기 위해 보다 발전된 알고리즘을 개발하기 위한 계획이 시도되고 있다고 해도 이것이 곧 실현될 것 같지는 않습니다. 가장 진보된 알고리즘을 사용하더라도 회사의 기능을 유지하려면 여전히 건전한 판단과 도메인 지식을 갖춘 사람이 필요합니다.

데이터 과학 도구를 마스터하면 데이터 과학자가 될 수 있습니까?

통계 도구와 라이브러리를 사용하는 방법을 알면 데이터 과학자가 될 수 있다는 것은 널리 퍼진 오해입니다. 이러한 도구를 사용하면 도구를 더 잘 이해하는 데 도움이 되지만 데이터 과학은 다양한 능력을 결합한 기술입니다. 함께 제공되는 도구에 대해 배우는 것은 프로세스의 한 측면일 뿐입니다. Python 또는 R과 같은 도구를 아는 것과 함께 문제 해결과 같은 기술, 개념에 대한 철저한 이해 및 비즈니스 문제에 필요한 올바른 응용 프로그램에 대한 정보도 숙달하는 데 중요합니다.