데이터 과학 및 응용 프로그램에 대한 초보자 가이드
게시 됨: 2018-02-24데이터, 과학 또는 데이터 과학이라는 단어는 독자들 사이에서 두려움이나 공포감을 불러일으키기에 충분하지 않습니다. 솔직히 말해서, 테셀레이션, k-mean, k-최근접이웃, 유클리드 최소 스패닝 트리 등의 단어와 달리 끔찍함은 고사하고 우스꽝스럽기에는 너무 귀엽습니다. 데이터 과학의 여정에서 만나게 될 것입니다.
"데이터 과학"은 두려움을 불러일으키지 않지만 해당 분야에 대해 설명하지도 않습니다. 데이터가 무엇인지 모두 알고 있습니다. 적어도 평신도 의미에서. 데이터는 본질적으로 정보의 원시 비트입니다. 반면에 과학은 과학적 방법을 따르는 모든 활동 그룹을 의미하는 데 사용할 수 있습니다.
따라서 이 논리에 따르면 데이터 과학은 많은 양의 데이터에 대해 과학적 방법을 사용하는 분야라는 결론을 내릴 수 있습니다. 하지만, 무엇을 위해? 데이터 과학이란 정확히 무엇 입니까?
그것이 오늘 우리의 토론 주제입니다. 이 기사를 읽고 나면 다음 질문에 답할 수 있습니다.
- 데이터 과학이란 무엇입니까?
- 데이터 과학 파이프라인의 다양한 단계는 무엇입니까?
- 직장에서 데이터 과학을 어디에서 볼 수 있습니까?
목차
데이터 과학이란 무엇입니까?
모든 백과사전의 어머니인 Wikipedia는 데이터 과학을 과학적 방법을 사용하여 데이터에서 지식과 통찰력을 추출하는 데 중점을 둔 분야로 정의합니다. 그러나 우리 인간은 데이터 과학자로 태어났다는 사실을 알려주지 않습니다. 어떻게? 봅시다.
당신은 당신이 무엇을 하든 당신 주위의 세상을 관찰하고 있습니다. 깨어 있는 모든 순간에 주변 환경의 세부 정보를 가져와 뇌에 전달합니다. 그런 다음 이러한 관찰을 데이터로 처리하고 의미를 찾고 다음에 일어날 가능성이 있는 예측을 함으로써 주변 사물을 이해하는 데 사용합니다.
퇴근 시간에 한 시간 늦었을 때 집에서 일하겠다고 전화를 겁니다. 교통 체증과 교통 정체에 대한 과거 관찰을 사용하여 사무실에 있을 때보다 교통 체증에 갇힌 시간을 잃을 가능성이 높다고 결론지었습니다. 당신이 방에 들어와 초콜릿 포장지가 놓여 있는 것을 보면, 당신이 없는 동안 누군가가 당신의 초콜릿을 먹고 있었다는 것을 우연한 분석을 통해 알 수 있을 것입니다.
주의해야 할 상위 4가지 데이터 분석 역할
두 경우 모두 메모하지 않고 이러한 계산과 예측을 염두에 두고 수행하면 정상적인 인간입니다. 다른 한편으로, 이러한 데이터 포인트를 기록하고(물론 기계가 읽을 수 있는 형식으로) 응용 프로그램을 실행하기 위한 알고리즘(또는 절차) 및 컴퓨터 프로그램을 고안하려고 시도하는 경우. 이 "가설" 시스템의 출력이 "교통이 좋지 않을 것입니다" 또는 "룸메이트가 초콜릿을 먹었습니다"이면 빙고! 당신은 데이터 과학자입니다.
위의 비유가 들리는 것처럼 (이론적으로) 간단합니다. 하루가 끝나면 데이터, 절차, 알고리즘 및 도구가 있습니다. 지식을 추출하기만 하면 됩니다. 이를 효율적으로 수행하려면 따라야 하는 워크플로/파이프라인이 있습니다. 일반적인 데이터 과학 파이프라인에 모든 것이 포함되어 있는지 살펴보겠습니다.
데이터 과학 파이프라인
데이터 과학 파이프라인은 원하는 데이터를 얻는 것부터 정확한 계산과 예측을 하기까지 전체 프로세스의 흐름에 대해 설명합니다. 이 파이프라인의 요소를 살펴보겠습니다.

데이터 확보
이것은 기본적으로 데이터 과학을 연습하기 위해 가장 먼저 해야 할 일입니다. 데이터를 가져오세요! 약간의 주의 사항 – 데이터를 얻는 동안 고려해야 할 몇 가지 사항이 있습니다. 먼저 모든 데이터 세트를 식별해야 합니다(인터넷 또는 내부/외부 데이터베이스에서 가져올 수 있음). 그런 다음 데이터를 사용 가능한 형식(CSV, XML, JSON 등)으로 추출해야 합니다.
데이터 분석가가 되기 위해 마스터해야 할 최고의 기술 및 도구는 다음과 같습니다.
필요한 기술
- 데이터베이스 관리: 필요와 요구 사항에 따라 SQL 또는 NoSQL.
- 이러한 데이터베이스 쿼리
- 비디오, 오디오, 텍스트, 문서 등의 형태로 비정형 데이터를 검색합니다.
- 분산 스토리지: Hadoop, Apache Spark 또는 Apache Flink.
데이터 스크러빙/정리
시스템의 최종 출력은 입력한 데이터만큼만 좋기 때문에 데이터를 정리하는 것이 가장 중요합니다. 정리는 비정상을 제거하고, 비어 있거나 누락된 값을 채우고, 데이터가 일관성이 있는지 확인하고, 이와 같은 기타 사항을 의미합니다.
필요한 기술
- 스크립팅 언어: Python, R, SAS
- 데이터 랭글링 도구: Python Pandas, R
- 분산 처리: Hadoop, MapReduce/Spark
탐색(탐색 데이터 분석)
이제 데이터가 정리되었으므로 데이터에 어떤 패턴이 있는지 이해하기 시작할 것입니다. 이 단계에서 다양한 유형의 시각화 및 통계 모델링이 사용됩니다. 기본적으로 이 단계는 데이터에서 숨겨진 의미를 도출하는 것을 목표로 합니다.
탐색적 데이터 분석 분야에는 많은 것이 있습니다. 그것이 당신이 즐길 수 있는 것이라고 생각한다면 같은 기사를 읽는 것을 잊지 마십시오.
이 단계에서 더 잘 수행하려면 "스파이디 감각"이 얼얼해야 합니다. 정신을 차리고 이상한 패턴이나 경향을 발견하십시오. 항상 즉시 사용할 수 있는 것을 찾으십시오. 그러나 그렇게 하는 동안 해결하려는 문제를 잊지 마십시오. 상자에서 너무 많이 나가지 마십시오. 탐색적 데이터 분석은 예술이며 예술가는 항상 청중을 염두에 두어야 합니다.
필요한 기술
- Python 라이브러리: Numpy, Matplotlib, Pandas, Scipy
- R 라이브러리: GGplot2, Dplyr
- 추론 통계
- 데이터 시각화
- 실험적 설계
모델링(머신러닝)
이것은 재미있는 부분입니다. 모델은 단순히 통계적 의미에서 일반적인 규칙입니다. 기계 학습 모델은 단순히 도구 키트의 도구입니다. 다양한 사용 사례와 목표를 가진 많은 알고리즘에 액세스할 수 있으므로 간단한 조사를 통해 비즈니스 요구 사항에 맞는 알고리즘을 찾을 수 있습니다.
데이터를 정리하고 필수 기능을 찾은 후(EDA 단계에서) 통계 모델을 예측 도구로 사용하면 전반적인 의사 결정이 향상됩니다. "무슨 일이?"를 확인하기 위해 뒤를 돌아보는 대신 예측 분석은 "다음은?"에 답하는 것을 목표로 합니다. 그리고 "우리는 그것에 대해 어떻게 해야 합니까?".

필요한 기술
- 기계 학습: 지도/비지도/강화 학습 알고리즘
- 평가 방법
- 기계 학습 라이브러리: Python(Sci-kit Learn) / R(CARET)
- 선형 대수 및 다변수 미적분
통역(데이터 스토리텔링)
이것은 파이프라인에서 더 어려운 작업 중 하나입니다. 여기에서 의사 소통을 통해 발견 사항을 설명하는 것을 목표로 합니다. 결국 청중과의 소통이 관건이며 이것이 스토리텔링의 핵심입니다.
당신의 발견은 사무실의 비기술자 집단이나 심지어 당신의 상사에게 그 중요성을 전달할 수 없다면 거의 유용하지 않습니다. 상황을 통제하기 위한 좋은 연습은 많은 연습을 하는 것입니다. 발견한 내용을 바탕으로 이야기의 틀을 잡고 평신도(가급적 어린이)에게 이야기해 보십시오. 그들이 그것을 이해한다면 당신의 상사도 이해할 것입니다. 그리고 그들이 그렇지 않다면, 글쎄, 당신은 아인슈타인이 말한 것을 압니다:
“여섯 살짜리 아이에게 설명할 수 없다면 스스로 이해하지 못하는 것입니다.”
이 단계는 진정한 비즈니스 통찰력을 도출하는 것을 목표로 합니다. 여기서 주요 과제는 결과를 시각화하고 아름답고 이해하기 쉬운 방식으로 표시하는 것입니다.
필요한 기술
- 비즈니스 도메인에 대한 지식
- 데이터 시각화 도구: Tableau, D3.JS, Matplotlib, GGplot, Seaborn 등
- 의사 소통: 프레젠테이션 기술 - 구두 및 서면 모두.
이것이 우리 파이프라인의 끝이 아닙니다. 시스템을 최대한 활용하려면 필요할 때마다 모델을 업데이트해야 합니다. 데이터 과학에서는 한 가지 크기가 모든 사람에게 적합하지 않으므로 모델을 계속 재방문하고 업데이트해야 합니다.
데이터 조작: 데이터 거짓말을 어떻게 식별할 수 있습니까?
데이터 과학의 응용
지금까지 분명한 것처럼 데이터 과학은 광범위한 용어이며 응용 프로그램도 마찬가지입니다. 스마트폰의 거의 모든 애플리케이션은 데이터를 기반으로 합니다. 따라서 데이터 과학의 완전한 편재 때문에 데이터 과학의 모든 응용 프로그램을 나열하는 것은 실질적으로 불가능하다고 말하는 것이 공정합니다.
데이터 과학의 마법을 사용하는 광범위한 분야를 살펴보겠습니다.
1. 인터넷 검색
Google은 어떻게 1초 미만의 *정확한* 검색 결과를 반환합니까? 데이터 과학!
2. 추천 시스템
Facebook 또는 LinkedIn의 "당신이 알 수도 있는 사람들"에서 Amazon의 "이 제품을 구매한 사람들은 또한 좋아했습니다...", Spotify의 일일 선별 재생 목록, YouTube의 "추천 동영상"에 이르기까지 모든 것이 데이터 과학에 기반을 두고 있습니다.
3. 이미지/음성/문자 인식
이것은 거의 말할 필요도 없습니다. 데이터 과학이 아니라면 "Siri" 뒤에 있는 두뇌는 무엇이라고 생각하십니까? 또한 Facebook에서 친구와 함께 사진을 업로드할 때 친구를 어떻게 인식한다고 생각합니까? 그것은 마술이 아닙니다. 그것은 과학입니다 – 데이터 과학.
4. 게임
EA Sports, Sony, Nintendo, Zynga 및 이 분야의 다른 거대 기업들은 여러분의 게임 경험을 완전히 새로운 차원으로 끌어올리기 위해 노력하고 있습니다. 이제 게임은 기계 학습 알고리즘을 사용하여 개발 및 개선되어 더 높은 수준으로 올라갈 때 업그레이드할 수 있습니다.
5. 가격비교 사이트
이러한 웹사이트는 데이터에 기반을 두고 있습니다. 그들에게는 더 즐거운 일입니다. API를 사용하여 관련 웹사이트에서 데이터를 가져옵니다. PriceGrabber, PriceRunner, Junglee, Shopzilla가 그러한 웹사이트입니다.
Python으로 데이터 과학 시작하기마무리…
기술 배경이 있고 데이터에 대해 약간의 지식이 있는 경우 데이터 과학이 진정한 소명입니다. 가장 좋은 부분? 데이터 과학 내부와 주변에는 할 일과 탐구할 일이 너무 많습니다. 이는 여러 도구와 기술을 포괄하는 포괄적인 용어입니다. 그 중 하나를 마스터하면 계속 증가하는 데이터 과학 시장에서 자산이 됩니다. upGrad는 여러분이 앞서 나갈 수 있도록 데이터 과학에 대한 다양한 과정을 제공합니다. 그들을 확인하는 것을 잊지 마세요!
인도의 산업 전반에 걸친 데이터 과학의 범위는 무엇입니까?
데이터 과학은 인도의 많은 산업에 막대한 영향을 미칩니다. 아래 나열된 모든 산업은 데이터 과학에 크게 의존하며 데이터 과학자에게 탁월한 전망을 제공합니다.
1. 헬스케어(Healthcare) : 의학, 환자, 질병과 관련된 모든 것을 통칭하는 단어입니다. 데이터 과학은 보다 효율적인 진단에서 의료 연구에 이르기까지 이 산업에서 중요한 역할을 하기 시작했습니다.
2. 은행 및 보험 - 위험 평가 및 사기 탐지: 은행은 특히 대출 및 보험에 대한 고객 프로필, 이전 애플리케이션 및 지출뿐만 아니라 기타 다양한 개인 데이터를 수집합니다. 데이터 과학은 프로세스를 단순화하고 위험도가 낮은 사람과 위험이 높은 사람을 구별하기 때문에 여기에 있습니다.
3. 마케팅 및 광고 - 모든 데이터를 손쉽게 사용할 수 있으므로 서비스 또는 제품을 효과적으로 마케팅하기 위해 대상 고객을 분석하고 결정할 수 있습니다.
4. 항공 산업 - 데이터 과학은 항공 분야에서 항공기 경로 및 경로를 분석하는 데 사용됩니다.
데이터 과학자는 비즈니스 문제를 해결하기 위해 자신의 기술을 어떻게 사용할 수 있습니까?
회사의 요구 사항에 따라 데이터 과학자는 비즈니스 과제를 해결하기 위해 다른 전략을 취해야 합니다. 데이터 과학자는 수학 및 컴퓨터 과학의 하이브리드 모델을 사용하여 데이터에서 실행 가능한 통찰력을 수집하고 더 나은 결정을 내리는 데 도움을 줍니다. 실제 비즈니스 문제를 해결하기 위한 데이터 과학의 응용 프로그램에는 제품 품질 개선, 디지털 광고 배치 자동화, 수요 및 성장 기회 예측을 통한 수익 창출 증가, 채용 프로세스 자동화, 다른 사용 사례 중에서도 역동적인 시장에서 가격 설정이 포함됩니다.
데이터 과학의 미래는 무엇입니까?
데이터 과학의 미래는 거의 모든 분야에서 광범위한 구현으로 매우 흥미진진합니다. Google, Amazon, Facebook 등과 같은 최고의 디지털 네이티브 회사 중 일부는 데이터에 상당한 투자를 했습니다. 지속적인 연구와 결합된 새로운 기술의 부상은 미래에 혁신적인 애플리케이션과 사용 사례로 이어질 것입니다. 경력 관점에서 데이터 과학은 많은 가능성을 가지고 있습니다.
