데이터 과학, 머신 러닝, 빅 데이터의 차이점!

게시 됨: 2017-11-03

많은 전문가와 '데이터' 애호가는 종종 "데이터 과학, 기계 학습 및 빅 데이터의 차이점은 무엇입니까?"라고 묻습니다. 요즘 자주 듣는 질문입니다.

데이터 과학, 머신 러닝 및 빅 데이터를 서로 구별하는 점은 다음과 같습니다.

데이터 과학

데이터 과학은 학제 간 접근 방식을 따릅니다. 그것은 수학, 통계, 인공 지능, 소프트웨어 엔지니어링 및 디자인 사고의 교차점에 있습니다. 데이터 과학은 데이터 수집, 정리, 분석, 시각화, 모델 생성, 모델 검증, 예측, 실험 설계, 가설 테스트 등을 다룹니다. 이 모든 단계의 목표는 데이터에서 통찰력을 도출하는 것입니다.

디지털화는 기하급수적으로 진행되고 있습니다. 인터넷 접근성이 엄청난 속도로 향상되고 있습니다. 점점 더 많은 사람들이 디지털 생태계에 흡수되고 있습니다. 이러한 모든 활동은 엄청난 양의 데이터를 생성하고 있습니다. 기업은 현재 데이터 지뢰밭에 앉아 있습니다. 그러나 데이터 자체는 별로 쓸모가 없습니다. 여기에서 데이터 과학이 등장합니다. 이 데이터를 마이닝하고 통찰력을 얻는 데 도움이 됩니다. 의미 있는 조치를 취하기 위해. 다양한 데이터 과학 도구는 통찰력 생성 과정에서 우리를 도울 수 있습니다. 초보자이고 데이터 과학에 대해 더 자세히 알고 싶다면 최고의 대학에서 제공하는 데이터 과학자 과정을 확인하십시오.

데이터에서 통찰력을 도출하는 데 도움이 되는 프레임워크가 존재합니다. 프레임워크는 지지 구조일 뿐입니다. 데이터 과학 프로젝트의 개발을 구조화하는 데 사용되는 수명 주기입니다. 수명 주기는 프로젝트가 일반적으로 따라야 하는 처음부터 끝까지 단계를 설명합니다. 즉, 복잡한 문제를 간단한 단계로 나눕니다.
이를 통해 데이터에서 실행 가능한 통찰력을 생성하는 중요한 단계를 놓치지 않습니다.

그러한 프레임워크 중 하나는 CRISP-DM 프레임워크로 약칭되는 '데이터 마이닝을 위한 업계 간 표준 프로세스'입니다. 다른 하나는 Microsoft의 'Team Data Science Process'(TDSP)입니다.

예제를 통해 이것을 이해합시다. 10년 동안 장사를 해온 'X'라는 은행. 고객 중 한 명으로부터 대출 신청서를 받습니다. 이제 이 고객이 대출 상환을 불이행할지 여부를 예측하려고 합니다. 은행은 이 작업을 어떻게 수행할 수 있습니까?

다른 모든 은행과 마찬가지로 X는 인구 통계 데이터, 고객 관련 데이터 등과 같은 고객의 다양한 측면에 관한 데이터를 캡처해야 했습니다. 지난 10년 동안 많은 고객이 대출 상환에 성공했지만 일부 고객은 기본값. 이 은행은 어떻게 이 데이터를 활용하여 수익성을 개선할 수 있습니까? 간단히 말해서, 채무 불이행 가능성이 매우 높은 고객에게 대출을 제공하는 것을 어떻게 피할 수 있습니까? 그들은 부채를 상환할 가능성이 더 높은 좋은 고객을 잃지 않도록 어떻게 할 수 있습니까? 데이터 과학은 이 문제를 해결하는 데 도움이 될 수 있습니다.

원시 데이터 —> 데이터 과학 —-> 실행 가능한 통찰력

데이터 과학의 다양한 지점이 은행이 어려움을 극복하는 데 어떻게 도움이 되는지 알아보겠습니다. 통계는 실험 설계, 변수 간의 상관 관계 찾기, 가설 검정, 탐색적 데이터 분석 등에 도움 이 됩니다 . 이 경우 고객의 대출 목적이나 교육 자격이 대출 채무 불이행에 영향을 미칠 수 있습니다. 데이터 정리 및 탐색적 연구를 수행한 후 데이터는 모델링할 준비가 됩니다.

통계 및 인공 지능은 모델 생성을 위한 알고리즘을 제공합니다. 모델 생성은 머신 러닝이 등장하는 곳입니다. 머신 러닝은 목표를 달성하기 위해 데이터 과학에서 활용하는 인공 지능의 한 분야입니다. 뱅킹 예제를 진행하기 전에 머신 러닝이 무엇인지 이해합시다.
데이터를 마스터하는 주요 단계, 내가 시도한 것을 믿으십시오

기계 학습

“머신 러닝은 인공 지능의 한 형태입니다. 명시적으로 프로그래밍하지 않고도 기계가 학습할 수 있는 기능을 제공합니다.”

기계가 명시적으로 프로그래밍되지 않은 상태에서 어떻게 학습할 수 있습니까? 컴퓨터는 지시를 따르기 위해 만들어진 장치가 아닙니까? 더 이상은 아닙니다.
기계 학습은 지능적 알고리즘 모음으로 구성되어 있어 기계가 명시적으로 프로그래밍하지 않고도 학습할 수 있습니다. 기계 학습은 입력을 대상 변수에 매핑하거나 독립 변수를 종속 변수에 매핑하는 목적 함수를 배우는 데 도움이 됩니다.

우리의 은행 예에서 목적 함수는 대출 채무 불이행 확률에 영향을 미치는 다양한 인구 통계, 고객 및 행동 변수를 결정합니다. 독립적인 속성 또는 입력은 고객의 인구 통계, 고객 및 행동 변수입니다. 종속 변수는 '기본값으로' 여부입니다. 목적 함수는 이러한 입력을 출력에 매핑하는 방정식입니다. 어떤 독립 변수가 종속 변수에 영향을 미치는지, 즉 디폴트 경향을 알려주는 함수입니다. 입력을 출력으로 매핑하는 목적 함수를 유도하는 이 프로세스를 모델링이라고 합니다.

처음에 이 목적 함수는 고객이 채무 불이행 여부를 정확하게 예측할 수 없습니다. 모델이 새로운 인스턴스를 만나면 학습하고 진화합니다. 더 많은 예제를 사용할 수 있게 되면 개선됩니다. 결국 이 모델은 어느 정도 정확하게 말할 수 있는 단계에 도달합니다.

어떤 고객이 채무 불이행을 할 것인지, 은행이 수익성을 개선하기 위해 의지할 수 있는 사람은 누구인지에 따라 달라집니다.
머신러닝은 '일반화'를 목표로 합니다. 즉, 입력을 출력에 매핑하는 목적 함수는 아직 만나지 않은 데이터에 적용해야 합니다. 은행 예에서 우리 모델은 제공된 데이터에서 패턴을 학습합니다. 모델은 디폴트 경향에 영향을 미칠 변수를 결정합니다. 신규 고객이 대출을 신청하는 경우 이 시점에서 해당 변수는 아직 이 모델에 표시되지 않습니다. 모델은 이 고객과도 관련이 있어야 합니다. 이 고객이 채무 불이행 여부를 확실하게 예측해야 합니다.

이 모델이 이를 수행할 수 없으면 보이지 않는 데이터를 일반화할 수 없습니다. 반복적인 프로세스입니다. 어떤 것이 작동하고 어떤 것이 작동하지 않는지 보려면 많은 모델을 만들어야 합니다.
데이터 과학 및 분석은 이러한 종류의 모델 생성 및 검증을 위해 기계 학습을 활용합니다. 이 모델 생성을 위한 모든 알고리즘이 기계 학습에서 나온 것이 아니라는 점에 유의하는 것이 중요합니다. 그들은 다양한 다른 분야에서 입력할 수 있습니다. 모델은 항상 관련성을 유지해야 합니다. 조건이 변경되면 이전에 생성한 모델이 무의미해질 수 있습니다.

모델은 다른 시간에 예측 가능성을 확인해야 하며 예측 가능성이 감소하면 수정해야 합니다. 은행 직원이 고객이 대출을 신청하는 순간 즉각적인 결정을 내리려면 모델이 은행의 IT 시스템과 통합되어야 합니다. 은행의 서버는 모델을 호스팅해야 합니다. 고객이 대출을 신청할 때 웹사이트에서 변수를 캡처하고 서버에서 실행되는 모델에서 활용해야 합니다.

그런 다음 이 모델은 신용 승인 여부에 대한 결정을 즉시 은행 직원에게 전달해야 합니다. 이 프로세스는 데이터 과학에서도 활용되는 정보 기술 영역에 속합니다.

결국 분석 결과를 전달하는 것입니다. 여기에서 연구의 효과를 효율적으로 보여주기 위해서는 프레젠테이션과 스토리텔링 기술이 필요합니다. 디자인 씽킹은 결과를 시각화하는 데 도움이 되며 분석 결과를 효과적으로 전달합니다.
차세대 혁신: 머신 러닝을 주시하세요

빅 데이터

우리 퍼즐의 마지막 조각은 '빅 데이터'입니다. 데이터 과학 및 기계 학습과 어떻게 다릅니까?

IBM에 따르면 우리는 매일 2.5 Quintilion(2.5 × 1018) 바이트의 데이터를 생성합니다! 기업이 수집하는 데이터의 양은 너무 방대하여 데이터 수집, 저장, 분석 및 시각화와 관련하여 많은 문제가 발생합니다. 문제는 사용 가능한 데이터의 양 뿐만 아니라 다양성, 진실성 및 속도에 관한 것입니다. 이러한 모든 문제로 인해 동일한 문제를 처리하기 위한 새로운 방법과 기술이 필요했습니다.

빅 데이터는 기존 데이터와 차별화되는 4가지 'V'( 볼륨, 다양성, 진실성, 속도) 를 포함합니다.

용량:

여기에 포함된 데이터의 양은 너무 방대하여 이를 수집, 저장 및 분석하기 위한 전문 인프라가 필요합니다. 이 양의 데이터를 처리하기 위해 분산 및 병렬 컴퓨팅 방법이 사용됩니다.

다양성:

데이터는 다양한 형식으로 제공됩니다. 정형 또는 비정형 등 정형은 행과 열을 깔끔하게 배열한 것을 의미합니다. 구조화되지 않은 것은 단락, 동영상, 이미지 등의 형태로 제공된다는 의미입니다. 이러한 종류의 데이터도 많은 정보로 구성됩니다. 비정형 데이터에는 기존 RDBMS와 다른 데이터베이스 시스템이 필요합니다. Cassandra는 비정형 데이터를 관리하는 데이터베이스 중 하나입니다.

정확성:

방대한 양의 데이터가 있다고 해서 실행 가능한 통찰력을 얻을 수는 없습니다. 의미가 있으려면 정확해야 합니다. 수집된 데이터가 정확하고 그 양이 증가하고 다양해짐에 따라 신성함이 유지되도록 극도의 주의를 기울여야 합니다.

속도:

데이터가 생성되는 속도를 나타냅니다. 오늘날 세계 데이터의 90%는 지난 2년 동안에만 생성되었습니다. 그러나 생성되는 정보의 속도는 고유한 문제를 야기합니다. 일부 비즈니스의 경우 실시간 분석이 중요합니다. 지연이 발생하면 비즈니스를 위한 데이터 및 분석의 가치가 감소합니다. Spark는 스트리밍 데이터를 분석하는 데 도움이 되는 플랫폼 중 하나입니다.

시간이 지남에 따라 빅 데이터의 정의에 새로운 'V'가 추가됩니다. 그러나 빅데이터와 데이터를 구별하는 4가지 필수 요소는 볼륨(Volume), 다양성(Variety), 진실성(Vacity), 속도(Velocity)입니다. 머신 러닝 알고리즘을 포함하여 빅 데이터를 다루는 알고리즘은 빅 데이터를 처리하는 데 사용되는 다른 하드웨어 인프라를 활용하도록 최적화되어 있습니다.
금융 산업의 빅 데이터 역할 및 급여

요약하자면, 데이터 과학의 이그 제 큐 티브 PG 프로그램은 데이터에서 실행 가능한 통찰력을 도출하는 것을 목표로하는 학제 간 분야입니다. 머신 러닝은 데이터 과학에서 명시적으로 설명하지 않고도 머신이 학습할 수 있도록 가르치는 인공 지능의 한 분야입니다.

프로그래밍. 볼륨(Volume), 다양성(Variety), 진실성(Vacity), 속도(Velocity)는 빅데이터를 기존 데이터와 구별하는 4대 요소다.

미래의 직업을 위한 준비

데이터 과학 석사 지원