데이터 과학 프레임워크: 더 나은 비즈니스 결정을 위한 상위 7단계

게시 됨: 2019-12-26

데이터 과학은 정보를 추출하고 산더미 같은 데이터를 이해하는 데 도움이 되는 다양한 기술과 방법을 포괄하는 광대한 분야입니다. 또한 데이터 기반 의사 결정 은 엄청난 비즈니스 가치를 제공할 수 있습니다. 따라서 데이터 과학 프레임워크 는 의미 있는 통찰력을 얻기 위한 7단계를 광범위하게 도표화하여 현대 기술 비즈니스의 성배가 되었습니다. 여기에는 질문, 획득, 동화, 분석, 답변, 조언 및 행동이 포함됩니다. 다음은 이러한 각 단계에 대한 개요와 데이터 과학과 관련된 몇 가지 중요한 개념입니다.

목차

데이터 과학 프레임워크: 단계

1. 질문하기: 데이터 과학 프레임워크의 출발점

기존의 과학 연구와 마찬가지로 데이터 과학 도 일련의 질문으로 시작합니다. 데이터 과학자는 기존 가정과 시스템에 의문을 제기하는 비판적 사고 능력을 가진 호기심 많은 개인입니다. 데이터를 통해 우려 사항을 확인하고 새로운 답변을 찾을 수 있습니다. 따라서 증거 기반 조치를 취하는 과정을 시작하는 것은 바로 이 탐구적인 사고입니다.

2. 수집 : 필요한 데이터 수집

질문을 한 후 데이터 과학자는 다양한 소스에서 필요한 데이터를 수집하고 이를 유용하게 만들기 위해 추가로 동화해야 합니다. 데이터 마이닝, 기계 학습 및 패턴 인식 알고리즘을 지원할 입력을 결정하기 위해 Feature Engineering과 같은 프로세스를 배포합니다. 기능이 결정되면 오픈 소스에서 데이터를 다운로드하거나 데이터를 기록 또는 측정하기 위한 프레임워크를 만들어 수집할 수 있습니다.

3. 동화: 수집된 데이터 변환

그런 다음 수집된 데이터는 실제 사용을 위해 정리되어야 합니다. 일반적으로 누락되거나 잘못된 값을 관리하고 잠재적인 이상값을 처리하는 작업이 포함됩니다. 데이터 모델링이 아무리 강력하더라도 열악한 데이터는 좋은 결과를 제공할 수 없습니다. 컴퓨터는 "가비지 인, 가비지 아웃"의 논리적 개념을 따르므로 데이터를 정리하는 것이 중요합니다. 그들은 의도하지 않고 무의미한 입력조차도 처리하여 바람직하지 않고 터무니없는 출력을 생성합니다.

다양한 형태의 데이터

데이터는 구조화되거나 구조화되지 않은 형식으로 제공될 수 있습니다. 구조화된 데이터는 일반적으로 정수 또는 실수와 같은 숫자 데이터(예: 급여 및 온도)를 포함하여 유한한 수의 가능성(예: 성별) 또는 연속 변수를 갖는 이산 변수 또는 범주형 데이터의 형태입니다. 또 다른 특별한 경우는 Yes/No 및 True/False와 같이 두 개의 값만 갖는 이진 변수의 경우일 수 있습니다.

데이터 변환

때때로 데이터 과학자는 숫자 데이터를 익명화하거나 이산 변수로 변환하여 알고리즘과 동기화하려고 할 수 있습니다. 예를 들어 수치적 온도는 고온, 중온 및 저온과 같은 범주형 변수로 변환될 수 있습니다. 이것을 '비닝'이라고 합니다. '인코딩'이라는 또 다른 프로세스를 사용하여 범주형 데이터를 숫자로 변환할 수 있습니다.

4. 분석: 데이터 마이닝 수행

필요한 데이터가 수집되고 동화되면 지식 발견 프로세스가 시작됩니다. 데이터 분석에는 데이터 마이닝 및 탐색적 데이터 분석(EDA)과 같은 기능이 포함됩니다. 분석은 데이터 과학 프레임워크 의 가장 필수적인 단계 중 하나입니다 .

데이터 수집

데이터 마이닝은 통계, 인공 지능, 기계 학습 및 데이터베이스 시스템의 교차점입니다. 여기에는 대규모 데이터 세트에서 패턴을 찾고 기존 데이터를 유용한 정보로 구조화 및 요약하는 작업이 포함됩니다. 데이터 마이닝은 정보 검색(웹 검색 또는 전화번호부에서 이름 찾기 등)과 동일하지 않고 데이터 포인트 간의 점을 연결하는 다양한 기술을 다루는 체계적인 프로세스입니다.

탐색적 데이터 분석(EDA)

EDA는 요약 통계 및 시각화 기술을 사용하여 데이터를 설명하고 표현하는 프로세스입니다. 모델을 구축하기 전에 데이터를 완전히 이해하기 위해 이러한 분석을 수행하는 것이 중요합니다. 탐색적 분석의 기본 유형에는 연관, 클러스터링, 회귀 및 분류가 있습니다. 그들에 대해 하나씩 알아 봅시다.

협회

연관은 어떤 항목이 관련되어 있는지 식별하는 것을 의미합니다. 예를 들어 슈퍼마켓 거래 데이터 세트에서 함께 구매하는 특정 제품이 있을 수 있습니다. 일반적인 연관성은 빵과 버터의 연관성일 수 있습니다. 이 정보는 생산 결정을 내리고 '콤보' 제안을 통해 판매량을 늘리는 데 사용될 수 있습니다.

클러스터링

클러스터링에는 데이터를 자연 그룹으로 분할하는 작업이 포함됩니다. 알고리즘은 데이터를 구성하고 학습 시간 및 수업 성적과 같은 특정 기준에 따라 클러스터 센터를 결정합니다. 예를 들어, 수업은 자연적인 그룹 또는 클러스터, 즉 Shirkers(오래 공부하지 않고 낮은 점수를 받는 학생), Keen Learners(공부에 오랜 시간을 투자하여 높은 성적을 얻는 학생) 및 Masterminds(그들)로 나눌 수 있습니다. 장시간 공부하지 않아도 높은 점수를 받는 자).

회귀

회귀는 예측 인과 분석이라고도 하는 두 변수 간의 상관 관계의 강도를 찾기 위해 수행됩니다. 선(y=mx+b) 또는 곡선을 데이터 세트에 맞춰 수치 예측을 수행하는 것으로 구성됩니다. 회귀선은 다른 모든 관찰에서 벗어난 데이터 포인트인 이상값을 감지하는 데도 도움이 됩니다. 그 이유는 잘못된 데이터 입력 또는 별도의 메커니즘이 모두 있을 수 있습니다.

강의실 예에서 'Mastermind' 그룹의 일부 학생들은 해당 주제에 대한 사전 배경 지식이 있거나 설문조사에 잘못된 학습 시간과 성적을 입력했을 수 있습니다. 이상치는 데이터와 가능한 개선 영역의 문제를 식별하는 데 중요합니다.

분류

분류는 주어진 기능 및 속성 세트에 대한 새 데이터에 클래스 또는 레이블을 지정하는 것을 의미합니다. 특정 규칙은 과거 데이터에서 생성되어 동일한 규칙을 가능하게 합니다. 의사 결정 트리는 일반적인 유형의 분류 방법입니다. 시험 성적과 학습 시간을 기반으로 학생이 Shirker, Keen Learner 또는 Mastermind인지 여부를 예측할 수 있습니다. 예를 들어, 3시간 미만을 공부하고 75%를 받은 학생은 Shirker로 분류될 수 있습니다.

5. 질문에 답하기: 데이터 모델 설계하기

데이터 과학 프레임워크 는 의사 결정 프로세스를 향상시키는 모델을 구축하지 않고는 불완전합니다. 모델링은 데이터베이스에 저장하기 위한 데이터 포인트 간의 관계를 나타내는 데 도움이 됩니다. 실제 비즈니스 환경에서 데이터를 다루는 것은 직관적이기보다 혼란스러울 수 있습니다. 따라서 적절한 모델을 만드는 것이 가장 중요합니다. 또한 원하는 수준의 성능을 달성하기 위해 모델을 평가하고, 미세하게 조정하고, 수시로 업데이트해야 합니다.

6. 조언: 대안적 결정 제안

다음 단계는 데이터 모델에서 얻은 통찰력을 사용하여 조언을 제공하는 것입니다. 이는 데이터 과학자의 역할이 숫자를 분석하고 데이터를 분석하는 것 이상임을 의미합니다. 업무의 대부분은 수익성을 개선하고 비즈니스 가치를 제공할 수 있는 것에 대해 경영진에게 실행 가능한 제안을 제공하는 것입니다. 조언에는 최적화, 시뮬레이션, 불확실성 하에서의 의사결정, 프로젝트 경제성 등과 같은 기술의 적용이 포함됩니다.

7. 조치: 원하는 단계 선택

사업 상황과 선호도에 비추어 제안을 평가한 후, 경영진은 특정 조치 또는 실행할 일련의 조치를 선택할 수 있습니다. 데이터 과학을 기반으로 하는 의사 결정을 통해 비즈니스 위험을 크게 최소화할 수 있습니다.

세계 최고의 대학에서 데이터 과학 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

결론

데이터 과학은 오늘날의 기술 주도 세계에서 광범위한 응용 분야를 가지고 있습니다. 위의 데이터 과학 프레임워크 개요는 데이터 과학 을 비즈니스에 적용하기 위한 로드맵 역할을 합니다!

급변하는 기술 발전의 선두에 서기 위해 데이터 과학을 배우는 것에 대해 궁금하다면 upGrad & IIIT-B의 데이터 과학 PG 디플로마를 확인하십시오.

NumPy는 프레임워크로 간주됩니까?

Python의 NumPy 패키지는 과학 컴퓨팅의 중추입니다. 예, NumPy는 과학 컴퓨팅을 위한 Python 프레임워크 및 모듈입니다. 고성능 다차원 배열 개체와 이를 조작할 수 있는 기능이 함께 제공됩니다. NumPy는 선형 대수학을 구현하는 강력한 Python용 N차원 배열 객체입니다.

데이터 과학에서 감독되지 않은 비닝이란 무엇입니까?

구간화 또는 이산화는 연속형 또는 숫자형 변수를 범주형 특성으로 변환합니다. Unsupervised binning은 의도한 클래스 레이블을 고려하지 않고 숫자 또는 연속 변수가 범주형 bin으로 변환되는 일종의 binning입니다.

데이터 과학의 분류 및 회귀 알고리즘은 어떻게 다른가요?

우리의 학습 방법은 분류 작업에서 입력을 출력으로 변환하는 함수를 훈련하며, 출력 값은 이산 클래스 레이블입니다. 반면에 회귀 문제는 출력이 연속적인 실수인 출력에 대한 입력 매핑을 해결합니다. 일부 알고리즘은 선형 회귀 모델과 같은 회귀 스타일 문제를 위해 특별히 설계되었지만 로지스틱 회귀와 같은 다른 알고리즘은 분류 작업을 위해 설계되었습니다. 날씨 예측, 주택 가격 예측 및 기타 회귀 문제는 회귀 알고리즘을 사용하여 해결할 수 있습니다. 분류 알고리즘은 스팸 이메일 식별, 음성 인식 및 암세포 식별과 같은 문제를 해결하는 데 사용할 수 있습니다.