4가지 데이터 유형: 명목, 순서, 이산, 연속
게시 됨: 2020-12-01목차
소개
데이터 과학은 원시 데이터 또는 구조화된 데이터를 실험하는 것입니다. 데이터는 비즈니스를 올바른 길로 이끌거나 최소한 현재 캠페인을 전략화하거나 신제품 출시를 쉽게 구성하거나 다양한 실험을 시도하는 데 도움이 되는 실행 가능한 통찰력을 제공할 수 있는 연료입니다.
이 모든 것에는 하나의 공통 구동 구성 요소가 있으며 이것이 데이터입니다. 우리는 많은 데이터를 생산하는 디지털 시대에 진입하고 있습니다. 예를 들어 Flipkart와 같은 회사는 매일 2TB 이상의 데이터를 생성합니다.
이 데이터가 우리 생활에서 매우 중요할 때 이를 오류 없이 적절하게 저장하고 처리하는 것이 중요해집니다. 데이터 세트를 처리할 때 데이터 범주는 특정 세트에 대해 올바른 결과를 얻기 위해 어떤 전처리 전략이 작동할지 또는 최상의 결과를 위해 어떤 유형의 통계 분석을 적용해야 하는지 결정하는 데 중요한 역할을 합니다. 일반적으로 사용되는 몇 가지 데이터 범주를 살펴보겠습니다.
질적 데이터 유형
정성적 또는 범주적 데이터는 이산 클래스의 유한 집합을 사용하여 고려 중인 개체를 설명합니다. 이러한 유형의 데이터는 숫자로 쉽게 계산하거나 측정할 수 없으므로 범주로 나뉩니다. 사람의 성별(남성, 여성 또는 기타)은 이 데이터 유형의 좋은 예입니다.
이들은 일반적으로 오디오, 이미지 또는 텍스트 매체에서 추출됩니다. 또 다른 예로는 현재 등급, 전화기 색상, 전화기 카테고리 등에 대한 정보를 제공하는 스마트폰 브랜드가 있습니다. 이 모든 정보는 정성적 데이터로 분류될 수 있습니다. 이 아래에는 두 가지 하위 범주가 있습니다.
명사 같은
이들은 자연스러운 순서를 갖지 않는 값의 집합입니다. 몇 가지 예를 들어 이것을 이해합시다. 스마트폰의 색상은 한 색상을 다른 색상과 비교할 수 없으므로 명목 데이터 유형으로 간주할 수 있습니다.
'빨간색'이 '파란색'보다 크다고 말할 수는 없습니다. 사람의 성은 우리가 남성, 여성 또는 다른 사람을 구별할 수 없는 또 다른 하나입니다. 미드레인지, 저가형 스마트폰, 프리미엄 스마트폰 등 휴대폰 카테고리도 명목형 데이터 유형입니다.
읽기: 데이터 과학 경력
서수
이러한 유형의 값은 값 클래스를 유지하면서 자연스러운 순서를 갖습니다. 의류 브랜드의 크기를 고려하면 이름표에 따라 작은 < 중간 < 큰 순서로 쉽게 정렬할 수 있습니다. 시험에서 후보자를 표시하는 동안의 채점 시스템은 A+가 B 등급보다 확실히 더 나은 서수 데이터 유형으로 간주될 수도 있습니다.
이러한 범주는 어떤 유형의 데이터에 적용할 수 있는 인코딩 전략을 결정하는 데 도움이 됩니다. 기계 학습 모델은 이러한 값을 직접 처리할 수 없고 모델이 본질적으로 수학적이기 때문에 숫자 유형으로 변환해야 하기 때문에 정성적 데이터에 대한 데이터 인코딩은 중요합니다.
범주간 비교가 없는 명목형 자료형은 2진법과 유사한 원-핫 부호화를 적용할 수 있으며, 서수형 자료형은 정수 형태의 레이블 부호화를 적용할 수 있다. 부호화.
양적 데이터 유형
이 데이터 유형은 사물을 수량화하려고 하며 본질적으로 셀 수 있도록 하는 숫자 값을 고려하여 수행합니다. 스마트폰 가격, 제공되는 할인 혜택, 제품에 대한 등급 수, 스마트폰 프로세서의 주파수 또는 특정 전화의 램, 이 모든 것이 양적 데이터 유형의 범주에 속합니다.
핵심은 기능이 취할 수 있는 값이 무한할 수 있다는 것입니다. 예를 들어, 스마트폰의 가격은 x에서 임의의 값까지 다양할 수 있으며 분수 값을 기준으로 더 세분화할 수 있습니다. 이를 명확하게 설명하는 두 가지 하위 범주는 다음과 같습니다.

이산
정수 또는 정수에 해당하는 수치는 이 범주에 속합니다. 전화기의 스피커 수, 카메라, 프로세서의 코어, 지원되는 심의 수는 모두 이산 데이터 유형의 몇 가지 예입니다.
마디 없는
분수는 연속 값으로 간주됩니다. 이들은 프로세서의 작동 주파수, 전화의 안드로이드 버전, 와이파이 주파수, 코어의 온도 등의 형태를 취할 수 있습니다.
필독: 인도의 데이터 과학자 급여
순서형과 이산형이 겹칠 수 있습니까?
이것에 주의를 기울이면 서수 클래스에 번호를 부여할 수 있는데, 이를 이산형 또는 서수라고 불러야 합니까? 사실은 여전히 서수적입니다. 그 이유는 번호를 매겨도 클래스 간의 실제 거리가 전달되지 않기 때문입니다.
예를 들어, 시험의 채점 시스템을 고려하십시오. 각 등급은 A, B, C, D, E가 될 수 있으며 처음부터 번호를 매기면 1,2,3,4,5가 됩니다. 이제 숫자 차이에 따르면 E 등급과 D 등급 사이의 거리는 D와 C 등급 사이의 거리와 동일하며 C 등급은 E 등급에 비해 여전히 허용되지만 중간 차이는 동등하다고 선언합니다.
사용자 경험이 매우 나쁨에서 매우 좋음까지의 척도로 기록되는 설문 조사 양식에도 동일한 기술을 적용할 수 있습니다. 다양한 클래스 간의 차이는 명확하지 않으므로 직접 수량화할 수 없습니다.
다른 테스트
우리는 데이터의 모든 주요 분류에 대해 논의했습니다. 이것은 이제 다른 범주에서 수행할 테스트의 우선 순위를 지정할 수 있기 때문에 중요합니다. 이제 정량적 데이터의 경우 히스토그램 또는 빈도 플롯을 그리고 정성적 데이터의 경우 파이 차트와 막대 플롯을 그리는 것이 합리적입니다.
하나의 종속변수와 둘 이상의 독립변수 간의 관계를 분석하는 회귀분석은 정량적 데이터에 대해서만 가능합니다. ANOVA 테스트(Analysis of variance) 테스트는 하나의 측정 변수와 두 개의 명목 변수를 사용하는 양방향 ANOVA 테스트를 적용할 수 있지만 정성적 변수에만 적용할 수 있습니다.
이러한 방식으로 정성적 데이터에 카이제곱 검정을 적용하여 범주형 변수 간의 관계를 찾을 수 있습니다.
결론
이 기사에서 우리는 우리가 생산하는 데이터가 어떻게 표를 뒤집을 수 있는지, 다양한 데이터 범주가 필요에 따라 정렬되는 방법에 대해 논의했습니다. 또한 서수 데이터 유형이 이산 데이터 유형과 어떻게 겹칠 수 있는지 살펴보았습니다.
데이터 범주에 적합한 플롯 유형은 특정 데이터 유형에 적용할 수 있는 다양한 유형의 테스트 및 모든 유형의 데이터를 사용하는 기타 테스트와 함께 논의되었습니다.
급변하는 기술 발전에 앞장서기 위한 데이터 과학 학습에 대해 궁금하시다면 upGrad & IIIT-B의 데이터 과학 고급 인증을 확인하세요.
데이터 과학이 중요한 이유는 무엇입니까?
데이터 과학의 중요성은 프로그래밍, 수학 및 통계 분야의 전문 지식을 결합하여 새로운 통찰력을 생성하고 많은 양의 데이터를 이해한다는 사실에 있습니다. 기업의 경우 데이터 과학은 데이터 수집, 저장, 정렬 및 평가를 설명하기 때문에 데이터 기반 의사 결정을 내리는 데 중요한 리소스입니다. 고도로 숙련된 컴퓨터 전문가가 자주 사용합니다. 데이터 과학이 왜 필수적인지 자문해 보면 데이터의 가치가 계속해서 증가하고 있기 때문에 답이 나옵니다. 데이터 과학은 디지털 데이터가 조직을 어떻게 변화시키고 더 많은 정보에 입각한 필수 선택을 할 수 있는지 보여주기 때문에 수요가 많습니다.
데이터 과학의 범위는 무엇입니까?
데이터 과학은 오늘날 거의 모든 곳에서 찾을 수 있습니다. 여기에는 Amazon 구매와 같은 온라인 거래, Facebook/Instagram과 같은 소셜 미디어 피드, Netflix 추천, 스마트폰에서 제공하는 손가락 및 얼굴 인식 기능이 포함됩니다. 데이터 과학은 몇 가지만 언급하자면 인공 지능, 사물 인터넷(IoT), 딥 러닝과 같은 수많은 첨단 기술 아이디어를 다룹니다. 데이터 사이언스의 효과는 그 범위가 확장되는 기술 발전과 발전으로 인해 극적으로 증가했습니다. 데이터 과학을 배우면 많은 옵션에서 직업 프로필을 선택할 수 있으며 이러한 직업의 대부분은 급여가 높습니다. 이러한 직업 프로필 중 일부는 데이터 분석가, 데이터 과학자, 데이터 엔지니어, 기계 학습 과학자 및 엔지니어, 비즈니스 인텔리전스 개발자, 데이터 설계자, 통계학자 등입니다.
명목 데이터는 서수 데이터와 어떻게 다릅니까?
명목 데이터에는 둘 이상의 범주를 포함하는 이름이나 특성이 포함되며 범주에는 고유한 순서가 없습니다. 즉, 이러한 유형의 데이터에는 자연스러운 순위나 순서가 없습니다. 서수 데이터 유형은 명목 데이터 유형과 유사하지만 둘 사이의 차이점은 데이터의 명백한 순서입니다. 전반적으로 순서 데이터에는 순서가 있지만 명목 데이터에는 순서가 없습니다. Likert 척도, Bristol stool 척도 및 0에서 10 사이의 다른 척도와 같은 모든 순위 데이터는 순서 데이터를 사용하여 표현할 수 있습니다.