데이터 조작: 데이터 거짓말을 어떻게 식별할 수 있습니까?

게시 됨: 2017-10-24

'인도의 평균 데이터 과학자 급여'에 대한 Google 검색은 행복한 결과를 반환합니다.

이 이국적인 분야에 들어가고 싶은 사람이라면 누구나 이 급여를 기대할 수 있다는 뜻인가요? 왜 안 돼? 평판이 좋은 웹사이트에서 요구하는 금액을 기대하는 것이 잘못된 것은 무엇입니까? 결국 이 웹사이트는 이 수치에 도달하기 위해 광범위한 조사를 수행했을 수 있습니다. 그러나 이 주장만으로 결정을 내리는 것은 좋은 생각이 아닙니다. 하지만 왜? 읽어!

위의 Google 검색에서 "평균"은 무엇을 의미합니까? 평균은 다양한 맛이 있습니다. 평균, 중앙값 및 모드입니다. 이 "국가 평균"은 어떤 평균을 의미합니까? 그것이 평균이라면 무엇을 추론할 수 있습니까? 다른 웹사이트에서 결과를 확인하세요.

여기에 "경력이 이 직업의 수입에 큰 영향을 미친다"라고 나와 있습니다.

이것이 왜 중요한가?

풍부한 경험을 가진 사람이 경험이 없는 사람보다 더 나은 수입을 얻을 수 있습니다. 유명 기관을 졸업한 개인은 독학으로 배운 사람보다 더 많은 수입을 올릴 수 있습니다. 어떤 사람이 자신의 지위를 높이기 위해 설문조사에서 급여를 부풀릴 수 있는 공정한 기회가 있습니다. 또는 세금과 같은 다른 이유로 급여를 경시할 수도 있습니다. 이러한 시나리오에서는 평균을 사용하는 것이 적절하지 않습니다.

이러한 급여의 평균을 계산하면 몇 가지 이상값이 얻은 평균에 과도한 영향을 미칩니다. 그들은 평균을 끌어올릴 것입니다. 이러한 경우 중앙값이 진정한 대표자입니다. 아래 및 위 금액을 버는 동일한 수의 사람들을 나타냅니다.

앞으로 어디에서나 '보통'이라는 단어를 만난다면 증폭 정보를 찾으십시오. 저자가 평균, 중앙값 또는 최빈값을 말하는지 확인하십시오. 신뢰 구간과 유의 수준을 확인합니다. 이것들이 발견되지 않는다면, 회의적일 충분한 이유가 있습니다.

금융 산업의 빅 데이터 역할 및 급여

예를 들어, 보증은 평균 유형을 지정합니다. 그러면 절대적인 것으로 받아들일 수 있습니까? 아니요? 왜 안 돼?

데이터 과학자의 평균 급여에 대한 원래 진술로 돌아가 보겠습니다. 성명서는 303명의 급여 샘플에서 나온 것이라고 주장합니다. 정확히 하루 전 이 숫자는 12였습니다. 믿을 수 있는 샘플인가요?

설문조사나 실험을 수행하려면 표본이 기본 모집단을 제대로 대표해야 합니다. 표본의 크기는 모집단에 대해 자신 있게 추론할 수 있을 만큼 충분히 커야 합니다.
통계에 관한 스타버드 교수님의 강의를 보고 있었습니다. 나는 몇 년 전에 한 신문에서 미국 대선에 관한 설문조사를 실시했다는 것을 알게 되었습니다. 이 신문은 설문지를 보내어 분석한 후 특정 후보가 당선될 것이라는 결과를 발표했다. 선거 결과는 신문이 예상했던 것과는 정반대였다. 신문이 예측한 후보자는 큰 차이로 졌습니다. 이어 신문은 어디가 잘못됐는지 분석했다.

신문사의 경영진은 부유한 구독자들에게만 설문지를 보낸다는 사실을 알게 되었습니다. 분명히 그들은 전체 인구를 대표하지 않았습니다. 결과적으로 이 편향된 표본을 기반으로 한 예측은 신문에 당혹감의 원인이 되었습니다.

아주 작은 샘플을 사용하여 보고 싶은 결과를 유추할 수 있습니다! 아주 기본적인 예로 동전을 10번 던지면 앞면이 5번, 뒷면이 5번 나오나요? 연속으로 7개의 헤드를 얻을 수 있으며 이것이 원하는 결과일 수도 있습니다. '평균의 법칙'은 이 동전 던지기 실험이 여러 번 수행될 때만 작동합니다(즉, 앞면 반, 뒷면 반). 단기적으로는 어떤 결과라도 가능합니다.

평균 유형과 함께 표본 크기에 대한 정보가 표시되지 않는 경우 이는 문제의 원인입니다. 표본 크기가 충분하고 모집단의 진정한 대표자라면 숨길 필요가 없습니다.

통계 데이터 과학의 기술 UpGrad 블로그
한 보고서에 따르면 특정 대학에서 남교수의 33%가 여학생과 결혼했다고 합니다.

백분율에 매우 주의해야 합니다. 백분율이 실제 숫자와 함께 표시되지 않으면 오해의 소지가 있습니다. 위에서 언급한 대학에서 3명의 여성만이 그곳에서 공부했고, 단 한 명이 교수와 결혼한 것으로 밝혀졌습니다. 3명 중 1명은 33%를 차지합니다. 백분율이 실제 숫자와 함께 표시되는지 항상 확인하십시오. 그렇지 않은 경우 우려할 만한 이유가 있습니다.

통계의 또 다른 주요 오류는 인과 관계와 상관 관계를 혼동하는 것입니다. 두 항목이 상관관계가 있는 경우 한 항목이 다른 항목을 유발한다는 가정은 잘못된 것입니다.
원주민 그룹에서는 몸에 이가 있는 것이 안전한 것으로 간주되었습니다. 어떤 사람이 그 부족에서 열병을 앓으면 몸에 이가 없는 것으로 관찰되었습니다. 그래서 부족은 이 이가 없는 것이 사실 열병의 원인이라고 순진하게 추측했습니다. 나중에 사람이 열이 났을 때 체온이 올라가서 이가 불편하다는 것이 밝혀졌습니다. 열병으로 인해 이가 숙주를 버리게 되었습니다. 그들의 부재는 가정된 대로 발열의 원인이 아니었다.

데이터 과학을 마스터하기 위한 최고의 단계, 내가 시도한 것을 믿으세요

예를 들어 'A'와 'B'는 상관관계가 있습니다. 'A'와 'B'가 함께 오르락 내리락하게 하는 다른 변수 'C'가 있을 수 있습니다. 'A'가 원인일 수 있고 'B'가 결과일 수도 있고, 그 반대일 수도 있고 우연의 일치일 수도 있습니다. 요점은 통제된 실험을 하지 않고는 알 수 없다는 것입니다. 상관관계를 인과관계와 혼동해서는 안 됩니다.

유사하게, 그래프는 데이터를 잘못 인용하지 않고 인상적으로 보이도록 조작할 수 있습니다.

이것은 통계가 거짓말을 하는 데 사용될 수 있는 몇 가지 방법일 뿐입니다. 이 목록은 암시적일 뿐 전체가 아닙니다. 이러한 모든 허세 방법은 통계가 과학인 동시에 예술임을 보여줍니다.

데이터는 새로운 오일입니다. 민간 및 공공 부문에서 대부분의 결정은 데이터와 그 분석을 기반으로 합니다. 데이터의 잘못된 해석이나 잘못된 통찰력의 도출은 비용이 많이 드는 결과를 초래할 것입니다.

바이럴 마케팅의 세계에서는 광고주의 주장에 각별히 주의해야 합니다. 여기서도 예술로서의 통계의 존재를 인식할 필요가 있다. 광고주의 주장에 대한 약간의 회의론과 사람들이 거짓말을 하기 위해 통계를 사용하는 방법에 대한 지식과 결합하면 필연적으로 더 나은 현명한 결정을 내리는 데 도움이 될 것입니다.

세계 최고의 대학에서 온라인으로 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

(이 기사는 Darrell Huff 의 How to Lie with Statistics 책에서 영감을 받았습니다 .)

통계에서 오해의 소지가 무엇을 의미합니까?

통계 오용은 의도하지 않거나 의도적일 수 있습니다. 잘못된 정보로 선을 흐리게 하려는 의도적인 노력이 편견을 심화시킬 가능성이 거의 있지만, 혼란을 일으키기 위해 악의적인 목표를 가질 필요는 없습니다. 통계의 오용은 이제 광범위한 기업 및 학계에 영향을 미치는 훨씬 더 큰 문제입니다. 다음은 잘못된 폴링, 잘못된 상관 관계, 데이터 낚시, 잘못된 데이터 시각화, 의도적 편향, 잘못된 샘플링, 선택적 데이터 표시, 기준선 생략, 심슨의 역설, 잘못된 그래프와 같은 오용으로 이어지는 몇 가지 일반적인 실수입니다.

오해의 소지가 있는 데이터를 사용하면 비즈니스에 어떤 영향을 미치나요?

오늘날의 성공적인 비즈니스 조직은 높은 가치의 결과를 제공하는 충분한 정보에 입각한 결정을 내리기 위해 데이터에 의존합니다. 데이터는 문제 해결, 성능 모니터링, 프로세스 개선, 문제 해결 및 시장에 대한 더 나은 이해를 얻는 데 도움이 될 수 있습니다. 반면에 열악한 데이터 품질은 비즈니스에 해로울 수 있습니다. 비즈니스에 잘못 해석된 데이터를 사용하는 결과는 잘못된 비즈니스 전략, 재정 비용 증가, 생산성 손실, 평판 손상, 잠재적 기회 상실 등입니다.

데이터 조작의 주요 목적은 무엇입니까?

데이터에 영향을 주지 않고 데이터를 정렬, 재정렬 및 재배치하는 것이 데이터 조작의 전부입니다. 여기에는 데이터를 표시하거나 분석 모델을 제공하고 교육하는 데 필요한 형식으로 데이터를 변환하는 작업이 수반됩니다. 데이터 조작의 주요 목표는 데이터 자체가 아니라 두 데이터 항목(논리적 또는 물리적) 간의 관계를 변경하는 것입니다. 행 및 열 필터링, 집계, 조인 및 연결, 문자열 조작, 범주화, 회귀 및 수학 공식은 데이터를 관리하는 데 사용되는 가장 일반적인 프로세스 중 일부입니다.