การจัดการข้อมูล: คุณจะระบุข้อมูลโกหกได้อย่างไร

เผยแพร่แล้ว: 2017-10-24

สารบัญ

การค้นหา 'เงินเดือนนักวิทยาศาสตร์ข้อมูลโดยเฉลี่ยในอินเดีย' โดย Google จะแสดงผลลัพธ์ที่น่าพอใจ

นี่หมายความว่าใครก็ตามที่ต้องการเข้าสู่สนามที่แปลกใหม่นี้สามารถคาดหวังเงินเดือนนี้ได้? ทำไมจะไม่ล่ะ? เกิดอะไรขึ้นกับการคาดหวังว่าจะได้รับเงินจำนวนที่อ้างสิทธิ์โดยเว็บไซต์ที่มีชื่อเสียง ท้ายที่สุดแล้ว เว็บไซต์นี้อาจได้ทำการวิจัยอย่างละเอียดถี่ถ้วนเพื่อให้ได้ตัวเลขนี้ อย่างไรก็ตาม การตัดสินใจตามข้อเรียกร้องนี้เพียงอย่างเดียวไม่ใช่ความคิดที่ดี แต่ทำไม? อ่านต่อ!

“ค่าเฉลี่ย” ในการค้นหาของ Google ด้านบนหมายความว่าอย่างไร ค่าเฉลี่ยมาในรสชาติที่แตกต่างกัน เหล่านี้คือค่าเฉลี่ย ค่ามัธยฐาน และโหมด “ค่าเฉลี่ยของประเทศ” นี้หมายถึงค่าเฉลี่ยใด ถ้ามันเป็นค่าเฉลี่ย คุณจะอนุมานอะไรจากมันได้บ้าง ตรวจสอบผลลัพธ์จากเว็บไซต์อื่น

ในที่นี้กล่าวว่า “ประสบการณ์มีอิทธิพลอย่างมากต่อรายได้สำหรับงานนี้”

ทำไมสิ่งนี้จึงสำคัญ?

ผู้ที่มีประสบการณ์มากมายอาจหารายได้ดีกว่าคนที่ไม่มีประสบการณ์ บุคคลที่สำเร็จการศึกษาจากสถาบันที่มีชื่อเสียงสามารถหารายได้มากกว่าคนที่เรียนรู้ด้วยตนเอง มีโอกาสยุติธรรมที่บุคคลจะขยายเงินเดือนของตนในแบบสำรวจเพื่อเพิ่มสถานะของตน หรือบุคคลอาจลดเงินเดือนของตนด้วยเหตุผลอื่นเช่นภาษี ในสถานการณ์เช่นนี้ การใช้ค่าเฉลี่ยไม่เหมาะสม

หากคุณคำนวณค่าเฉลี่ยของเงินเดือน ค่าผิดปกติสองสามค่าจะมีผลเกินควรต่อค่าเฉลี่ยที่ได้รับ พวกเขาจะดึงค่าเฉลี่ยขึ้น ในกรณีเช่นนี้ ค่ามัธยฐานคือตัวแทนที่แท้จริง โดยจะระบุจำนวนคนที่มีรายได้รวมต่ำกว่าหรือสูงกว่านั้นเท่ากัน

ในอนาคต หากคุณพบคำว่า 'ค่าเฉลี่ย' ในทุกที่ ให้มองหาข้อมูลที่กำลังขยาย ตรวจสอบว่าผู้เขียนกำลังอ้างอิงถึงค่ากลาง ค่ามัธยฐาน หรือโหมด ตรวจสอบช่วงความเชื่อมั่นและระดับนัยสำคัญ หากไม่พบสิ่งเหล่านี้แสดงว่ามีเหตุผลเพียงพอที่จะสงสัย

บทบาท Big Data และเงินเดือนในอุตสาหกรรมการเงิน

พูดว่าการรับรองระบุประเภทของค่าเฉลี่ย แล้วเอามาเป็นแบบสัมบูรณ์ได้ไหม? ไม่? ทำไมจะไม่ล่ะ?

กลับไปที่ข้อความเดิมเกี่ยวกับเงินเดือนเฉลี่ยของนักวิทยาศาสตร์ข้อมูล คำแถลงอ้างว่ามาจากกลุ่มตัวอย่าง 303 เงินเดือน หนึ่งวันก่อน ตัวเลขนี้คือ 12 นี่คือตัวอย่างที่คุณสามารถเชื่อถือได้หรือไม่?

ในการดำเนินการสำรวจหรือทดลอง กลุ่มตัวอย่างจะต้องเป็นตัวแทนที่แท้จริงของประชากร ขนาดของกลุ่มตัวอย่างต้องมีขนาดใหญ่พอที่จะทำการอนุมานเกี่ยวกับประชากรได้อย่างมั่นใจ
ฉันกำลังดูการบรรยายโดยศาสตราจารย์สตาร์เบิร์ดเกี่ยวกับสถิติ ฉันรู้เมื่อหลายปีก่อน หนังสือพิมพ์ฉบับหนึ่งได้ทำการสำรวจเกี่ยวกับการเลือกตั้งประธานาธิบดีในสหรัฐอเมริกา หนังสือพิมพ์ฉบับนี้ส่งแบบสอบถาม วิเคราะห์ และตีพิมพ์ผลที่ผู้สมัครคนใดคนหนึ่งจะชนะ หลังการเลือกตั้ง ผลลัพธ์กลับตรงกันข้ามกับที่หนังสือพิมพ์คาดการณ์ไว้ ผู้สมัครทำนายโดยหนังสือพิมพ์แพ้ด้วยอัตรากำไรสูง ต่อมาหนังสือพิมพ์วิเคราะห์ว่าผิดพลาดตรงไหน

ฝ่ายบริหารของหนังสือพิมพ์พบว่าได้ส่งแบบสอบถามไปยังสมาชิกที่ร่ำรวยเท่านั้น เห็นได้ชัดว่าพวกเขาไม่ได้เป็นตัวแทนของประชากรทั้งหมด ด้วยเหตุนี้ การคาดคะเนจากตัวอย่างที่มีอคตินี้จึงกลายเป็นที่มาของความอับอายสำหรับหนังสือพิมพ์

คุณสามารถอนุมานผลลัพธ์ใด ๆ ก็ได้ที่คุณต้องการดูโดยใช้ตัวอย่างเพียงเล็กน้อย! ตามตัวอย่างพื้นฐาน ถ้าคุณโยนเหรียญ 10 ครั้ง คุณจะได้หัวห้าครั้งและก้อยห้าครั้งหรือไม่? คุณอาจได้หัวเจ็ดครั้งติดต่อกัน และนี่อาจเป็นผลลัพธ์ที่คุณต้องการ 'กฎแห่งค่าเฉลี่ย' จะใช้ได้เฉพาะ (เช่น ครึ่งหัว ครึ่งหาง) เมื่อทำการทดลองการโยนเหรียญหลายครั้งหลายครั้ง ในระยะสั้นผลลัพธ์ใด ๆ ที่เป็นไปได้

หากคุณไม่เห็นข้อมูลเกี่ยวกับขนาดกลุ่มตัวอย่างควบคู่ไปกับประเภทค่าเฉลี่ย อาจเป็นสาเหตุให้เกิดข้อกังวล หากขนาดกลุ่มตัวอย่างเพียงพอและเป็นตัวแทนที่แท้จริงของประชากร ก็ไม่จำเป็นต้องซ่อนไว้

ศิลปะแห่งสถิติ วิทยาศาสตร์ข้อมูล UpGrad Blog
รายงานอ้างว่าในวิทยาลัยแห่งหนึ่ง 33% ของอาจารย์ชายแต่งงานกับนักเรียนหญิง

เราต้องระวังให้มากด้วยเปอร์เซ็นต์ หากเปอร์เซ็นต์ไม่ได้มาพร้อมกับตัวเลขจริง อาจทำให้เข้าใจผิดได้ ในวิทยาลัยที่กล่าวถึงข้างต้น ปรากฏว่ามีผู้หญิงเพียงสามคนเท่านั้นที่เรียนที่นั่น และมีเพียงคนเดียวที่แต่งงานกับศาสตราจารย์ 1 ใน 3 ทำได้ 33% ตรวจสอบเสมอว่าเปอร์เซ็นต์มาพร้อมกับตัวเลขจริงหรือไม่ หากไม่เป็นเช่นนั้นแสดงว่ามีข้อกังวล

ความเข้าใจผิดที่สำคัญอีกประการหนึ่งในสถิติคือความสับสนเกี่ยวกับสหสัมพันธ์กับสาเหตุ หากสองรายการมีความสัมพันธ์กัน การสันนิษฐานว่าสิ่งหนึ่งทำให้เกิดอีกสิ่งหนึ่งนั้นผิด
ในกลุ่มชาวอะบอริจิน การปรากฏตัวของเหาบนร่างกายถือว่าปลอดภัย ถ้าคนเผ่านั้นเป็นไข้ จะสังเกตได้ว่าไม่มีเหาตามร่างกาย ดังนั้น ชนเผ่านี้จึงสันนิษฐานอย่างไร้เดียงสาว่า แท้จริงแล้วการที่ไม่มีเหาเป็นสาเหตุของไข้ ต่อมาพบว่าเมื่อมีคนเป็นไข้ อุณหภูมิร่างกายที่เพิ่มขึ้นทำให้เหาไม่สบาย ไข้ทำให้เหาละทิ้งโฮสต์ การหายตัวไปของพวกมันไม่ใช่สาเหตุของไข้อย่างที่คิด

ขั้นตอนสำคัญในการเรียนรู้วิทยาศาสตร์ข้อมูล เชื่อฉันเถอะว่าฉันพยายามแล้ว

สมมติว่า 'A' และ 'B' มีความเกี่ยวข้องกัน อาจมีตัวแปรอื่น 'C' ที่ทำให้ 'A' และ 'B' เพิ่มขึ้นและลดลงพร้อมกัน 'A' อาจเป็นสาเหตุ และ 'B' อาจเป็นเอฟเฟกต์ หรืออาจเป็นอีกทางหนึ่งหรือแค่เรื่องบังเอิญ ประเด็นคือ ไม่มีทางบอกได้หากไม่ทำการทดลองที่มีการควบคุม ความสัมพันธ์ไม่ควรสับสนกับสาเหตุ

ในทำนองเดียวกัน สามารถจัดการกราฟให้ดูน่าประทับใจโดยไม่ต้องอ้างอิงข้อมูลผิด

นี่เป็นเพียงไม่กี่วิธีที่สถิติสามารถนำมาใช้เพื่อโกหกได้ รายการนี้เป็นเพียงการชี้นำ ไม่ละเอียดถี่ถ้วน วิธีการบลัฟทั้งหมดนี้แสดงให้เห็นว่าสถิติเป็นศิลปะมากเท่ากับวิทยาศาสตร์

ข้อมูลคือน้ำมันใหม่ การตัดสินใจส่วนใหญ่ในภาครัฐและเอกชนขึ้นอยู่กับข้อมูลและการวิเคราะห์ การตีความข้อมูลที่ไม่ถูกต้องหรือที่มาของข้อมูลเชิงลึกที่ไม่ถูกต้องจะทำให้เกิดการแตกสาขาที่มีค่าใช้จ่ายสูง

ในโลกของการตลาดแบบปากต่อปาก คุณต้องระวังเป็นพิเศษเกี่ยวกับการอ้างสิทธิ์ของผู้โฆษณา ที่นี่เช่นกัน คุณต้องระวังการมีอยู่ของสถิติในฐานะศิลปะ ความสงสัยเล็กน้อยเกี่ยวกับการอ้างสิทธิ์ของผู้โฆษณา รวมกับความรู้เกี่ยวกับวิธีที่ผู้คนปรับใช้สถิติเพื่อบอกกล่าวเท็จ จะช่วยให้คุณตัดสินใจได้ดีขึ้นและมีสติมากขึ้นอย่างหลีกเลี่ยงไม่ได้

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

(บทความนี้ได้รับแรงบันดาลใจจากหนังสือ How to Lie with Statistics โดย Darrell Huff)

ความเข้าใจผิดหมายถึงอะไรในสถิติ?

การใช้สถิติในทางที่ผิดอาจไม่ได้ตั้งใจหรือจงใจ แม้ว่าจะเป็นไปได้มากว่าความพยายามอย่างตั้งใจที่จะเบลอเส้นที่มีข้อมูลเท็จจะทำให้อคติรุนแรงขึ้น แต่ก็ไม่จำเป็นต้องมีเป้าหมายที่มุ่งร้ายเพื่อสร้างความสับสน การใช้สถิติในทางที่ผิดเป็นปัญหาที่ใหญ่กว่ามาก ซึ่งขณะนี้ส่งผลกระทบต่อองค์กรและภาคการศึกษาในวงกว้าง ต่อไปนี้คือข้อผิดพลาดทั่วไปบางประการที่นำไปสู่การใช้ในทางที่ผิด เช่น การสำรวจความคิดเห็นที่ผิดพลาด ความสัมพันธ์ที่มีข้อบกพร่อง การตกปลาข้อมูล การสร้างภาพข้อมูลที่ทำให้เข้าใจผิด ความลำเอียงที่มีจุดประสงค์ การสุ่มตัวอย่างไม่ถูกต้อง การแสดงข้อมูลที่เลือกไว้ การละเว้นบรรทัดฐาน ความขัดแย้งของซิมป์สัน กราฟที่ทำให้เข้าใจผิด

การใช้ข้อมูลที่ทำให้เข้าใจผิดส่งผลต่อธุรกิจอย่างไร?

องค์กรธุรกิจที่ประสบความสำเร็จในปัจจุบันต้องอาศัยข้อมูลในการตัดสินใจอย่างมีข้อมูลซึ่งให้ผลลัพธ์ที่มีมูลค่าสูง ข้อมูลสามารถช่วยในการแก้ไขปัญหา การตรวจสอบประสิทธิภาพ การปรับปรุงกระบวนการ การแก้ไขปัญหา และการได้มาซึ่งความเข้าใจที่ดีขึ้นของตลาด ในทางกลับกัน คุณภาพของข้อมูลที่ไม่ดีอาจส่งผลเสียต่อธุรกิจของคุณ ผลที่ตามมาของการใช้ข้อมูลที่ตีความผิดสำหรับธุรกิจของคุณคือกลยุทธ์ทางธุรกิจที่ไม่ถูกต้อง ต้นทุนทางการเงินที่เพิ่มขึ้น การสูญเสียผลิตภาพ ชื่อเสียงที่เสียหาย และการพลาดโอกาสที่เป็นไปได้

วัตถุประสงค์หลักของการจัดการข้อมูลคืออะไร?

การเรียงลำดับ การจัดเรียงใหม่ และการย้ายข้อมูลโดยไม่กระทบต่อข้อมูลนั้น เป็นเรื่องของการจัดการข้อมูล เกี่ยวข้องกับการแปลงข้อมูลให้อยู่ในรูปแบบที่จำเป็นสำหรับการแสดงข้อมูลหรือการป้อนและฝึกอบรมโมเดลการวิเคราะห์ เป้าหมายหลักของการจัดการข้อมูลคือการเปลี่ยนความสัมพันธ์ระหว่างสองรายการข้อมูล (ตรรกะหรือทางกายภาพ) ไม่ใช่ตัวข้อมูลเอง การกรองแถวและคอลัมน์ การรวม การรวมและการต่อกัน การจัดการสตริง การจัดประเภท การถดถอย และสูตรทางคณิตศาสตร์เป็นกระบวนการทั่วไปบางส่วนที่ใช้ในการจัดการข้อมูล