อะไรทำให้โพสต์ "วิทยาศาสตร์ข้อมูล" เป็นที่นิยมในสื่อ
เผยแพร่แล้ว: 2018-10-18บล็อกนี้เผยแพร่ครั้งแรกบน Medium โดย Aiswarya Ramachandran - ศิษย์เก่าของโปรแกรม Data Science ของ UpGrad กับ IIIT-Bangalore
ในโพสต์ก่อนหน้าของฉันใน Medium ฉันได้เขียนเกี่ยวกับวิธีการขูดผลการค้นหาสำหรับสตริงข้อความค้นหาเฉพาะจากสื่อ ในโพสต์นี้ เราจะลงรายละเอียดในการวิเคราะห์ข้อมูลที่ถูกทิ้งสำหรับคำค้นหา "วิทยาศาสตร์ข้อมูล" เพื่อจัดกลุ่มโพสต์ตามจำนวนการปรบมือและการตอบกลับในระดับความนิยมต่างๆ และยังเข้าใจถึงสิ่งที่ทำให้โพสต์เหล่านี้เป็นที่นิยม
ข้อมูลที่ตัดออกจากผลการค้นหาขนาดกลางคือไฟล์ JSON ที่มีข้อมูลมากมายเกี่ยวกับผลการค้นหาแต่ละรายการ ในการสำรวจโครงสร้างของไฟล์ JSON ฉันใช้ Notepad++ กับปลั๊กอิน JSON ไฟล์ JSON มีข้อมูลเกี่ยวกับโพสต์ ผู้เขียนโพสต์ และผู้เผยแพร่ที่เกี่ยวข้องกับโพสต์นั้น (ถ้ามี) นี่คือโครงสร้างข้อมูล JSON สำหรับโพสต์ขนาดกลาง:
รหัสสำหรับดึงข้อมูลจากไฟล์ JSON สามารถพบได้ที่นี่ นอกจากการดึงข้อมูลจากไฟล์ JSON ฉันยังเพิ่มฟิลด์ที่มีวันที่ที่โพสต์ถูกทิ้ง
วิทยาศาสตร์ข้อมูลสรุปเป็นภาพเดียวสารบัญ
การวิเคราะห์เชิงสำรวจของโพสต์ที่เกี่ยวข้องกับ “วิทยาศาสตร์ข้อมูล”
ในการดึงผลลัพธ์สำหรับข้อความค้นหา "วิทยาศาสตร์ข้อมูล" มีบทความ 831 รายการที่ถูกทิ้ง โดย 31 รายการเป็นการตอบกลับไปยังโพสต์หนึ่งและไม่รวมอยู่ในการวิเคราะห์ ต่อไปนี้คือจำนวนโพสต์ที่เผยแพร่ในช่วงหลายปีที่ผ่านมา ข้อมูลที่ถูกทิ้งคือตั้งแต่เดือนมีนาคม 2013 ถึงเมษายน 2018:

ฟิลด์วันที่ทั้งหมด เช่น วันที่สร้าง วันที่เผยแพร่ครั้งแรก วันที่อัปเดตล่าสุด ซึ่งมิลลิวินาทีผ่านไปตั้งแต่ม.ค. 1970 ฟิลด์เหล่านี้ถูกแปลงเป็นรูปแบบวันที่ที่มนุษย์อ่านได้โดยใช้ฟังก์ชันด้านล่าง
# ฟังก์ชั่นการแปลงวันที่ EPOCH เป็นรูปแบบที่มนุษย์อ่านได้
def convertToDateString (วันที่): return (datetime(1970, 1, 1) + timedelta(มิลลิวินาที=วันที่)).strftime("%Y-%m-%d %H:%M:%S")
ขั้นตอนต่อไปคือการดูว่าคำใดเกิดขึ้นบ่อยที่สุดในชื่อโพสต์เหล่านี้ ดังที่คุณเห็นจาก word cloud ด้านล่าง Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (เกี่ยวกับรถยนต์ที่ขับด้วยตนเอง) เป็นคำบางคำที่เกิดขึ้นบ่อยที่สุด

การกระจายของ Number of Claps, Number of Responses มีความเบ้สูง 708 กระทู้มีน้อยกว่า 500 ปรบมือ แสดงว่ามีไม่กี่กระทู้ที่ได้รับความนิยม นี่คือการกระจายของปรบมือ:

เวลาในการอ่าน (นาที) ของบทความส่วนใหญ่อยู่ระหว่าง 1 ถึง 3 นาที

บนสื่อ แต่ละโพสต์สามารถมีแท็กได้สูงสุด 5 แท็ก แท็กช่วยให้ผู้อ่านค้นหาเนื้อหาได้ง่ายขึ้น ยิ่งแท็กมีความเกี่ยวข้องมากเท่าไหร่ ก็ยิ่งหาได้ง่ายขึ้นเท่านั้น ดังที่เราเห็นในภาพ Data Science เป็นแท็กที่ใช้บ่อยที่สุด รองลงมาคือ Machine Learning, Big data, Artificial Intelligence นี่คือแท็ก 10 อันดับแรกที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล:
ทำไมงาน Data Science ถึงมีความต้องการสูง?
การสร้างคลัสเตอร์ตามการตอบสนองของผู้ใช้
มีสามตัวชี้วัดเพื่อวัดความนิยมของโพสต์ในสื่อ ได้แก่ #ปรบมือ #ตอบกลับ และ #แนะนำ เพื่อให้การเปรียบเทียบที่ยุติธรรม ฉันยังรวมคุณลักษณะ #วันระหว่างวันที่เผยแพร่ครั้งแรกและวันที่รวบรวมข้อมูล ในชุดคุณลักษณะนี้ ฉันใช้การจัดกลุ่มแบบ k-mean และระบุสามคลัสเตอร์ ดังที่เราเห็นจากภาพด้านล่าง มีความแตกต่างอย่างมากระหว่างตัวชี้วัดทั้งสามในคลัสเตอร์ (กลุ่มยอดนิยม) นอกจากนี้ เราเห็นได้ว่าสำหรับโพสต์ที่ได้รับความนิยมน้อยกว่า แม้ว่าค่ามัธยฐานระหว่างการเผยแพร่และการลบทิ้งจะสูงที่สุด การมีส่วนร่วมของพวกเขานั้นต่ำมาก ต่อไปนี้คือตัวชี้วัดข้ามคลัสเตอร์ (กลุ่มยอดนิยม):

การทำความเข้าใจสิ่งที่ทำให้โพสต์วิทยาศาสตร์ข้อมูลเป็นที่นิยม
ดังที่เราเห็นได้จากภาพด้านล่าง สำหรับบทความยอดนิยม ค่ามัธยฐานสำหรับบทความยอดนิยมและปานกลางคือ 9 และ 7 พวกเขายังมีลิงก์มากกว่าเมื่อเปรียบเทียบกับบทความที่ได้รับความนิยมน้อยกว่า ซึ่งหมายความว่าโพสต์ยอดนิยมหมายถึงโพสต์อื่นๆ และแหล่งข้อมูลอื่นๆ ที่เพิ่มมูลค่าให้กับเนื้อหามากขึ้น ความแตกต่างระหว่างโพสต์ยอดนิยมและไม่เป็นที่นิยม

จากภาพด้านบน เราจะเห็นได้ว่าโพสต์ที่ได้รับความนิยมปานกลางนั้นอยู่ใกล้กับกลุ่มที่ได้รับความนิยมอย่างสูงมากกว่ากลุ่มที่ได้รับความนิยมน้อยกว่า
การประยุกต์ใช้ Data Science และ Machine Learning ใน NETFLIXด้วยค่า k-mean ง่ายๆ เราสามารถระบุโพสต์ที่ได้รับความนิยมและไม่เป็นที่นิยมบนสื่อที่เกี่ยวข้องกับ Data Science
เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
เมื่อพูดถึง Medium ควรโพสต์บ่อยแค่ไหน?
หากคุณต้องการประสบความสำเร็จในสื่อและไม่สามารถโพสต์ได้ทุกวัน อย่างน้อยต้องเขียน 3 ถึง 5 ครั้งต่อสัปดาห์ ความสม่ำเสมอเป็นสิ่งสำคัญที่สุดที่คุณควรมุ่งมั่น ไม่ว่าคุณจะกำหนดตารางเวลาอะไรก็ตาม ให้แน่ใจว่ามีความยั่งยืนในระยะยาวและปฏิบัติตามนั้น
เป็นไปได้ไหมที่ทุกคนจะได้รับการเผยแพร่บนสื่อ?
ทุกคนสามารถสร้างบัญชีขนาดกลางได้ฟรีและเริ่มเขียนบล็อกได้ทันที นักเขียนสามารถส่งผลงานแบบสแตนด์อโลน ร่วมรวบรวมเรื่องราวที่รวบรวมไว้ หรือสร้างคอลเล็กชันของตนเองได้ ด้วยตัวแก้ไขที่เรียบง่าย คุณสามารถแบ่งปันประสบการณ์ของคุณกับคนทั้งโลกในฐานะนักเขียนสื่อ การเผยแพร่บนสื่อนั้นฟรีโดยสมบูรณ์ และเรื่องราวของคุณจะถูกแบ่งปันกับผู้ติดตามของคุณรวมถึงผู้คนอีกนับล้านที่สนใจในธีมที่คล้ายกัน
ในสื่อ มุ่งสู่ Data Science คืออะไร?
บริษัท Towards Data Science Inc. ตั้งอยู่ในแคนาดา พวกเขาใช้สื่อเพื่อสร้างฟอรัมสำหรับบุคคลหลายพันคนเพื่อแบ่งปันแนวคิดและเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล ผู้เขียนสามารถเลือกที่จะจำกัดการเข้าถึงโพสต์ของตนไว้เฉพาะสมาชิกซึ่งเป็นส่วนหนึ่งของระบบนิเวศขนาดกลางเท่านั้น ผ่านโปรแกรมพันธมิตรขนาดกลาง คุณสามารถเข้าถึงผู้ชมจำนวนมากขึ้นและสร้างรายได้ด้วยการเผยแพร่ใน Towards Data Science ตามข้อกำหนดในการให้บริการของสื่อ ซึ่งคุณยอมรับเมื่อสร้างบัญชีสื่อ คุณเป็นเจ้าของงานของคุณแต่เพียงผู้เดียว