การแสดงข้อมูลในการเขียนโปรแกรม R: การสร้างภาพข้อมูลยอดนิยมสำหรับผู้เริ่มต้นในการเรียนรู้
เผยแพร่แล้ว: 2020-01-22ทุกคนที่เกี่ยวข้องในการวิเคราะห์ข้อมูลต้องเคยได้ยินเกี่ยวกับ Data Visualization และเคยรู้จักเป็นอย่างดีมาก่อน หากคุณเป็นมือใหม่ เรียนรู้ทั้งหมดเกี่ยวกับการสร้างภาพข้อมูลที่นี่ การแสดงข้อมูลเป็นส่วนสำคัญของการวิเคราะห์ข้อมูลและหมายถึงการแสดงข้อมูลในรูปของกราฟ แผนภูมิ แถบ หรือรูปแบบอื่นๆ โดยพื้นฐานแล้ว จุดประสงค์ของการแสดงข้อมูลเป็นภาพคือเพื่อแสดงหรือแสดงความสัมพันธ์ระหว่างข้อมูลและรูปภาพ
การเพิ่มขึ้นของ Big Data ทำให้นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูลจำเป็นต้องลดความซับซ้อนของข้อมูลเชิงลึกที่ได้รับผ่านการแสดงภาพเพื่อให้เข้าใจง่าย เนื่องจากตอนนี้นักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลทำงานร่วมกับชุดข้อมูลที่ซับซ้อนและขนาดใหญ่จำนวนมาก การแสดงข้อมูลจึงมีความสำคัญมากกว่าที่เคย Data Visualization นำเสนอการสรุปข้อมูลด้วยภาพหรือรูปภาพ ซึ่งช่วยให้ผู้เชี่ยวชาญด้าน Data Science และ Big Data สามารถระบุรูปแบบและแนวโน้มที่ซ่อนอยู่ภายในข้อมูลได้ง่ายขึ้น
ด้วยการแสดงข้อมูล ผู้เชี่ยวชาญในสาขา Data Science และ Big Data ไม่จำเป็นต้องเรียกดูแถวและคอลัมน์นับพันในสเปรดชีตอย่างกว้างขวาง พวกเขาสามารถอ้างอิงถึงการแสดงภาพเพื่อทำความเข้าใจว่าข้อมูลที่เกี่ยวข้องทั้งหมดอยู่ในชุดข้อมูลใด
แม้ว่าเราจะมีเครื่องมือสร้างภาพข้อมูลแบบสแตนด์อโลนและมีประโยชน์มากมาย เช่น Tableau, QlikView และ d3.js วันนี้เราจะมาพูดถึง Data Visualization ในภาษาการเขียนโปรแกรม R R เป็นเครื่องมือที่ยอดเยี่ยมสำหรับการสร้างภาพข้อมูล เนื่องจากมีฟังก์ชันและไลบรารีในตัวมากมายที่ครอบคลุมความต้องการในการสร้างภาพข้อมูลเกือบทั้งหมด
ในโพสต์นี้ เราจะพูดถึงเครื่องมือสร้างภาพข้อมูล R 8 รายการที่ใช้โดยนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ทั่วโลก!
สารบัญ
เครื่องมือสร้างภาพข้อมูล 8 อันดับแรก
1. แผนภูมิแท่ง
ทุกคนคุ้นเคยกับแผนภูมิแท่งที่สอนในโรงเรียนและวิทยาลัย ใน R Data Visualization ด้วยแผนภูมิแท่ง แนวคิดและจุดมุ่งหมายยังคงเหมือนเดิม นั่นคือการแสดงการเปรียบเทียบระหว่างตัวแปรตั้งแต่สองตัวขึ้นไป แผนภูมิแท่งแสดงการเปรียบเทียบระหว่างยอดรวมสะสมในกลุ่มต่างๆ ไวยากรณ์มาตรฐานในการสร้างแผนภูมิแท่งใน R คือ:
barplot(H,xlab,ylab,main,name.arg,col)
มีแผนภูมิแท่งหลายประเภทที่มีจุดประสงค์เฉพาะ ในขณะที่แผนภูมิแท่งแนวนอนและแนวตั้งเป็นรูปแบบมาตรฐาน R สามารถสร้างแท่งทั้งแนวนอนและแนวตั้งในแผนภูมิได้ นอกจากนี้ R ยังมีแผนภูมิแท่งแบบเรียงซ้อนที่ให้คุณแนะนำตัวแปรต่างๆ ให้กับแต่ละหมวดหมู่ได้ ใน R ใช้ barplot() เพื่อสร้างแผนภูมิแท่ง
2. ฮิสโตแกรม
ฮิสโตแกรมทำงานได้ดีที่สุดด้วยความแม่นยำหรือตัวเลขใน R การแสดงนี้จะแบ่งข้อมูลออกเป็นช่อง (ตัวแบ่ง) และแสดงการกระจายความถี่ของช่องเก็บเหล่านี้ คุณสามารถปรับแต่งถังขยะและดูว่ามีผลอย่างไรกับรูปแบบการแสดงภาพ ไวยากรณ์มาตรฐานสำหรับการสร้างฮิสโตแกรมโดยใช้ R คือ:
hist(v,main,xlab,xlim,ylim,breaks,col,border)
ฮิสโตแกรมให้ค่าประมาณความน่าจะเป็นของตัวแปร กล่าวคือ ช่วงเวลาก่อนเสร็จสิ้นโครงการ แต่ละแท่งในฮิสโตแกรมแสดงถึงความสูงของจำนวนค่าที่มีอยู่ในช่วงนั้น ภาษา R ใช้ฟังก์ชัน hist() เพื่อสร้างฮิสโตแกรม
แหล่งที่มา
3. พล็อตกล่อง
แผนภาพกล่องแสดงตัวเลขที่มีนัยสำคัญทางสถิติห้าจำนวน ได้แก่ ค่าต่ำสุด เปอร์เซ็นไทล์ที่ 25 ค่ามัธยฐาน ค่าเปอร์เซ็นไทล์ที่ 75 และค่าสูงสุด แม้ว่าการลงจุดแบบกล่องจะมีความคล้ายคลึงกันหลายอย่างกับแผนภูมิแท่ง แต่การลงจุดแบบกล่องให้การแสดงภาพสำหรับข้อมูลตัวแปรตามหมวดหมู่และแบบต่อเนื่อง แทนที่จะเน้นที่ข้อมูลตามหมวดหมู่เท่านั้น ไวยากรณ์มาตรฐานในการสร้าง boxplot ใน R คือ:
boxplot(x, data, notch, varwidth, ชื่อ, หลัก)
R สร้างแผนผังกล่องโดยใช้ฟังก์ชัน boxplot() ฟังก์ชันนี้สามารถใช้เวกเตอร์ตัวเลขจำนวนเท่าใดก็ได้ และวาดบ็อกซ์พล็อตสำหรับเวกเตอร์แต่ละตัว แผนภาพกล่องเหมาะที่สุดสำหรับการแสดงภาพการแพร่กระจายของข้อมูลและหาข้อสรุปตามข้อมูลนั้น
เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
4. พล็อตกระจาย
แผนภาพแบบกระจายแสดงจุดต่างๆ มากมายในระนาบคาร์ทีเซียน โดยแต่ละจุดแสดงถึงค่าของตัวแปรสองตัว คุณสามารถเลือกตัวแปรหนึ่งตัวในแกนนอนและตัวแปรที่สองในแกนตั้ง หน้าที่ของแผนภาพกระจายคือการติดตามตัวแปรต่อเนื่องสองตัวในช่วงเวลาหนึ่ง ใน R ใช้ฟังก์ชัน plot() เพื่อสร้างพล็อตแบบกระจาย ไวยากรณ์มาตรฐานสำหรับการสร้าง scatterplot ใน R คือ:
พล็อต (x, y, main, xlab, ylab, xlim, ylim, แกน)
แผนภาพแบบกระจายเหมาะสำหรับกรณีที่คุณต้องการ หลีกเลี่ยงข้อมูลที่ผิด ในการแสดงภาพ สิ่งเหล่านี้เหมาะที่สุดสำหรับการตรวจสอบข้อมูลอย่างง่าย

5. สหสัมพันธ์
คอร์เรโลแกรมหรือเมทริกซ์สหสัมพันธ์วิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตัวเลขแต่ละคู่ในชุดข้อมูล ให้ภาพรวมโดยย่อของชุดข้อมูลทั้งหมด Correlograms ยังสามารถเน้นจำนวนความสัมพันธ์ระหว่างชุดข้อมูล ณ จุดต่างๆ ของเวลา
ใน R แพ็คเกจ GGally นั้นเหมาะอย่างยิ่งสำหรับการสร้างคอร์เรโลแกรม ในการสร้างคอร์เรโลแกรมแบบคลาสสิก (ด้วยพล็อตแบบกระจาย สัมประสิทธิ์สหสัมพันธ์ และการแจกแจงตัวแปร) คุณสามารถใช้ฟังก์ชัน ggpairs() แพ็คเกจที่ยอดเยี่ยมอีกอันสำหรับการสร้างคอร์เรโลแกรมคือแพ็คเกจคอร์เรโลแกรม ในแพ็คเกจนี้ คุณสามารถเลือกสิ่งที่จะแสดง (แผนภาพกระจาย แผนภูมิวงกลม ข้อความ วงรี ฯลฯ) ในส่วนด้านบน ด้านล่าง และแนวทแยงของการแสดง ในการสร้างคอร์เรโลแกรมโดยใช้แพ็คเกจ corrgram ดังนี้:
corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
แหล่งที่มา
6. แผนที่ความร้อน
แผนที่ความร้อนคือการแสดงกราฟิกของข้อมูลที่แต่ละค่าที่มีอยู่ในเมทริกซ์ถูกแสดงผ่านสีต่างๆ แผนที่ความร้อนช่วยให้คุณทำการวิเคราะห์ข้อมูลเชิงสำรวจโดยมี 2 มิติเป็นแกน และความเข้มของสีแสดงถึงมิติที่สาม ใน R จะใช้ฟังก์ชันแผนที่ความร้อน () เพื่อสร้างแผนที่ความร้อน ก่อนที่คุณจะสร้างแผนที่ความร้อน คุณต้องแปลงชุดข้อมูลเป็นรูปแบบเมทริกซ์โดยใช้รหัสต่อไปนี้:
> แผนที่ความร้อน (as.matrix(mtcars))
มีสามตัวเลือกในการสร้างแผนที่ความร้อนแบบโต้ตอบใน R:
- โครงเรื่อง – ด้วยโครงเรื่อง คุณสามารถแปลงแผนที่ความร้อนที่สร้างด้วย ggplot2 เป็นแผนที่ความร้อนแบบโต้ตอบได้
- d3heatmap – แพ็คเกจนี้ใช้ไวยากรณ์เดียวกันกับฟังก์ชัน base R heatmap() เพื่อสร้างแผนที่ความร้อนแบบโต้ตอบ
- แผนที่ความร้อน – นี่คือแพ็คเกจ R ที่ปรับแต่งได้มากที่สุด ช่วยให้คุณเลือกตัวเลือกการปรับแต่งได้หลายประเภท
7. หกเหลี่ยม Binning
Hexagon binning เป็นฮิสโตแกรมสองตัวแปรที่เหมาะสมที่สุดสำหรับการแสดงภาพโครงสร้างในชุดข้อมูลที่มี n ขนาดใหญ่ แนวคิดพื้นฐานที่นี่คือ:
- ตารางหกเหลี่ยมปกติจุดระนาบ XY เหนือเซต [range(x), range(y)]
- จำนวนจุดที่ตกลงในแต่ละรูปหกเหลี่ยมจะถูกนับและจัดเก็บไว้ในโครงสร้างข้อมูล
- รูปหกเหลี่ยมที่มีจำนวน > 0 จะถูกพล็อตโดยใช้ทางลาดสีหรือโดยการเปลี่ยนแปลงรัศมีของรูปหกเหลี่ยมตามสัดส่วนกับการนับ
อ่าน: นักวิทยาศาสตร์ข้อมูลประเภทต่างๆ
อัลกอริธึมที่ทำงานที่นี่ทั้งรวดเร็วและมีประสิทธิภาพในการแสดงโครงสร้างของชุดข้อมูลที่มี n ≥ 106 ใน R แพ็คเกจ hexbin ประกอบด้วยฟังก์ชันต่างๆ สำหรับการสร้าง จัดการ และวางแผนถังหกเหลี่ยม แพ็คเกจนี้รวมเอาแนวคิดพื้นฐานในการ Binning หกเหลี่ยมเข้ากับฟังก์ชันอื่นๆ มากมายสำหรับการดำเนินการปรับให้เรียบแบบไบวาริเอต ค้นหาค่ามัธยฐานของไบวาริเอตโดยประมาณ และศึกษาความแตกต่างระหว่างถังขยะสองชุดในระดับเดียวกัน
8. โมเสกพล็อต
ในการเขียนโปรแกรม R พล็อตโมเสกมีประโยชน์ในขณะที่แสดงข้อมูลจากตารางฉุกเฉินหรือตารางความถี่แบบสองทาง เป็นการแสดงกราฟิกของตารางฉุกเฉินแบบสองทางที่แสดงถึงความสัมพันธ์ระหว่างตัวแปรตามหมวดหมู่ตั้งแต่สองตัวขึ้นไป พล็อตโมเสก R สร้างสี่เหลี่ยมผืนผ้าโดยที่ความสูงแทนค่าตามสัดส่วน ไวยากรณ์มาตรฐานในการสร้างพล็อตโมเสกใน R คือ:
โมเสกพล็อต(x, color = NULL, main = “Title”)
โดยพื้นฐานแล้ว พล็อตโมเสกเป็นส่วนขยายหลายมิติของ แผนภาพกระดูกสันหลัง ที่สรุปความน่าจะเป็นแบบมีเงื่อนไขของการเกิดขึ้นร่วมของค่าหมวดหมู่ในรายการเรกคอร์ดที่มีความยาวเท่ากัน ช่วยให้เห็นภาพข้อมูลจากตัวแปรเชิงคุณภาพตั้งแต่สองตัวขึ้นไป
อ่าน: Data Science & Analytics เงินเดือน
ห่อ
เนื่องจากทุกภาคส่วนของอุตสาหกรรมยังคงพึ่งพา Big Data เพื่อส่งเสริมธุรกิจและการตลาดที่ขับเคลื่อนด้วยข้อมูล ความสำคัญของการแสดงข้อมูลก็จะเพิ่มขึ้นพร้อมกัน เนื่องจากเทคนิคการแสดงภาพ เช่น แผนภูมิและกราฟเป็นเครื่องมือที่มีประสิทธิภาพมากกว่าสำหรับการแสดงข้อมูลเป็นภาพมากกว่าสเปรดชีตและรายงานแบบเก่า เครื่องมือ R Data Visualization จึงได้รับความนิยมอย่างต่อเนื่องในแวดวง Data Science และ Big Data
หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองไปที่ PG Diploma in Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติ การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม แบบตัวต่อตัวกับ ที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
ฉันควรเรียนรู้อันไหน - R หรือ Python
Python และ R นั้นถือว่าเรียนรู้ได้ง่ายทีเดียว Python ถูกสร้างขึ้นโดยคำนึงถึงการพัฒนาซอฟต์แวร์ หากคุณมีความเชี่ยวชาญเกี่ยวกับ Java หรือ C++ มาก่อน Python อาจช่วยคุณได้ง่ายกว่า R. R ในทางกลับกัน อาจง่ายกว่าเล็กน้อยหากคุณมีพื้นฐานด้านสถิติ ไวยากรณ์ที่เข้าใจง่ายของ Python ทำให้เรียนรู้ได้ง่ายขึ้น R มีช่วงการเรียนรู้ที่สูงขึ้นในตอนแรก แต่จะง่ายขึ้นมากเมื่อคุณฝึกฝนไปเรื่อยๆ
Tableau เป็นเครื่องมือที่ดีที่สุดสำหรับการสร้างภาพข้อมูลหรือไม่?
Tableau เป็นหนึ่งในเครื่องมือสร้างภาพข้อมูลที่เป็นที่นิยมที่สุดในตลาดด้วยเหตุผลสองประการ: ทั้งใช้งานง่ายและมีประสิทธิภาพมาก โปรแกรมสามารถนำเข้าข้อมูลจากแหล่งต่างๆ ได้หลายร้อยแหล่ง และสร้างรูปแบบการแสดงภาพได้หลายสิบแบบ รวมทั้งแผนภูมิ แผนที่ และอื่นๆ อีกมากมาย
R และ RStudio แตกต่างกันอย่างไร?
R เป็นภาษาโปรแกรมสำหรับการคำนวณทางสถิติ และ RStudio เป็นสภาพแวดล้อมการเขียนโปรแกรมเชิงสถิติที่ใช้ประโยชน์จาก R คุณสามารถสร้างโปรแกรมใน R และรันได้โดยไม่ต้องใช้ซอฟต์แวร์อื่น อย่างไรก็ตาม เพื่อให้ RStudio ทำงานได้อย่างมีประสิทธิภาพ จะต้องใช้ร่วมกับ R.