การจัดการข้อมูลใน R: ตัวแปรคืออะไร การใช้แพ็คเกจ dplyr
เผยแพร่แล้ว: 2020-03-26สารบัญ
บทนำ
นอกเหนือจากพนักงานและโครงสร้างพื้นฐานแล้ว ข้อมูลยังเป็นโครงสร้างใหม่ของบริษัทใดๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงอุตสาหกรรมขนาดเล็ก ข้อมูลเป็นเชื้อเพลิงที่ขับเคลื่อนธุรกิจของพวกเขา ข้อมูลนี้เชื่อมโยงกับธุรกรรมทางธุรกิจรายวัน ข้อมูลการซื้อของลูกค้า ข้อมูลการขาย แผนภูมิทางการเงิน สถิติธุรกิจ แคมเปญการตลาด และอื่นๆ อีกมากมาย นั่นคือเหตุผลที่ Tim O'Reilly ผู้ก่อตั้ง O'Reilly Media กล่าวว่าเรากำลังเข้าสู่สถานการณ์ที่ข้อมูลมีความสำคัญมากกว่าซอฟต์แวร์
แต่จะทำอย่างไรกับข้อมูลจำนวนมาก? บริษัทต่างๆ ใช้ข้อมูลนี้เพื่อให้ได้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับผลการดำเนินธุรกิจของตน พวกเขาจ้างนักวิทยาศาสตร์ข้อมูลที่ดำเนินการ จัดการข้อมูลใน R เพื่อให้เข้าใจถึงข้อมูลนี้ ตัวอย่างเช่น การทำความเข้าใจข้อมูลการขายและการตลาดสำหรับปีที่ผ่านมาจะช่วยให้พวกเขาทราบว่าพวกเขายืนอยู่ที่ใด การศึกษาเมื่อเร็ว ๆ นี้แสดงให้เห็นว่าตลาดการวิเคราะห์ข้อมูลคาดว่าจะมีมูลค่า 77.6 พันล้านดอลลาร์ในปี 2566
นักวิทยาศาสตร์ข้อมูลได้รับการว่าจ้างให้ทำความเข้าใจกับข้อมูลนี้โดยกระบวนการที่เรียกว่าการจัดการข้อมูล
การจัดการข้อมูลคืออะไร?
การจัดการข้อมูล เป็นกระบวนการจัดระเบียบข้อมูลเพื่อให้อ่านและทำความเข้าใจได้ดีขึ้น ตัวอย่างเช่น เจ้าหน้าที่ของบริษัทอาจได้รับข้อมูลลูกค้าจากระบบและสมุดบันทึก โดยส่วนใหญ่ ข้อมูลนี้จะถูกเก็บไว้ในซอฟต์แวร์ CRM (Customer Relationship Management) และแผ่นงาน Excel แต่อาจจะไม่เป็นระเบียบ การจัดการข้อมูลรวมถึงวิธีการจัดระเบียบข้อมูลทั้งหมดนี้ เช่น ตามลำดับตัวอักษร
ข้อมูลสามารถจัดเรียงตามวันที่ เวลา หมายเลขซีเรียล หรือฟิลด์อื่นๆ บุคลากรในแผนกบัญชีของบริษัทใช้ข้อมูลเพื่อกำหนดแนวโน้มการขาย ความชอบของผู้ใช้ สถิติตลาด และราคาผลิตภัณฑ์ นักวิเคราะห์ทางการเงินใช้ข้อมูลเพื่อทำความเข้าใจว่าตลาดหุ้นมีผลการดำเนินงานเป็นอย่างไร แนวโน้ม และหุ้นที่ดีที่สุดที่ควรลงทุน
นอกจากนี้ ข้อมูลเว็บเซิร์ฟเวอร์ยังสามารถใช้เพื่อทำความเข้าใจว่าเว็บไซต์มีการเข้าชมเท่าใด ในยุคเทคโนโลยีนี้ IoT เป็นตัวอย่างของเทคโนโลยีที่ข้อมูลมาจากเซ็นเซอร์ที่ติดอยู่กับเครื่องจักร ข้อมูลนี้ใช้เพื่อกำหนดประสิทธิภาพของเครื่อง และหากมีข้อบกพร่องใดๆ การจัดการข้อมูลเป็นสิ่งสำคัญใน IoT เนื่องจากตลาดจะมีมูลค่า 81.67 พันล้านดอลลาร์ภายในปี 2568
การจัดการข้อมูลเป็นที่นิยมใช้ภาษาการเขียนโปรแกรมที่เรียกว่า R แจ้งให้เราทราบภาษาดีขึ้นเล็กน้อย
อาร์คืออะไร?
เพื่อให้เข้าใจ การจัดการข้อมูลใน R คุณต้องรู้พื้นฐานของ R เป็นภาษาโปรแกรมสมัยใหม่ที่ใช้สำหรับการวิเคราะห์ข้อมูล การคำนวณทางสถิติ และปัญญาประดิษฐ์ ภาษาถูกสร้างขึ้นในปี 1993 โดย Ross Ihaka และ Robert Gentleman ทุกวันนี้ นักวิจัย นักวิเคราะห์ข้อมูล นักวิทยาศาสตร์ และนักสถิติใช้ R เพื่อวิเคราะห์ ล้างข้อมูล และแสดงข้อมูลเป็นภาพ
R มีแค็ตตาล็อกขนาดใหญ่ที่ประกอบด้วยวิธีการแบบกราฟิกและทางสถิติที่สามารถรองรับการเรียนรู้ของเครื่อง การถดถอยเชิงเส้น การอนุมานทางสถิติ และอนุกรมเวลา ภายใต้สัญญาอนุญาตสาธารณะทั่วไปของ GNU ภาษานั้นสามารถใช้ได้ฟรีสำหรับระบบปฏิบัติการ เช่น Windows, Mac และ Linux มันเป็นมิตรกับแพลตฟอร์ม ซึ่งหมายความว่ารหัส R ที่เขียนบนแพลตฟอร์มหนึ่งสามารถดำเนินการได้อย่างง่ายดายในอีกแพลตฟอร์มหนึ่ง
ปัจจุบัน R ถือเป็นภาษาการเขียนโปรแกรมหลักสำหรับวิทยาศาสตร์ข้อมูล แต่เป็นภาษาที่ครอบคลุม เนื่องจากคุณสามารถใช้สำหรับการพัฒนาซอฟต์แวร์ตลอดจนงานที่ซับซ้อน เช่น การสร้างแบบจำลองทางสถิติ คุณสามารถพัฒนาเว็บแอปพลิเคชันโดยใช้แพ็คเกจ RShiny
เป็นภาษาที่ทรงพลังที่บริษัทชั้นนำระดับโลกบางแห่ง เช่น Google และ Facebook ใช้ภาษานี้
ให้เราตรวจสอบคุณสมบัติที่สำคัญที่สุดบางอย่างของ R:
- มี CRAN (Comprehensive R Archive Network) ซึ่งเป็นพื้นที่เก็บข้อมูลที่มีแพ็คเกจ R มากกว่า 10,000 R โดยมีฟังก์ชันที่จำเป็นทั้งหมดสำหรับการทำงานกับข้อมูล
- เป็น ภาษา โปรแกรมโอเพ่นซอร์ส ซึ่งหมายความว่าคุณสามารถดาวน์โหลดได้ฟรีและแม้กระทั่งมีส่วนร่วมในการพัฒนา อัปเดตคุณลักษณะและปรับแต่งฟังก์ชันที่มีอยู่
- คุณสามารถสร้างการแสดงภาพคุณภาพสูงจากข้อมูลที่อยู่ในมือจากไลบรารีกราฟิกที่มีประโยชน์ของ R เช่น ggplot2 และ พล็อต
- R เป็นภาษาที่รวดเร็วมาก เนื่องจากเป็น ภาษาการเขียนโปรแกรมที่ตีความ จึงไม่จำเป็นต้องมีคอมไพเลอร์ในการแปลงโปรแกรม R ให้เป็นโค้ดที่เรียกใช้งานได้ ดังนั้นสคริปต์ R จะทำงานเร็วขึ้น
- R สามารถทำการคำนวณที่ซับซ้อนได้หลากหลายในระยะเวลาอันสั้น ซึ่งประกอบด้วย อาร์เรย์ กรอบข้อมูล และเวก เตอร์ มีโอเปอเรเตอร์มากมายสำหรับการคำนวณเหล่านี้
- มันจัดการข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง มีส่วนขยายสำหรับ Big Data และ SQL สำหรับจัดการข้อมูลทุกประเภท
- R มีชุมชนที่เติบโตอย่างต่อเนื่องและมีจิตใจที่เฉียบแหลม คนเหล่านี้มีส่วนสนับสนุนภาษาโปรแกรมอย่างต่อเนื่องโดยการพัฒนา r ไลบรารีและการอัพเดต
- คุณสามารถรวม R เข้ากับภาษาการเขียนโปรแกรมอื่นๆ เช่น Python, Java และ C++ ได้อย่างง่ายดาย คุณยังสามารถรวมเข้ากับ Hadoop สำหรับการคำนวณแบบกระจาย
เมื่อคุณได้รวบรวมพื้นฐานของภาษาโปรแกรม R แล้ว ให้เราเจาะลึกสิ่งที่น่าตื่นเต้นกัน!
ตัวแปรใน R
ขณะเขียนโปรแกรมใน R หรือดำเนินการ จัดการข้อมูลใน R คุณต้องจัดการกับตัวแปร ตัวแปรใช้สำหรับจัดเก็บข้อมูลที่อาจอยู่ในรูปแบบของสตริง จำนวนเต็ม จำนวนเต็มทศนิยม หรือเพียงแค่ค่าบูลีน ตัวแปรเหล่านี้สงวนพื้นที่ในหน่วยความจำสำหรับเนื้อหา ต่างจากภาษาโปรแกรมทั่วไป ตัวแปรใน R ถูกกำหนดพร้อมกับ วัตถุ R
ตัวแปรไม่มีชนิดข้อมูล แต่รับชนิดของอ็อบเจ็กต์ R ที่ได้รับมอบหมาย วัตถุ R ที่ได้รับความนิยมมากที่สุดคือ:
- เวกเตอร์
- รายการ
- อาร์เรย์
- เมทริกซ์
- ปัจจัย
- กรอบข้อมูล
โครงสร้างข้อมูลเหล่านี้มีความสำคัญอย่างยิ่งต่อการ จัดการข้อมูลใน R และการวิเคราะห์ข้อมูล ให้เราดูรายละเอียดเพิ่มเติมเล็กน้อยเพื่อทำความเข้าใจการจัดการข้อมูลพื้นฐาน:
เวกเตอร์
เป็นโครงสร้างข้อมูลพื้นฐานที่สุดและใช้สำหรับข้อมูล 1 มิติ ประเภทของเวกเตอร์อะตอมคือ:
- จำนวนเต็ม
- ตรรกะ
- ตัวเลข
- ซับซ้อน
- อักขระ
เมื่อคุณสร้างค่าใน R มันจะกลายเป็นเวกเตอร์องค์ประกอบเดียวที่มีความยาว 1 ตัวอย่างเช่น
พิมพ์("ABC"); # เวกเตอร์องค์ประกอบเดียวของตัวอักษรประเภท
print(10.5) # เวกเตอร์องค์ประกอบเดียวของประเภทคู่
องค์ประกอบในเวกเตอร์เข้าถึงได้โดยใช้หมายเลขดัชนี ตำแหน่งดัชนีในเวกเตอร์เริ่มต้นจาก 1 ตัวอย่างเช่น
t <- c(“จันทร์”,”อังคาร”,”พุธ”,”เสาร์”)
คุณ <- t[c(1,2,3)]
พิมพ์ (ยู)
ผลลัพธ์จะเป็น “จันทร์” “อังคาร” “พุธ”
รายการ
สิ่งเหล่านี้คือวัตถุใน R ที่ใช้เก็บองค์ประกอบประเภทต่าง ๆ ไว้ข้างใน ค่าเหล่านี้อาจเป็นจำนวนเต็ม สตริง และรายการก็ได้ หากไม่สามารถเก็บข้อมูลไว้ใน data frame หรือ array ได้ ตัวเลือกนี้เป็นตัวเลือกที่ดีที่สุด รายการยังสามารถเก็บเมทริกซ์ คุณสามารถสร้างรายการโดยใช้เมธอด list()
ใช้รหัสต่อไปนี้เพื่อสร้างรายการ:
list_data <- รายการ ("ดำ", "เขียว", c (11,4,14), TRUE, 31.22, 120.5)
พิมพ์ (list_data)
องค์ประกอบรายการสามารถเข้าถึงได้โดยใช้ดัชนีรายการ
print(list_data[1]) #the รหัสพิมพ์องค์ประกอบแรกของรายการ
ตัวอย่างการจัดการข้อมูลด้วยรายการ:
list_data[4] <- NULL # รหัสนี้จะลบองค์ประกอบสุดท้ายของรายการหากมี 4 องค์ประกอบ
อ่าน: R vs Python สำหรับ Data Science
อาร์เรย์
อาร์เรย์คืออ็อบเจ็กต์ที่ใช้สำหรับจัดเก็บประเภทข้อมูลเดียวเท่านั้น ข้อมูลที่มีขนาดมากกว่าสองมิติสามารถจัดเก็บในอาร์เรย์ได้ สำหรับสิ่งนี้ คุณต้องใช้ฟังก์ชัน array() ที่ใช้เวกเตอร์เป็นอินพุต ใช้ค่าในพารามิเตอร์สลัวเพื่อสร้างอาร์เรย์
ตัวอย่างเช่น ดูโค้ดต่อไปนี้:
vector_result <- array(c(vectorA,vectorB),dim = c(3,3,2))
พิมพ์ (vector_result)
เมทริกซ์
ในอ็อบเจ็กต์ R เหล่านี้ องค์ประกอบต่างๆ จะถูกจัดวางในรูปแบบ 2 มิติ เมทริกซ์มีธาตุประเภทอะตอมที่คล้ายคลึงกัน สิ่งเหล่านี้มีประโยชน์เมื่อองค์ประกอบอยู่ในคลาสเดียว เมทริกซ์ที่มีองค์ประกอบตัวเลขถูกสร้างขึ้นสำหรับการคำนวณทางคณิตศาสตร์ คุณสามารถสร้างเมทริกซ์โดยใช้ฟังก์ชัน matrix()
ไวยากรณ์พื้นฐานในการสร้างเมทริกซ์ได้รับด้านล่าง:
เมทริกซ์ (data, nrow, ncol, byrow, dimnames)
- ข้อมูล – นี่คือเวกเตอร์อินพุตที่กลายเป็นองค์ประกอบข้อมูลสำหรับเมทริกซ์
- Nrow – นี่คือจำนวนแถวที่คุณต้องการสร้าง
- Ncol – นี่คือจำนวนคอลัมน์ที่คุณต้องการสร้าง
- Byrow – นี่คือเงื่อนงำที่เป็นตรรกะ หากค่าเป็น TRUE องค์ประกอบเวกเตอร์จะถูกจัดเรียงตามแถว
- Dimname – ชื่อที่กำหนดให้กับคอลัมน์และแถว
ปัจจัย
ออบเจ็กต์ R เหล่านี้ใช้สำหรับจัดหมวดหมู่ข้อมูลและจัดเก็บเป็นระดับ เหมาะสำหรับการสร้างแบบจำลองทางสถิติและการวิเคราะห์ข้อมูล ทั้งจำนวนเต็มและสตริงสามารถเก็บไว้ในตัวประกอบได้ คุณสามารถใช้ฟังก์ชัน factor() เพื่อสร้างปัจจัยโดยระบุเวกเตอร์เป็นอินพุตของเมธอด

กรอบข้อมูล
มีโครงสร้างสองมิติเหมือนอาร์เรย์ที่มีแถวและคอลัมน์ ที่นี่ แต่ละแถวมีชุดค่าที่เป็นของแต่ละคอลัมน์ คอลัมน์มีค่าของตัวแปรหนึ่งตัว ใช้สำหรับแสดงข้อมูลจากสเปรดชีต สามารถใช้เก็บข้อมูลปัจจัย ตัวเลข หรืออักขระได้
กรอบข้อมูลมีคุณสมบัติดังต่อไปนี้:
- ชื่อแถวต้องไม่ซ้ำกัน
- ชื่อคอลัมน์ต้องไม่เว้นว่าง
- จำนวนรายการข้อมูลในแต่ละคอลัมน์ต้องเท่ากัน
การจัดการข้อมูลใน R
ระหว่าง การจัดการข้อมูลใน R ขั้นตอนแรกคือการสร้างตัวอย่างข้อมูลขนาดเล็กจากชุดข้อมูลขนาดใหญ่ สิ่งนี้ทำได้เนื่องจากไม่สามารถวิเคราะห์ชุดข้อมูลทั้งหมดในคราวเดียว โดยปกติ นักวิเคราะห์ข้อมูลจะสร้างชุดย่อยที่เป็นตัวแทนของชุดข้อมูล ซึ่งจะช่วยให้ระบุแนวโน้มและรูปแบบในชุดข้อมูลขนาดใหญ่ได้ กระบวนการ สุ่มตัวอย่าง นี้เรียกอีกอย่างว่าการ ตั้งค่าย่อย
วิธีต่างๆ ในการสร้างเซตย่อยใน R มีดังนี้:
- $ – เลือกองค์ประกอบเดียวของข้อมูลและผลลัพธ์จะเป็นเวกเตอร์เสมอ
- [[ – โอเปอเรเตอร์การตั้งค่าย่อยนี้ยังส่งคืนองค์ประกอบเดียว แต่คุณสามารถอ้างถึงองค์ประกอบตามตำแหน่ง
- [ – โอเปอเรเตอร์นี้ใช้สำหรับส่งคืนองค์ประกอบหลาย ๆ ของ data
ฟังก์ชันพื้นฐานบางอย่างสำหรับ การจัดการข้อมูลใน R คือ:
ตัวอย่าง() ฟังก์ชั่น
ตามชื่อที่แนะนำ เมธอด sample() ใช้สำหรับสร้างตัวอย่างข้อมูลจากชุดข้อมูลขนาดใหญ่ นอกจากคำสั่งนี้ คุณจะระบุจำนวนตัวอย่างที่คุณต้องการดึงจากชุดข้อมูลหรือเวกเตอร์ ไวยากรณ์พื้นฐานมีดังนี้:
ตัวอย่าง (x, ขนาด, แทนที่ = FALSE, prob = NULL)
x – นี่อาจเป็นเวกเตอร์หรือชุดข้อมูลขององค์ประกอบหลายตัวที่ต้องเลือกตัวอย่าง
ขนาด – เป็นจำนวนเต็มบวกที่ระบุจำนวนรายการที่จะเลือก
แทนที่ – นี่อาจเป็นจริงหรือเท็จ ไม่ว่าคุณจะต้องการสุ่มตัวอย่างโดยมีหรือไม่มีการเปลี่ยน
prob – เป็นอาร์กิวเมนต์ที่ใช้สำหรับการจัดเตรียมเวกเตอร์ของน้ำหนักเพื่อรับองค์ประกอบของเวกเตอร์ที่กำลังสุ่มตัวอย่าง
ฟังก์ชัน Table()
ฟังก์ชันนี้สร้างตารางความถี่ที่ใช้สำหรับคำนวณจำนวนค่าที่ไม่ซ้ำของตัวแปรเฉพาะ ตัวอย่างเช่น ให้เราสร้างตารางความถี่ด้วยชุดข้อมูลไอริส:
ตาราง(ไอริส$สปีชีส์)
โค้ดที่เขียนด้านบนนี้จะสร้างตารางที่แสดงประเภทของสปีชีส์ในชุดข้อมูลไอริส
ซ้ำ ()
วิธีทำซ้ำ () ใช้สำหรับระบุและลบค่าที่ซ้ำกันออกจากชุดข้อมูล ใช้เวกเตอร์หรือ data frame เป็นอาร์กิวเมนต์และคืนค่า True สำหรับองค์ประกอบที่ซ้ำกัน ตัวอย่างเช่น,
ซ้ำซ้อน(c(1,1,3))
วิธีนี้จะตรวจสอบว่าองค์ประกอบใดที่ซ้ำกันและคืนค่าจริงหรือเท็จ
อ่าน เพิ่มเติม : โครงสร้างการตัดสินใจใน R
การจัดการข้อมูลใน R โดยใช้แพ็คเกจ dplyr
R จัดเตรียมแพ็คเกจที่ใช้งานง่ายที่เรียกว่า dplyr สำหรับการจัดการข้อมูล แพ็คเกจนี้มีวิธีการบางอย่างในตัวสำหรับการจัดการ การสำรวจข้อมูล และการแปลงข้อมูล ให้เราตรวจสอบฟังก์ชั่นที่สำคัญที่สุดของแพ็คเกจนี้:
เลือก()
เมธอด select() เป็นหนึ่งในฟังก์ชันพื้นฐานสำหรับ การจัดการ ข้อมูล ใน R วิธีนี้ใช้สำหรับเลือกคอลัมน์ใน R โดยใช้วิธีนี้ คุณสามารถเลือกข้อมูลได้เหมือนกับชื่อคอลัมน์ คอลัมน์สามารถเลือกได้ตามเงื่อนไขบางประการ สมมติว่าเราต้องการเลือกคอลัมน์ที่ 3 และ 4 ของ data frame ที่เรียกว่า myData รหัสจะเป็น:
เลือก (myData,3:4)
กรอง()
วิธีนี้ใช้สำหรับกรองแถวของชุดข้อมูลที่ตรงกับเกณฑ์เฉพาะ มันสามารถทำงานได้เหมือนกับ select() คุณส่ง data frame ก่อนแล้วจึงแยกเงื่อนไขโดยใช้เครื่องหมายจุลภาค
ตัวอย่างเช่น หากคุณต้องการกรองคอลัมน์ที่มีรถยนต์ที่มีสีแดงในชุดข้อมูลออก คุณต้องเขียน:
ฟิลเตอร์(รถ, สี==”แดง”)
เป็นผลให้แถวที่ตรงกันจะปรากฏขึ้น
กลายพันธุ์()
คุณสามารถใช้ เมธอด mutate() เพื่อสร้างคอลัมน์ใหม่ในชุดข้อมูลโดยคงไว้ซึ่งคอลัมน์เก่า คอลัมน์เหล่านี้สามารถสร้างได้โดยการระบุเงื่อนไข ตัวอย่างเช่น,
กลายพันธุ์(mtcars, mtcars_new_col = mpg / cyl)
ในคำสั่งนี้ ในชุดข้อมูล mtcars คอลัมน์ใหม่จะถูกสร้างขึ้น mtcars_new_col ที่มีค่าของคอลัมน์ mpg หารด้วยคอลัมน์ cyl
จัด()
ใช้สำหรับการเรียงลำดับแถวจากน้อยไปมากหรือจากมากไปน้อย โดยใช้ตัวแปรตั้งแต่หนึ่งตัวขึ้นไป แทนที่จะใช้วิธี desc() คุณสามารถเพิ่มเครื่องหมายลบ (-) ก่อนตัวแปรการเรียงลำดับได้ นี่จะระบุลำดับการเรียงลำดับจากมากไปน้อย ตัวอย่างเช่น,
จัดเรียง (my_dataset, -Sepal.Length)
group_by()
เมธอด group_by() ใช้สำหรับจัดกลุ่มการสังเกตในชุดข้อมูลโดยตัวแปรหนึ่งตัวหรือหลายตัว
สรุป()
ฟังก์ชัน summarise() มีประโยชน์สำหรับการกำหนดข้อมูลเชิงลึก เช่น ค่าเฉลี่ย ค่ามัธยฐาน และโหมด มันถูกใช้ร่วมกับข้อมูลที่จัดกลุ่มที่สร้างโดยเมธอดอื่น group_by summarise() ช่วยลดค่าหลายค่าให้เป็นค่าเดียว
ผสาน()
merge() วิธีการรวมหรือรวมชุดข้อมูลเข้าด้วยกัน สิ่งนี้มีประโยชน์สำหรับการรวมแหล่งข้อมูลอินพุตหลายแหล่งเข้าด้วยกัน
วิธีนี้มี 4 วิธีในการผสานชุด ข้อมูล มีการกล่าวถึงด้านล่าง:
- การรวมตามธรรมชาติ – ใช้เพื่อรักษาแถวที่ตรงกับเงื่อนไขที่ระบุภายใน data frames
- การ รวมภายนอกแบบเต็ม – สิ่งนี้จะรวมและจัดเก็บแถวทั้งหมดจากเฟรมข้อมูลทั้งสอง
- การ รวมภายนอกด้านซ้าย – เก็บแถวทั้งหมดของกรอบข้อมูล A และแถวใน B ที่ตรงกัน
- การ รวมภายนอกด้านขวา – เก็บแถวทั้งหมดของกรอบข้อมูล B และแถวที่อยู่ใน A ที่ตรงกัน
เปลี่ยนชื่อ_if()
นี่คือฟังก์ชันที่คุณสามารถใช้เพื่อเปลี่ยนชื่อคอลัมน์ของ data frame เมื่อตรงตามเงื่อนไขที่ระบุ
เปลี่ยนชื่อ_all()
ใช้สำหรับเปลี่ยนชื่อคอลัมน์ทั้งหมดของ data frame โดยไม่ระบุเงื่อนไขใดๆ
รับ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เข้าร่วมโปรแกรม Executive PG, Advanced Certificate Programs หรือ Masters Programs ของเราเพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
ตัวดำเนินการท่อ
ตัวดำเนินการไปป์มีอยู่ในแพ็คเกจ เช่น magrittr และ dplyr เพื่อทำให้โค้ดโดยรวมของคุณง่ายขึ้น ตัวดำเนินการช่วยให้คุณสามารถรวมฟังก์ชันต่างๆ เข้าด้วยกันได้ แสดงโดยสัญลักษณ์ %>% สามารถใช้กับวิธีการยอดนิยมเช่น summarise(), filter(), select() และ group_by() ในขณะที่การจัดการข้อมูลใน R
นอกจาก dplyr แล้ว CRAN ยังมีแพ็คเกจอื่น ๆ อีกมากมายสำหรับ การจัดการ ข้อมูล ใน R อันที่จริง คุณจะพบแพ็คเกจมากกว่า 7000 แพ็คเกจสำหรับลดการเข้ารหัสและข้อผิดพลาดของคุณ แพ็คเกจเหล่านี้จำนวนมากสร้างขึ้นโดยนักพัฒนาผู้เชี่ยวชาญ ดังนั้นคุณจึงอยู่ในมือที่ปลอดภัย ซึ่งรวมถึง:
- ตารางข้อมูล
- หล่อลื่น
- ggplot2
- ผู้อ่าน
- ก่อร่างใหม่2
- เรียบร้อย
บทสรุป
หากคุณเป็นมือใหม่ใน การจัดการข้อมูลใน R คุณอาจเลือกใช้ฟังก์ชันพื้นฐานในตัวที่มีอยู่ใน R ซึ่งรวมถึงวิธีการต่างๆ เช่น with(), within(),ทำซ้ำ(), cut(), table(), ตัวอย่าง () และ sort() แต่ใช้เวลานานและซ้ำซากจำเจ ไม่ใช่ตัวเลือกที่มีประสิทธิภาพมาก
ดังนั้น วิธีที่ดีที่สุดข้างหน้าคือการใช้แพ็คเกจจำนวนมากใน CRAN เช่น dplyr สิ่งเหล่านี้มีประโยชน์อย่างยิ่งและทำให้โปรแกรมของคุณมีประสิทธิภาพมากขึ้น
แพ็คเกจใดมีประโยชน์สำหรับการจัดการข้อมูลใน R?
กระบวนการจัดการข้อมูลใช้เพื่อแก้ไขข้อมูลที่มีอยู่และทำให้อ่านง่ายขึ้นพร้อมกับจัดระเบียบมากขึ้น มักจะมีข้อผิดพลาดและความไม่ถูกต้องมากมายโดยเครื่องที่รวบรวมข้อมูล การจัดการข้อมูลช่วยให้คุณสามารถลบความไม่ถูกต้องเหล่านั้นและให้ข้อมูลที่แม่นยำยิ่งขึ้น
มีหลายวิธีในการดำเนินการจัดการข้อมูลใน R เช่น การใช้ Packages เช่น ggplot2, reader, dplyr เป็นต้น และโดยใช้ฟังก์ชัน Base R เช่น within(), with() เป็นต้น อย่างไรก็ตาม dplyr package ถือว่าดีมาก มีประโยชน์สำหรับการจัดการข้อมูลใน R แพ็คเกจนี้ประกอบด้วยฟังก์ชันต่างๆ ที่สร้างขึ้นมาโดยเฉพาะสำหรับการจัดการข้อมูล และช่วยให้ประมวลผลข้อมูลได้เร็วขึ้นเมื่อเทียบกับวิธีการและแพ็กเกจอื่นๆ
จุดประสงค์ของแพ็คเกจ dplyr ใน R คืออะไร?
แพ็คเกจ dplyr เป็นที่รู้กันว่าดีที่สุดสำหรับการจัดการข้อมูลใน R อย่างมีประสิทธิภาพสูงสุด ก่อนหน้านี้ มีแพ็คเกจนี้เรียกว่า plyr และมีการทำซ้ำเพื่อสร้าง dplyr ตอนนี้ dplyr มุ่งเน้นไปที่เฟรมข้อมูลอย่างสมบูรณ์ นี่คือสาเหตุที่เร็วกว่ามาก มี API ที่ดีขึ้นและสม่ำเสมอ และยังใช้งานง่ายอีกด้วย
แพ็คเกจ dplyr ทำงานเพื่อให้ได้ประโยชน์สูงสุดจากข้อมูลที่มีอยู่พร้อมประสิทธิภาพที่เพิ่มขึ้นเมื่อเทียบกับแพ็คเกจการจัดการข้อมูลอื่นๆ ใน R
คุณจะจัดการข้อมูลได้อย่างไร?
ในการดำเนินการจัดการข้อมูล คุณต้องทำตามขั้นตอนบางอย่างในลำดับทั่วไป ทำตามขั้นตอนด้านล่าง:
1. ประการแรก คุณจะต้องมีฐานข้อมูลที่สร้างจากแหล่งข้อมูล
2. ถัดไป คุณต้องทำความสะอาด จัดเรียงใหม่ และจัดโครงสร้างข้อมูลใหม่ที่มีการจัดการข้อมูล
3. ตอนนี้ คุณต้องพัฒนาฐานข้อมูลที่คุณจะใช้งาน
4. ที่นี่ คุณจะสามารถรวม ลบ และแก้ไขข้อมูลที่มีอยู่ได้
5. สุดท้าย วิเคราะห์ข้อมูลที่มีอยู่และสร้างข้อมูลที่เป็นประโยชน์จากข้อมูลนั้น