การจัดการข้อมูลใน R: ตัวแปรคืออะไร การใช้แพ็คเกจ dplyr

เผยแพร่แล้ว: 2020-03-26

สารบัญ

บทนำ

นอกเหนือจากพนักงานและโครงสร้างพื้นฐานแล้ว ข้อมูลยังเป็นโครงสร้างใหม่ของบริษัทใดๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงอุตสาหกรรมขนาดเล็ก ข้อมูลเป็นเชื้อเพลิงที่ขับเคลื่อนธุรกิจของพวกเขา ข้อมูลนี้เชื่อมโยงกับธุรกรรมทางธุรกิจรายวัน ข้อมูลการซื้อของลูกค้า ข้อมูลการขาย แผนภูมิทางการเงิน สถิติธุรกิจ แคมเปญการตลาด และอื่นๆ อีกมากมาย นั่นคือเหตุผลที่ Tim O'Reilly ผู้ก่อตั้ง O'Reilly Media กล่าวว่าเรากำลังเข้าสู่สถานการณ์ที่ข้อมูลมีความสำคัญมากกว่าซอฟต์แวร์

แต่จะทำอย่างไรกับข้อมูลจำนวนมาก? บริษัทต่างๆ ใช้ข้อมูลนี้เพื่อให้ได้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับผลการดำเนินธุรกิจของตน พวกเขาจ้างนักวิทยาศาสตร์ข้อมูลที่ดำเนินการ จัดการข้อมูลใน R เพื่อให้เข้าใจถึงข้อมูลนี้ ตัวอย่างเช่น การทำความเข้าใจข้อมูลการขายและการตลาดสำหรับปีที่ผ่านมาจะช่วยให้พวกเขาทราบว่าพวกเขายืนอยู่ที่ใด การศึกษาเมื่อเร็ว ๆ นี้แสดงให้เห็นว่าตลาดการวิเคราะห์ข้อมูลคาดว่าจะมีมูลค่า 77.6 พันล้านดอลลาร์ในปี 2566

นักวิทยาศาสตร์ข้อมูลได้รับการว่าจ้างให้ทำความเข้าใจกับข้อมูลนี้โดยกระบวนการที่เรียกว่าการจัดการข้อมูล

การจัดการข้อมูลคืออะไร?

การจัดการข้อมูล เป็นกระบวนการจัดระเบียบข้อมูลเพื่อให้อ่านและทำความเข้าใจได้ดีขึ้น ตัวอย่างเช่น เจ้าหน้าที่ของบริษัทอาจได้รับข้อมูลลูกค้าจากระบบและสมุดบันทึก โดยส่วนใหญ่ ข้อมูลนี้จะถูกเก็บไว้ในซอฟต์แวร์ CRM (Customer Relationship Management) และแผ่นงาน Excel แต่อาจจะไม่เป็นระเบียบ การจัดการข้อมูลรวมถึงวิธีการจัดระเบียบข้อมูลทั้งหมดนี้ เช่น ตามลำดับตัวอักษร

ข้อมูลสามารถจัดเรียงตามวันที่ เวลา หมายเลขซีเรียล หรือฟิลด์อื่นๆ บุคลากรในแผนกบัญชีของบริษัทใช้ข้อมูลเพื่อกำหนดแนวโน้มการขาย ความชอบของผู้ใช้ สถิติตลาด และราคาผลิตภัณฑ์ นักวิเคราะห์ทางการเงินใช้ข้อมูลเพื่อทำความเข้าใจว่าตลาดหุ้นมีผลการดำเนินงานเป็นอย่างไร แนวโน้ม และหุ้นที่ดีที่สุดที่ควรลงทุน

นอกจากนี้ ข้อมูลเว็บเซิร์ฟเวอร์ยังสามารถใช้เพื่อทำความเข้าใจว่าเว็บไซต์มีการเข้าชมเท่าใด ในยุคเทคโนโลยีนี้ IoT เป็นตัวอย่างของเทคโนโลยีที่ข้อมูลมาจากเซ็นเซอร์ที่ติดอยู่กับเครื่องจักร ข้อมูลนี้ใช้เพื่อกำหนดประสิทธิภาพของเครื่อง และหากมีข้อบกพร่องใดๆ การจัดการข้อมูลเป็นสิ่งสำคัญใน IoT เนื่องจากตลาดจะมีมูลค่า 81.67 พันล้านดอลลาร์ภายในปี 2568

การจัดการข้อมูลเป็นที่นิยมใช้ภาษาการเขียนโปรแกรมที่เรียกว่า R แจ้งให้เราทราบภาษาดีขึ้นเล็กน้อย

อาร์คืออะไร?

เพื่อให้เข้าใจ การจัดการข้อมูลใน R คุณต้องรู้พื้นฐานของ R เป็นภาษาโปรแกรมสมัยใหม่ที่ใช้สำหรับการวิเคราะห์ข้อมูล การคำนวณทางสถิติ และปัญญาประดิษฐ์ ภาษาถูกสร้างขึ้นในปี 1993 โดย Ross Ihaka และ Robert Gentleman ทุกวันนี้ นักวิจัย นักวิเคราะห์ข้อมูล นักวิทยาศาสตร์ และนักสถิติใช้ R เพื่อวิเคราะห์ ล้างข้อมูล และแสดงข้อมูลเป็นภาพ

R มีแค็ตตาล็อกขนาดใหญ่ที่ประกอบด้วยวิธีการแบบกราฟิกและทางสถิติที่สามารถรองรับการเรียนรู้ของเครื่อง การถดถอยเชิงเส้น การอนุมานทางสถิติ และอนุกรมเวลา ภายใต้สัญญาอนุญาตสาธารณะทั่วไปของ GNU ภาษานั้นสามารถใช้ได้ฟรีสำหรับระบบปฏิบัติการ เช่น Windows, Mac และ Linux มันเป็นมิตรกับแพลตฟอร์ม ซึ่งหมายความว่ารหัส R ที่เขียนบนแพลตฟอร์มหนึ่งสามารถดำเนินการได้อย่างง่ายดายในอีกแพลตฟอร์มหนึ่ง

ปัจจุบัน R ถือเป็นภาษาการเขียนโปรแกรมหลักสำหรับวิทยาศาสตร์ข้อมูล แต่เป็นภาษาที่ครอบคลุม เนื่องจากคุณสามารถใช้สำหรับการพัฒนาซอฟต์แวร์ตลอดจนงานที่ซับซ้อน เช่น การสร้างแบบจำลองทางสถิติ คุณสามารถพัฒนาเว็บแอปพลิเคชันโดยใช้แพ็คเกจ RShiny

เป็นภาษาที่ทรงพลังที่บริษัทชั้นนำระดับโลกบางแห่ง เช่น Google และ Facebook ใช้ภาษานี้

ให้เราตรวจสอบคุณสมบัติที่สำคัญที่สุดบางอย่างของ R:

  • มี CRAN (Comprehensive R Archive Network) ซึ่งเป็นพื้นที่เก็บข้อมูลที่มีแพ็คเกจ R มากกว่า 10,000 R โดยมีฟังก์ชันที่จำเป็นทั้งหมดสำหรับการทำงานกับข้อมูล
  • เป็น ภาษา โปรแกรมโอเพ่นซอร์ส ซึ่งหมายความว่าคุณสามารถดาวน์โหลดได้ฟรีและแม้กระทั่งมีส่วนร่วมในการพัฒนา อัปเดตคุณลักษณะและปรับแต่งฟังก์ชันที่มีอยู่
  • คุณสามารถสร้างการแสดงภาพคุณภาพสูงจากข้อมูลที่อยู่ในมือจากไลบรารีกราฟิกที่มีประโยชน์ของ R เช่น ggplot2 และ พล็อต
  • R เป็นภาษาที่รวดเร็วมาก เนื่องจากเป็น ภาษาการเขียนโปรแกรมที่ตีความ จึงไม่จำเป็นต้องมีคอมไพเลอร์ในการแปลงโปรแกรม R ให้เป็นโค้ดที่เรียกใช้งานได้ ดังนั้นสคริปต์ R จะทำงานเร็วขึ้น
  • R สามารถทำการคำนวณที่ซับซ้อนได้หลากหลายในระยะเวลาอันสั้น ซึ่งประกอบด้วย อาร์เรย์ กรอบข้อมูล และเวก เตอร์ มีโอเปอเรเตอร์มากมายสำหรับการคำนวณเหล่านี้
  • มันจัดการข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง มีส่วนขยายสำหรับ Big Data และ SQL สำหรับจัดการข้อมูลทุกประเภท
  • R มีชุมชนที่เติบโตอย่างต่อเนื่องและมีจิตใจที่เฉียบแหลม คนเหล่านี้มีส่วนสนับสนุนภาษาโปรแกรมอย่างต่อเนื่องโดยการพัฒนา r ไลบรารีและการอัพเดต
  • คุณสามารถรวม R เข้ากับภาษาการเขียนโปรแกรมอื่นๆ เช่น Python, Java และ C++ ได้อย่างง่ายดาย คุณยังสามารถรวมเข้ากับ Hadoop สำหรับการคำนวณแบบกระจาย

เมื่อคุณได้รวบรวมพื้นฐานของภาษาโปรแกรม R แล้ว ให้เราเจาะลึกสิ่งที่น่าตื่นเต้นกัน!

ตัวแปรใน R

ขณะเขียนโปรแกรมใน R หรือดำเนินการ จัดการข้อมูลใน R คุณต้องจัดการกับตัวแปร ตัวแปรใช้สำหรับจัดเก็บข้อมูลที่อาจอยู่ในรูปแบบของสตริง จำนวนเต็ม จำนวนเต็มทศนิยม หรือเพียงแค่ค่าบูลีน ตัวแปรเหล่านี้สงวนพื้นที่ในหน่วยความจำสำหรับเนื้อหา ต่างจากภาษาโปรแกรมทั่วไป ตัวแปรใน R ถูกกำหนดพร้อมกับ วัตถุ R

ตัวแปรไม่มีชนิดข้อมูล แต่รับชนิดของอ็อบเจ็กต์ R ที่ได้รับมอบหมาย วัตถุ R ที่ได้รับความนิยมมากที่สุดคือ:

  • เวกเตอร์
  • รายการ
  • อาร์เรย์
  • เมทริกซ์
  • ปัจจัย
  • กรอบข้อมูล

โครงสร้างข้อมูลเหล่านี้มีความสำคัญอย่างยิ่งต่อการ จัดการข้อมูลใน R และการวิเคราะห์ข้อมูล ให้เราดูรายละเอียดเพิ่มเติมเล็กน้อยเพื่อทำความเข้าใจการจัดการข้อมูลพื้นฐาน:

เวกเตอร์

เป็นโครงสร้างข้อมูลพื้นฐานที่สุดและใช้สำหรับข้อมูล 1 มิติ ประเภทของเวกเตอร์อะตอมคือ:

  • จำนวนเต็ม
  • ตรรกะ
  • ตัวเลข
  • ซับซ้อน
  • อักขระ

เมื่อคุณสร้างค่าใน R มันจะกลายเป็นเวกเตอร์องค์ประกอบเดียวที่มีความยาว 1 ตัวอย่างเช่น

พิมพ์("ABC"); # เวกเตอร์องค์ประกอบเดียวของตัวอักษรประเภท

print(10.5) # เวกเตอร์องค์ประกอบเดียวของประเภทคู่

องค์ประกอบในเวกเตอร์เข้าถึงได้โดยใช้หมายเลขดัชนี ตำแหน่งดัชนีในเวกเตอร์เริ่มต้นจาก 1 ตัวอย่างเช่น

t <- c(“จันทร์”,”อังคาร”,”พุธ”,”เสาร์”)

คุณ <- t[c(1,2,3)]

พิมพ์ (ยู)

ผลลัพธ์จะเป็น “จันทร์” “อังคาร” “พุธ”

รายการ

สิ่งเหล่านี้คือวัตถุใน R ที่ใช้เก็บองค์ประกอบประเภทต่าง ๆ ไว้ข้างใน ค่าเหล่านี้อาจเป็นจำนวนเต็ม สตริง และรายการก็ได้ หากไม่สามารถเก็บข้อมูลไว้ใน data frame หรือ array ได้ ตัวเลือกนี้เป็นตัวเลือกที่ดีที่สุด รายการยังสามารถเก็บเมทริกซ์ คุณสามารถสร้างรายการโดยใช้เมธอด list()

ใช้รหัสต่อไปนี้เพื่อสร้างรายการ:

list_data <- รายการ ("ดำ", "เขียว", c (11,4,14), TRUE, 31.22, 120.5)

พิมพ์ (list_data)

องค์ประกอบรายการสามารถเข้าถึงได้โดยใช้ดัชนีรายการ

print(list_data[1]) #the รหัสพิมพ์องค์ประกอบแรกของรายการ

ตัวอย่างการจัดการข้อมูลด้วยรายการ:

list_data[4] <- NULL # รหัสนี้จะลบองค์ประกอบสุดท้ายของรายการหากมี 4 องค์ประกอบ

อ่าน: R vs Python สำหรับ Data Science

อาร์เรย์

อาร์เรย์คืออ็อบเจ็กต์ที่ใช้สำหรับจัดเก็บประเภทข้อมูลเดียวเท่านั้น ข้อมูลที่มีขนาดมากกว่าสองมิติสามารถจัดเก็บในอาร์เรย์ได้ สำหรับสิ่งนี้ คุณต้องใช้ฟังก์ชัน array() ที่ใช้เวกเตอร์เป็นอินพุต ใช้ค่าในพารามิเตอร์สลัวเพื่อสร้างอาร์เรย์

ตัวอย่างเช่น ดูโค้ดต่อไปนี้:

vector_result <- array(c(vectorA,vectorB),dim = c(3,3,2))

พิมพ์ (vector_result)

เมทริกซ์

ในอ็อบเจ็กต์ R เหล่านี้ องค์ประกอบต่างๆ จะถูกจัดวางในรูปแบบ 2 มิติ เมทริกซ์มีธาตุประเภทอะตอมที่คล้ายคลึงกัน สิ่งเหล่านี้มีประโยชน์เมื่อองค์ประกอบอยู่ในคลาสเดียว เมทริกซ์ที่มีองค์ประกอบตัวเลขถูกสร้างขึ้นสำหรับการคำนวณทางคณิตศาสตร์ คุณสามารถสร้างเมทริกซ์โดยใช้ฟังก์ชัน matrix()

ไวยากรณ์พื้นฐานในการสร้างเมทริกซ์ได้รับด้านล่าง:

เมทริกซ์ (data, nrow, ncol, byrow, dimnames)

  • ข้อมูล – นี่คือเวกเตอร์อินพุตที่กลายเป็นองค์ประกอบข้อมูลสำหรับเมทริกซ์
  • Nrow – นี่คือจำนวนแถวที่คุณต้องการสร้าง
  • Ncol – นี่คือจำนวนคอลัมน์ที่คุณต้องการสร้าง
  • Byrow – นี่คือเงื่อนงำที่เป็นตรรกะ หากค่าเป็น TRUE องค์ประกอบเวกเตอร์จะถูกจัดเรียงตามแถว
  • Dimname – ชื่อที่กำหนดให้กับคอลัมน์และแถว

ปัจจัย

ออบเจ็กต์ R เหล่านี้ใช้สำหรับจัดหมวดหมู่ข้อมูลและจัดเก็บเป็นระดับ เหมาะสำหรับการสร้างแบบจำลองทางสถิติและการวิเคราะห์ข้อมูล ทั้งจำนวนเต็มและสตริงสามารถเก็บไว้ในตัวประกอบได้ คุณสามารถใช้ฟังก์ชัน factor() เพื่อสร้างปัจจัยโดยระบุเวกเตอร์เป็นอินพุตของเมธอด

กรอบข้อมูล

มีโครงสร้างสองมิติเหมือนอาร์เรย์ที่มีแถวและคอลัมน์ ที่นี่ แต่ละแถวมีชุดค่าที่เป็นของแต่ละคอลัมน์ คอลัมน์มีค่าของตัวแปรหนึ่งตัว ใช้สำหรับแสดงข้อมูลจากสเปรดชีต สามารถใช้เก็บข้อมูลปัจจัย ตัวเลข หรืออักขระได้

กรอบข้อมูลมีคุณสมบัติดังต่อไปนี้:

  • ชื่อแถวต้องไม่ซ้ำกัน
  • ชื่อคอลัมน์ต้องไม่เว้นว่าง
  • จำนวนรายการข้อมูลในแต่ละคอลัมน์ต้องเท่ากัน

การจัดการข้อมูลใน R

ระหว่าง การจัดการข้อมูลใน R ขั้นตอนแรกคือการสร้างตัวอย่างข้อมูลขนาดเล็กจากชุดข้อมูลขนาดใหญ่ สิ่งนี้ทำได้เนื่องจากไม่สามารถวิเคราะห์ชุดข้อมูลทั้งหมดในคราวเดียว โดยปกติ นักวิเคราะห์ข้อมูลจะสร้างชุดย่อยที่เป็นตัวแทนของชุดข้อมูล ซึ่งจะช่วยให้ระบุแนวโน้มและรูปแบบในชุดข้อมูลขนาดใหญ่ได้ กระบวนการ สุ่มตัวอย่าง นี้เรียกอีกอย่างว่าการ ตั้งค่าย่อย

วิธีต่างๆ ในการสร้างเซตย่อยใน R มีดังนี้:

  • $ – เลือกองค์ประกอบเดียวของข้อมูลและผลลัพธ์จะเป็นเวกเตอร์เสมอ
  • [[ – โอเปอเรเตอร์การตั้งค่าย่อยนี้ยังส่งคืนองค์ประกอบเดียว แต่คุณสามารถอ้างถึงองค์ประกอบตามตำแหน่ง

  • [ – โอเปอเรเตอร์นี้ใช้สำหรับส่งคืนองค์ประกอบหลาย ๆ ของ data

ฟังก์ชันพื้นฐานบางอย่างสำหรับ การจัดการข้อมูลใน R คือ:

ตัวอย่าง() ฟังก์ชั่น

ตามชื่อที่แนะนำ เมธอด sample() ใช้สำหรับสร้างตัวอย่างข้อมูลจากชุดข้อมูลขนาดใหญ่ นอกจากคำสั่งนี้ คุณจะระบุจำนวนตัวอย่างที่คุณต้องการดึงจากชุดข้อมูลหรือเวกเตอร์ ไวยากรณ์พื้นฐานมีดังนี้:

ตัวอย่าง (x, ขนาด, แทนที่ = FALSE, prob = NULL)

x – นี่อาจเป็นเวกเตอร์หรือชุดข้อมูลขององค์ประกอบหลายตัวที่ต้องเลือกตัวอย่าง

ขนาด – เป็นจำนวนเต็มบวกที่ระบุจำนวนรายการที่จะเลือก

แทนที่ – นี่อาจเป็นจริงหรือเท็จ ไม่ว่าคุณจะต้องการสุ่มตัวอย่างโดยมีหรือไม่มีการเปลี่ยน

prob – เป็นอาร์กิวเมนต์ที่ใช้สำหรับการจัดเตรียมเวกเตอร์ของน้ำหนักเพื่อรับองค์ประกอบของเวกเตอร์ที่กำลังสุ่มตัวอย่าง

ฟังก์ชัน Table()

ฟังก์ชันนี้สร้างตารางความถี่ที่ใช้สำหรับคำนวณจำนวนค่าที่ไม่ซ้ำของตัวแปรเฉพาะ ตัวอย่างเช่น ให้เราสร้างตารางความถี่ด้วยชุดข้อมูลไอริส:

ตาราง(ไอริส$สปีชีส์)

โค้ดที่เขียนด้านบนนี้จะสร้างตารางที่แสดงประเภทของสปีชีส์ในชุดข้อมูลไอริส

ซ้ำ ()

วิธีทำซ้ำ () ใช้สำหรับระบุและลบค่าที่ซ้ำกันออกจากชุดข้อมูล ใช้เวกเตอร์หรือ data frame เป็นอาร์กิวเมนต์และคืนค่า True สำหรับองค์ประกอบที่ซ้ำกัน ตัวอย่างเช่น,

ซ้ำซ้อน(c(1,1,3))

วิธีนี้จะตรวจสอบว่าองค์ประกอบใดที่ซ้ำกันและคืนค่าจริงหรือเท็จ

อ่าน เพิ่มเติม : โครงสร้างการตัดสินใจใน R

การจัดการข้อมูลใน R โดยใช้แพ็คเกจ dplyr

R จัดเตรียมแพ็คเกจที่ใช้งานง่ายที่เรียกว่า dplyr สำหรับการจัดการข้อมูล แพ็คเกจนี้มีวิธีการบางอย่างในตัวสำหรับการจัดการ การสำรวจข้อมูล และการแปลงข้อมูล ให้เราตรวจสอบฟังก์ชั่นที่สำคัญที่สุดของแพ็คเกจนี้:

เลือก()

เมธอด select() เป็นหนึ่งในฟังก์ชันพื้นฐานสำหรับ การจัดการ ข้อมูล ใน R วิธีนี้ใช้สำหรับเลือกคอลัมน์ใน R โดยใช้วิธีนี้ คุณสามารถเลือกข้อมูลได้เหมือนกับชื่อคอลัมน์ คอลัมน์สามารถเลือกได้ตามเงื่อนไขบางประการ สมมติว่าเราต้องการเลือกคอลัมน์ที่ 3 และ 4 ของ data frame ที่เรียกว่า myData รหัสจะเป็น:

เลือก (myData,3:4)

กรอง()

วิธีนี้ใช้สำหรับกรองแถวของชุดข้อมูลที่ตรงกับเกณฑ์เฉพาะ มันสามารถทำงานได้เหมือนกับ select() คุณส่ง data frame ก่อนแล้วจึงแยกเงื่อนไขโดยใช้เครื่องหมายจุลภาค

ตัวอย่างเช่น หากคุณต้องการกรองคอลัมน์ที่มีรถยนต์ที่มีสีแดงในชุดข้อมูลออก คุณต้องเขียน:

ฟิลเตอร์(รถ, สี==”แดง”)

เป็นผลให้แถวที่ตรงกันจะปรากฏขึ้น

กลายพันธุ์()

คุณสามารถใช้ เมธอด mutate() เพื่อสร้างคอลัมน์ใหม่ในชุดข้อมูลโดยคงไว้ซึ่งคอลัมน์เก่า คอลัมน์เหล่านี้สามารถสร้างได้โดยการระบุเงื่อนไข ตัวอย่างเช่น,

กลายพันธุ์(mtcars, mtcars_new_col = mpg / cyl)

ในคำสั่งนี้ ในชุดข้อมูล mtcars คอลัมน์ใหม่จะถูกสร้างขึ้น mtcars_new_col ที่มีค่าของคอลัมน์ mpg หารด้วยคอลัมน์ cyl

จัด()

ใช้สำหรับการเรียงลำดับแถวจากน้อยไปมากหรือจากมากไปน้อย โดยใช้ตัวแปรตั้งแต่หนึ่งตัวขึ้นไป แทนที่จะใช้วิธี desc() คุณสามารถเพิ่มเครื่องหมายลบ (-) ก่อนตัวแปรการเรียงลำดับได้ นี่จะระบุลำดับการเรียงลำดับจากมากไปน้อย ตัวอย่างเช่น,

จัดเรียง (my_dataset, -Sepal.Length)

group_by()

เมธอด group_by() ใช้สำหรับจัดกลุ่มการสังเกตในชุดข้อมูลโดยตัวแปรหนึ่งตัวหรือหลายตัว

สรุป()

ฟังก์ชัน summarise() มีประโยชน์สำหรับการกำหนดข้อมูลเชิงลึก เช่น ค่าเฉลี่ย ค่ามัธยฐาน และโหมด มันถูกใช้ร่วมกับข้อมูลที่จัดกลุ่มที่สร้างโดยเมธอดอื่น group_by summarise() ช่วยลดค่าหลายค่าให้เป็นค่าเดียว

ผสาน()

merge() วิธีการรวมหรือรวมชุดข้อมูลเข้าด้วยกัน สิ่งนี้มีประโยชน์สำหรับการรวมแหล่งข้อมูลอินพุตหลายแหล่งเข้าด้วยกัน

วิธีนี้มี 4 วิธีในการผสานชุด ข้อมูล มีการกล่าวถึงด้านล่าง:

  • การรวมตามธรรมชาติ ใช้เพื่อรักษาแถวที่ตรงกับเงื่อนไขที่ระบุภายใน data frames
  • การ รวมภายนอกแบบเต็ม – สิ่งนี้จะรวมและจัดเก็บแถวทั้งหมดจากเฟรมข้อมูลทั้งสอง
  • การ รวมภายนอกด้านซ้าย – เก็บแถวทั้งหมดของกรอบข้อมูล A และแถวใน B ที่ตรงกัน
  • การ รวมภายนอกด้านขวา – เก็บแถวทั้งหมดของกรอบข้อมูล B และแถวที่อยู่ใน A ที่ตรงกัน

เปลี่ยนชื่อ_if()

นี่คือฟังก์ชันที่คุณสามารถใช้เพื่อเปลี่ยนชื่อคอลัมน์ของ data frame เมื่อตรงตามเงื่อนไขที่ระบุ

เปลี่ยนชื่อ_all()

ใช้สำหรับเปลี่ยนชื่อคอลัมน์ทั้งหมดของ data frame โดยไม่ระบุเงื่อนไขใดๆ

รับ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เข้าร่วมโปรแกรม Executive PG, Advanced Certificate Programs หรือ Masters Programs ของเราเพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ตัวดำเนินการท่อ

ตัวดำเนินการไปป์มีอยู่ในแพ็คเกจ เช่น magrittr และ dplyr เพื่อทำให้โค้ดโดยรวมของคุณง่ายขึ้น ตัวดำเนินการช่วยให้คุณสามารถรวมฟังก์ชันต่างๆ เข้าด้วยกันได้ แสดงโดยสัญลักษณ์ %>% สามารถใช้กับวิธีการยอดนิยมเช่น summarise(), filter(), select() และ group_by() ในขณะที่การจัดการข้อมูลใน R

นอกจาก dplyr แล้ว CRAN ยังมีแพ็คเกจอื่น ๆ อีกมากมายสำหรับ การจัดการ ข้อมูล ใน R อันที่จริง คุณจะพบแพ็คเกจมากกว่า 7000 แพ็คเกจสำหรับลดการเข้ารหัสและข้อผิดพลาดของคุณ แพ็คเกจเหล่านี้จำนวนมากสร้างขึ้นโดยนักพัฒนาผู้เชี่ยวชาญ ดังนั้นคุณจึงอยู่ในมือที่ปลอดภัย ซึ่งรวมถึง:

  • ตารางข้อมูล
  • หล่อลื่น
  • ggplot2
  • ผู้อ่าน
  • ก่อร่างใหม่2
  • เรียบร้อย

บทสรุป

หากคุณเป็นมือใหม่ใน การจัดการข้อมูลใน R คุณอาจเลือกใช้ฟังก์ชันพื้นฐานในตัวที่มีอยู่ใน R ซึ่งรวมถึงวิธีการต่างๆ เช่น with(), within(),ทำซ้ำ(), cut(), table(), ตัวอย่าง () และ sort() แต่ใช้เวลานานและซ้ำซากจำเจ ไม่ใช่ตัวเลือกที่มีประสิทธิภาพมาก

ดังนั้น วิธีที่ดีที่สุดข้างหน้าคือการใช้แพ็คเกจจำนวนมากใน CRAN เช่น dplyr สิ่งเหล่านี้มีประโยชน์อย่างยิ่งและทำให้โปรแกรมของคุณมีประสิทธิภาพมากขึ้น

แพ็คเกจใดมีประโยชน์สำหรับการจัดการข้อมูลใน R?

กระบวนการจัดการข้อมูลใช้เพื่อแก้ไขข้อมูลที่มีอยู่และทำให้อ่านง่ายขึ้นพร้อมกับจัดระเบียบมากขึ้น มักจะมีข้อผิดพลาดและความไม่ถูกต้องมากมายโดยเครื่องที่รวบรวมข้อมูล การจัดการข้อมูลช่วยให้คุณสามารถลบความไม่ถูกต้องเหล่านั้นและให้ข้อมูลที่แม่นยำยิ่งขึ้น

มีหลายวิธีในการดำเนินการจัดการข้อมูลใน R เช่น การใช้ Packages เช่น ggplot2, reader, dplyr เป็นต้น และโดยใช้ฟังก์ชัน Base R เช่น within(), with() เป็นต้น อย่างไรก็ตาม dplyr package ถือว่าดีมาก มีประโยชน์สำหรับการจัดการข้อมูลใน R แพ็คเกจนี้ประกอบด้วยฟังก์ชันต่างๆ ที่สร้างขึ้นมาโดยเฉพาะสำหรับการจัดการข้อมูล และช่วยให้ประมวลผลข้อมูลได้เร็วขึ้นเมื่อเทียบกับวิธีการและแพ็กเกจอื่นๆ

จุดประสงค์ของแพ็คเกจ dplyr ใน R คืออะไร?

แพ็คเกจ dplyr เป็นที่รู้กันว่าดีที่สุดสำหรับการจัดการข้อมูลใน R อย่างมีประสิทธิภาพสูงสุด ก่อนหน้านี้ มีแพ็คเกจนี้เรียกว่า plyr และมีการทำซ้ำเพื่อสร้าง dplyr ตอนนี้ dplyr มุ่งเน้นไปที่เฟรมข้อมูลอย่างสมบูรณ์ นี่คือสาเหตุที่เร็วกว่ามาก มี API ที่ดีขึ้นและสม่ำเสมอ และยังใช้งานง่ายอีกด้วย

แพ็คเกจ dplyr ทำงานเพื่อให้ได้ประโยชน์สูงสุดจากข้อมูลที่มีอยู่พร้อมประสิทธิภาพที่เพิ่มขึ้นเมื่อเทียบกับแพ็คเกจการจัดการข้อมูลอื่นๆ ใน R

คุณจะจัดการข้อมูลได้อย่างไร?

ในการดำเนินการจัดการข้อมูล คุณต้องทำตามขั้นตอนบางอย่างในลำดับทั่วไป ทำตามขั้นตอนด้านล่าง:

1. ประการแรก คุณจะต้องมีฐานข้อมูลที่สร้างจากแหล่งข้อมูล
2. ถัดไป คุณต้องทำความสะอาด จัดเรียงใหม่ และจัดโครงสร้างข้อมูลใหม่ที่มีการจัดการข้อมูล
3. ตอนนี้ คุณต้องพัฒนาฐานข้อมูลที่คุณจะใช้งาน
4. ที่นี่ คุณจะสามารถรวม ลบ และแก้ไขข้อมูลที่มีอยู่ได้
5. สุดท้าย วิเคราะห์ข้อมูลที่มีอยู่และสร้างข้อมูลที่เป็นประโยชน์จากข้อมูลนั้น