7 สุดยอดโครงการแมชชีนเลิร์นนิงบน Github ที่คุณควรลงมือทำ

เผยแพร่แล้ว: 2020-04-28

ในช่วงไม่กี่ปีที่ผ่านมาเราได้เห็นนวัตกรรมทางเทคโนโลยียอดนิยมมากมายที่ทำให้ชีวิตของเราง่ายขึ้นกว่าที่เคยเป็นมา แมชชีนเลิร์นนิงเป็นหนึ่งในนวัตกรรมที่ครองโลกโดยพายุ การใช้งานของมันไปไกลกว่าสิ่งที่เราเห็นในปัจจุบัน

หากใช้แมชชีนเลิร์นนิงอย่างเหมาะสม อาจมีศักยภาพในการเปลี่ยนแปลงมากกว่าสองสามด้านหรือด้านต่างๆ ในชีวิตประจำวันของเรา แล้วเทคโนโลยีแมชชีนเลิร์นนิงทำทั้งหมดนี้ได้อย่างไร ด้วยความช่วยเหลือของอัลกอริธึมที่จำลองระบบโดยไม่ต้องตั้งโปรแกรมอย่างชัดเจน เหมาะอย่างยิ่งสำหรับการวิเคราะห์ข้อมูลรวมถึงกระบวนการอัตโนมัติสำหรับการสร้างแบบจำลองการวิเคราะห์

ML เกี่ยวข้องกับ GitHub อย่างไร แมชชีนเลิร์นนิงเกี่ยวข้องกับการคาดการณ์ตามข้อมูลและการศึกษาอัลกอริธึม และตอนนี้ก็พบความเป็นไปได้ใหม่ๆ กับ GitHub ในบล็อกนี้ เราจะแสดงรายการโปรเจ็กต์แมชชีนเลิร์นนิงยอดนิยมบน GitHub สิ่งเหล่านี้จะเป็นเพียงส่วนน้อยจากกว่า 100 ล้านโปรเจ็กต์ที่โฮสต์บน GitHub

สารบัญ

การเรียนรู้ของเครื่องคืออะไร?

แมชชีนเลิร์นนิงปฏิบัติตามกระบวนการที่กำหนดไว้อย่างดีซึ่งรวมถึงการเตรียมข้อมูล การฝึกอัลกอริทึม การสร้างแบบจำลองแมชชีนเลิร์นนิง และสุดท้าย การทำและปรับปรุงการคาดคะเน แมชชีนเลิร์นนิงอิงจากแนวคิดทั่วไปที่ว่าอัลกอริธึมพื้นฐานบางอย่างมีพลังในการค้นหาสิ่งที่น่าสนใจมากภายในชุดข้อมูล และส่วนที่ดีที่สุดคือ คุณไม่จำเป็นต้องเขียนโค้ดใดๆ เพื่อทำสิ่งนี้ คุณจะต้องจัดเตรียมข้อมูลให้กับอัลกอริทึมแทน ซึ่งจะยึดตามตรรกะของมัน

การเรียนรู้ของเครื่องมีหลายประเภท ให้เรายกตัวอย่างเพื่อทำความเข้าใจสิ่งนี้ให้ดีขึ้น เรามีประเภทของอัลกอริทึมที่เรียกว่าอัลกอริธึมการจำแนกประเภท มันแบ่งข้อมูลออกเป็นกลุ่มต่างๆ อัลกอริทึมนี้สามารถใช้เพื่อแยกสแปมออกจากอีเมลของคุณและระบุตัวเลขที่เขียนด้วยลายมือโดยไม่ต้องเปลี่ยนรหัสแม้แต่น้อย อัลกอริธึมยังคงเหมือนเดิม แต่ความแตกต่างในตรรกะการจัดหมวดหมู่มาจากข้อมูลการฝึกที่แตกต่างกันที่ได้รับ

เรียน รู้หลักสูตรการเรียนรู้ของเครื่อง จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

GitHub คืออะไร?

GitHub เป็นแอปพลิเคชันโอเพนซอร์ซที่ใช้เก็บรหัสบนเว็บ สามารถใช้ได้หลายวิธี คุณสามารถใช้เพื่อจัดเก็บโครงการของคุณบนคลาวด์ได้ฟรี หรือใช้เป็นพอร์ตโฟลิโอออนไลน์ของคุณ ให้ผู้มีโอกาสเป็นนายจ้างเห็นว่าคุณเขียนโค้ดเก่งแค่ไหน ยังคงไม่ผิดที่จะบอกว่า GitHub เป็นมากกว่าสิ่งที่เห็น

ไม่ใช่แค่การจัดเก็บรหัสของคุณเท่านั้น ค่อนข้างเป็นเครื่องมือที่นักพัฒนาทั่วโลกใช้เพื่อทำงานร่วมกันในโครงการต่างๆ ช่วยให้นักพัฒนาและทีมปรับปรุงโค้ดของพวกเขาโดยการรวมกลุ่มของนักพัฒนาอื่นๆ ที่อยู่ในสถานที่ต่างๆ เพื่อร่วมบริจาคอันมีค่าของพวกเขา

GitHub นั้นใช้ Git ซึ่งเป็นซอฟต์แวร์ควบคุมเวอร์ชันที่สามารถดาวน์โหลดได้อย่างง่ายดายบนเครื่องในพื้นที่ของคุณเพื่อใช้งานต่อไป Git และ GitHub แตกต่างกัน อย่างไรก็ตาม เราจะไม่พูดถึงความแตกต่างเหล่านั้นในบล็อกนี้ เรามุ่งเน้นที่การช่วยให้คุณเข้าใจว่าแมชชีนเลิร์นนิงและ GitHub เกี่ยวข้องกันอย่างไร จากนั้นจึงระบุโปรเจ็กต์แมชชีนเลิร์นนิงสองสามโปรเจ็กต์ที่โฮสต์บน GitHub เรียนรู้เพิ่มเติมเกี่ยวกับแนวคิดโครงงานแมชชีนเลิร์นนิงที่น่าสนใจสำหรับผู้เริ่มต้น

GitHub มาพร้อมกับคุณสมบัติพิเศษมากมายที่มีส่วนช่วยอย่างมากในการทำให้มันเป็นที่นิยม นอกจากจะเป็นที่เก็บข้อมูลที่เรียบง่ายแล้ว ยังเป็นศูนย์กลางการเข้ารหัสที่มีการเชื่อมต่อเครือข่ายโซเชียลที่สำคัญมาก ช่วยให้นักพัฒนาแต่ละรายสามารถแพร่กระจายไปตามความยาวและความกว้างของโลกนี้เพื่อมีส่วนร่วมในโครงการและทีมต่างๆ เมื่อคุณคุ้นเคยกับวิธีการทำงานแล้ว คุณจะรู้ทุกสิ่งที่คุณสามารถทำได้ สับสนเกี่ยวกับความแตกต่างระหว่าง Git และ Github หรือไม่? เราได้ระบุความแตกต่างระหว่าง Git และ Github ในบทความนี้

7 สุดยอดโปรเจ็กต์แมชชีนเลิร์นนิงบน GitHub

1. ตัวจําแนกประสาท (NLP)

หนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดที่คุณอาจพบในชีวิตประจำวันคือการใช้ข้อมูลข้อความเพื่อทำการจำแนกประเภทหลายป้ายกำกับ เมื่อทำงานกับปัญหา NLP ที่ยังอยู่ในช่วงเริ่มต้น เราใช้การจำแนกประเภทป้ายกำกับเดียว แต่เมื่อพูดถึงข้อมูลจากโลกแห่งความเป็นจริง ระดับการจำแนกประเภทก็สูงขึ้นอีกสองสามระดับ

เมื่อพูดถึงการจัดประเภทแบบหลายป้ายกำกับแบบจัดลำดับ Neural Classifier สามารถใช้เพื่อสร้างแบบจำลองประสาทได้รวดเร็วยิ่งขึ้น หนึ่งในสิ่งที่ดีที่สุดเกี่ยวกับ Neural Classifiers คือมันมาพร้อมกับตัวเข้ารหัสข้อความที่เราคุ้นเคย ไม่ว่าจะเป็น Transformer encoder, FastText และ RCNN เป็นต้น เราสามารถใช้เพื่อดำเนินการจัดหมวดหมู่ได้หลายอย่าง รวมถึงการจำแนกข้อความคลาสไบนารี การจัดประเภทข้อความหลายป้ายกำกับ การจัดประเภทข้อความหลายคลาส และการจัดประเภทข้อความแบบลำดับชั้นหรือแบบให้คะแนน

2. MedicalNet

คนส่วนใหญ่คิดว่าการโอนย้ายการเรียนรู้เป็นเพียงเรื่องของ NLP พวกเขาหมกมุ่นอยู่กับการพัฒนาจนลืมเกี่ยวกับการประยุกต์ใช้การเรียนรู้แบบโอนย้ายอื่นๆ MedicalNet เป็นหนึ่งในโครงการที่คุณจะตื่นเต้นที่จะได้เห็น

โปรเจ็กต์นี้รวมชุดข้อมูลทางการแพทย์เข้ากับหลายสิ่งหลายอย่าง เช่น อวัยวะเป้าหมาย โรค และรูปแบบต่างๆ ที่จะมาพร้อมกับชุดข้อมูลที่ใหญ่ขึ้น และถ้าคุณรู้ว่าโมเดลการเรียนรู้เชิงลึกทำงานอย่างไร คุณจะรู้ว่าสามารถใช้ชุดข้อมูลขนาดใหญ่เหล่านี้ได้ที่ไหน นี่เป็นโครงการโอเพ่นซอร์สที่ยอดเยี่ยมที่คุณควรดำเนินการอย่างแน่นอน

3. TDEngine

นี่คือแพลตฟอร์ม Big Data ที่สร้างขึ้นสำหรับ Internet of Things หรือ IOT, โครงสร้างพื้นฐานด้านไอที, Connected Cars และ IoT อุตสาหกรรม เหนือสิ่งอื่นใด มีชุดงานวิศวกรรมข้อมูลทั้งชุด ได้รับการจัดอันดับให้เป็นหนึ่งในโครงการใหม่ที่ดีที่สุดที่โฮสต์บน GitHub

4. BERT

การนำเสนอตัวเข้ารหัสแบบสองทิศทางจาก Transformers หรือ BERT เป็นโครงการการเรียนรู้ของเครื่องที่ได้รับความนิยมอย่างมากบน GitHub BERT เป็นส่วนเสริมใหม่ของโครงการที่เกี่ยวข้องกับการแสดงภาษา เป็นระบบสองทิศทางและเป็นระบบแรกที่ไม่มีผู้ดูแลสำหรับการฝึกอบรมล่วงหน้าของ NLP

5. การลบวัตถุวิดีโอ

วิธีที่เครื่องจักรสมัยใหม่จัดการและจัดการรูปภาพได้มาถึงขั้นที่ล้ำหน้ามากแล้ว หากคุณต้องการเป็นผู้เชี่ยวชาญด้านคอมพิวเตอร์วิทัศน์ คุณต้องอยู่เหนือเกมของคุณในการตรวจจับวัตถุในภาพ

มันไม่ง่ายเลยเมื่อคุณถูกขอให้ทำงานกับวิดีโอและสร้างกรอบล้อมรอบวัตถุต่างๆ ในวิดีโอ นี่เป็นงานที่ซับซ้อนเนื่องจากวัตถุมีลักษณะเป็นไดนามิก การฝึกอบรมแมชชีนเลิร์นนิงช่วยให้คุณทำงานเหล่านี้ลุล่วงได้อย่างง่ายดาย

6. Aweome-TensorFlow

โปรเจ็กต์แมชชีนเลิร์นนิงบน GitHub มีแหล่งข้อมูลที่ช่วยให้เข้าใจและใช้งาน TensorFlow ได้ง่ายมาก มีคอลเล็กชันโปรเจ็กต์ การทดลอง และไลบรารีของ TensorFlow โปรแกรมการเรียนรู้ของเครื่องโอเพนซอร์ซ TensorFlow ที่มีทรัพยากร เครื่องมือ และไลบรารีของชุมชนต่างกันเพื่อช่วยคุณสร้างโครงการที่ล้ำหน้าที่สุดโดยใช้แมชชีนเลิร์นนิง นักพัฒนาสามารถใช้ TensorFlow เพื่อสร้างและปรับใช้แอปพลิเคชันการเรียนรู้ของเครื่องได้อย่างรวดเร็ว

7. FastText ของ FacebookResearch

นี่คือห้องสมุดโอเพ่นซอร์สฟรีของ FacebookResearch ที่ให้วิธีการเรียนรู้คำศัพท์ที่คุ้มค่า fasText มีน้ำหนักเบาและให้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับตัวแยกประโยคและการแสดงข้อความ นี่เป็นห้องสมุดที่ดีสำหรับผู้ที่สนใจ NLP

บทสรุป

บล็อกนี้กล่าวถึงแมชชีนเลิร์นนิง GitHub และการเชื่อมโยงซึ่งกันและกัน เราแสดงรายการโปรเจ็กต์แมชชีนเลิร์นนิงสองสามโปรเจ็กต์ที่โฮสต์บน GitHub และให้ความเข้าใจสั้น ๆ ว่าโปรเจ็กต์เหล่านี้ทำงานอย่างไรและจะเป็นประโยชน์กับใครได้บ้าง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT -B สถานะศิษย์เก่า 5+ โครงการหลักที่ปฏิบัติได้จริง & ความช่วยเหลืองานกับ บริษัท ชั้นนำ

แมชชีนเลิร์นนิงมีข้อจำกัดอย่างไร

แมชชีนเลิร์นนิงเป็นเครื่องมือที่ทรงพลังมากสำหรับการแก้ปัญหาที่หลากหลายในทุกอุตสาหกรรม อย่างไรก็ตาม ยังมีข้อจำกัดบางประการในการใช้แมชชีนเลิร์นนิง: 1. แมชชีนเลิร์นนิงมีค่าใช้จ่ายสูง คุณต้องใช้เงินเป็นจำนวนมากเพื่อซื้อซอฟต์แวร์และฝึกอบรมชุดข้อมูล 2. การเรียนรู้ด้วยเครื่องไม่ใช่เรื่องง่ายในการเริ่มต้น ไลบรารีการเรียนรู้ของเครื่องโอเพนซอร์สนั้นใช้งานยากมาก 3. การเรียนรู้ด้วยเครื่องไม่ใช่วิธีแก้ปัญหาแบบทันที คุณควรใช้เวลาและความพยายามในการทำความเข้าใจข้อมูล 4. การเรียนรู้ของเครื่องไม่ได้มีไว้สำหรับทุกคน คุณจำเป็นต้องรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล สถิติ และคณิตศาสตร์ 5. แมชชีนเลิร์นนิงสามารถใช้สำหรับการคาดคะเนและการประมาณค่าเท่านั้น ดังนั้นคุณยังต้องทำงานของมนุษย์อยู่บ้าง

จะเริ่มเรียนรู้แมชชีนเลิร์นนิงได้อย่างไร

แมชชีนเลิร์นนิงเป็นประเด็นร้อนและวิธีที่ฉลาดที่สุดในการเข้าสู่อุตสาหกรรมนี้คือการเรียนรู้จากพื้นฐานและทำความเข้าใจวิธีการทำงาน การเรียนรู้ของเครื่องเป็นชุดของอัลกอริทึมที่ใช้ในการวิเคราะห์และตัดสินใจโดยใช้ข้อมูลในอดีต แมชชีนเลิร์นนิงเป็นคำศัพท์ที่กว้างมากและมีหลายสิ่งที่ต้องเรียนรู้และอาจดูเหมือนล้นหลาม ดังนั้น เราขอแนะนำให้คุณเริ่มต้นด้วยอัลกอริธึมง่ายๆ เช่น การถดถอยเชิงเส้น แล้วเปลี่ยนไปใช้วิธีการขั้นสูง เช่น การเร่งความเร็วแบบไล่ระดับและการเรียนรู้เชิงลึก

อะไรเจ๋งๆ ที่คุณสามารถทำได้ด้วยการเรียนรู้ของเครื่อง

คุณสามารถพัฒนาแบบจำลองเพื่อทำนายพฤติกรรมผู้เล่นของคุณ (หรือพฤติกรรมผู้ใช้ของคุณ) ตัวอย่างเช่น ตามตำแหน่งของพวกเขา ช่วงเวลาของวัน อุปกรณ์ ฯลฯ คุณสามารถใช้โมเดลนี้เพื่อทริกเกอร์การดำเนินการโดยอัตโนมัติ ตัวอย่างเช่น ส่งการแจ้งเตือนแบบพุชพร้อมข้อเสนอพิเศษไปยังผู้ใช้เมื่ออยู่ใกล้ร้านค้าของคุณ นี่เป็นวิธีที่ง่ายที่สุดในการทำเงินจากวิทยาศาสตร์ข้อมูล หากคุณต้องการเป็นวิศวกรการเรียนรู้ของเครื่อง คุณจะต้องมีความต้องการสูง บริษัทส่วนใหญ่ ตั้งแต่สตาร์ทอัพขนาดเล็กไปจนถึง Google, Amazon, IBM, Facebook และอื่นๆ ลงทุนอย่างหนักในการเรียนรู้ของเครื่อง