8 ไอเดียโครงงานคอมพิวเตอร์วิทัศน์แสนสนุกสำหรับผู้เริ่มต้น [2022]

เผยแพร่แล้ว: 2021-01-06

AI และแมชชีนเลิร์นนิงมีหลายสาขา และคอมพิวเตอร์วิทัศน์เป็นหนึ่งในสาขาที่โดดเด่นที่สุด หนึ่งในวิธีที่ดีที่สุดในการเรียนรู้คอมพิวเตอร์วิทัศน์คือการทำโปรเจ็กต์คอมพิวเตอร์วิทัศน์ให้เสร็จ ด้วยเหตุนี้ ในบทความนี้ เราจึงได้แบ่งปันแนวคิดเกี่ยวกับโครงการ Computer Vision ระดับแนวหน้าของเรา ซึ่งมีไว้สำหรับระดับทักษะต่างๆ ดังนั้นคุณสามารถเลือกโครงการ (หรือหลายโครงการ) ตามความเชี่ยวชาญของคุณ มาเริ่มกันเลย.

สารบัญ

แนวคิดโครงการ Computer Vision ชั้นนำของเรา

1. ทำการตรวจจับใบหน้าบนภาพถ่ายครอบครัวของคุณ

การตรวจจับใบหน้าเป็นหนึ่งในแนวคิดโปรเจ็กต์การมองเห็นด้วยคอมพิวเตอร์ที่ได้รับความนิยมมากที่สุด มันมีแอปพลิเคชั่นในหลาย ๆ ด้าน การรักษาความปลอดภัย โซเชียลมีเดีย การดูแลสุขภาพ ฯลฯ ไม่ว่าคุณจะเป็นมือใหม่หรือนักพัฒนาขั้นสูง คุณสามารถหาโครงการตรวจจับใบหน้าเพื่อทำงานได้อย่างง่ายดาย การตรวจหาใบหน้าเป็นส่วนสำคัญของการมองเห็นด้วยคอมพิวเตอร์ และหากคุณต้องการเป็นผู้เชี่ยวชาญ คุณควรทำงานในโครงการตรวจจับใบหน้าหลายโครงการ

หากคุณเป็นมือใหม่ คุณควรเริ่มต้นด้วย ไลบรารีการจดจำใบหน้าใน Python ห้องสมุดนี้ใช้งานง่ายด้วยคำสั่งที่ตรงไปตรงมาสำหรับการปรับใช้การจดจำใบหน้าโดยเฉพาะ อย่างไรก็ตาม คุณควรมีประสบการณ์ในการเขียนโปรแกรมในภาษา Python เพื่อใช้ไลบรารี่นี้ ไลบรารีนี้มีคำสั่ง face_recognition ที่เรียบง่าย ซึ่งช่วยให้คุณระบุใบหน้าได้อย่างรวดเร็ว

ในทางกลับกัน หากคุณเป็นโปรแกรมเมอร์ขั้นสูง คุณสามารถใช้ OpenCV เพื่อระบุใบหน้าในรูปภาพได้ คุณสามารถรวมไลบรารี Face Recognition กับไลบรารี Python อื่นๆ เพื่อสร้างโซลูชันที่ซับซ้อนยิ่งขึ้นได้

วิธีทำให้โครงการมีความท้าทายมากขึ้น

คุณสามารถพัฒนาโมเดลที่ระบุใบหน้าในวิดีโอได้ ในทางกลับกัน คุณสามารถสอนแบบจำลองของคุณให้รู้จักบุคคลในรูปหมู่ได้ ซึ่งหมายความว่านางแบบควรจดจำบุคคลที่อยู่ในภาพ ในการนั้น คุณจะต้องฝึกโมเดลด้วยชุดข้อมูลแบบกำหนดเองของรูปภาพของบุคคลที่คุณต้องการให้โมเดลรับรู้

2. สร้างโซลูชันการนับจำนวนคน

การนับคนเป็นแอปพลิเคชั่นที่โดดเด่นของเทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์ จากการแพร่ระบาดเมื่อเร็วๆ นี้ มูลค่าของการแก้ปัญหาการนับจำนวนคนเพิ่มขึ้นอย่างมาก คุณสามารถใช้ OpenCV และ Python เพื่อสร้างแบบจำลองสำหรับคำนวณจำนวนคนทั้งหมดที่อยู่ในรูปภาพ

การแก้ปัญหาการนับคนสามารถเป็นเครื่องมือในโลกปัจจุบันที่การเว้นระยะห่างทางสังคมมีความสำคัญต่อการอยู่รอด สำหรับมือใหม่ คุณควรเริ่มด้วยโมเดลการวัดคนแบบง่ายๆ ที่สามารถนับจำนวนคนที่อยู่ในภาพได้

วิธีทำให้โครงการมีความท้าทายมากขึ้น

หากคุณต้องการทำให้โปรเจ็กต์นี้ซับซ้อนหรือล้ำหน้ามากขึ้น คุณสามารถเพิ่มฟังก์ชันอื่นๆ ได้ ตัวอย่างเช่น สร้างโซลูชันที่นับจำนวนคนที่อยู่ในที่สาธารณะเพื่อบังคับใช้กฎการเว้นระยะห่างทางสังคม จะมีคนจำนวนหนึ่งเกินกว่าที่จะปฏิบัติตามการเว้นระยะห่างทางสังคมอย่างเหมาะสม

เข้าร่วม หลักสูตร ML ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท โปรแกรม Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

3. ฝึกการจดจำวัตถุด้วยชุดข้อมูลภาพเปิด

หากคุณเป็นมือใหม่และไม่เคยทำงานในโครงการประมวลผลภาพมาก่อน คุณควรทำความคุ้นเคยกับชุดข้อมูล Open Images ของ Google เป็นคอลเล็กชันรูปภาพต่างๆ ประมาณ 9 ล้านภาพที่มีคำอธิบายประกอบที่สมบูรณ์ ภาพถ่ายมีหลายประเภท และหลายๆ ภาพก็มีฉากที่ซับซ้อนของวัตถุหลายชิ้น มีกรอบล้อมรอบวัตถุ ความสัมพันธ์ทางสายตา คำอธิบายประกอบป้ายกำกับ และหลายสิ่งหลายอย่างที่ทำให้เหมาะสำหรับผู้ที่ชื่นชอบการมองเห็นด้วยคอมพิวเตอร์

คุณสามารถฝึกโมเดลของคุณด้วยชุดข้อมูล Open Images

เรียนรู้: การจัดประเภทรูปภาพ Tensorflow 2.0

4. ทำการจำแนกรูปภาพบน CIFAR-10

การจัดประเภทรูปภาพเป็นแอปพลิเคชั่นการเรียนรู้เชิงลึกที่โดดเด่นของการมองเห็นด้วยคอมพิวเตอร์ ในการทำงานในโครงการนี้ คุณควรคุ้นเคยกับ Python, Keras และ TensorFlow คุณสามารถใช้ชุดข้อมูล CIFAR-10 เพื่อจัดประเภทรูปภาพ มีรูปภาพมากกว่า 60,000 ภาพกับสิบคลาสเป้าหมาย

ทุกคลาสเป้าหมายมี 6,000 ภาพ ภาพถ่ายที่แสดงในชุดข้อมูลนี้มีความละเอียดค่อนข้างต่ำ คุณจึงสามารถทดสอบอัลกอริธึมหลาย ๆ ตัวได้โดยไม่มีปัญหาด้านเทคนิค การจัดประเภทรูปภาพมุ่งเน้นไปที่การแยกพิกเซลของรูปภาพตามคลาสที่เป็นของ

คุณต้องสร้างโครงข่ายประสาทเทียมผ่าน Keras เพื่อทำโครงการนี้ให้เสร็จ

คุณจะไม่ต้องดาวน์โหลดชุดข้อมูล CIFAR-10 แยกต่างหาก หากคุณมี Keras อยู่แล้ว นั่นเป็นเพราะมันมีอยู่ในโมดูลชุดข้อมูล

การทำงานในโครงการนี้ คุณจะได้เรียนรู้มากมายเกี่ยวกับการจัดประเภทรูปภาพ คุณยังจะได้ใช้ TensorFlow และ Keras ซึ่งเป็นเครื่องมือ AI ที่โดดเด่นที่สุดสองอย่างในอุตสาหกรรม การทำงานในโครงการนี้จะช่วยคุณสำรวจคุณลักษณะและฟังก์ชันการทำงาน

วิธีทำให้โครงการมีความท้าทายมากขึ้น

เพื่อให้โครงการนี้มีความท้าทายมากขึ้น คุณสามารถเพิ่ม GUI ให้กับโซลูชันของคุณได้ GUI (ส่วนต่อประสานกราฟิกกับผู้ใช้) จะอนุญาตให้ผู้ใช้ป้อนรูปภาพลงในชุดข้อมูลทดสอบของแบบจำลองเพื่อการวิเคราะห์ คุณควรคุ้นเคยกับไลบรารี Tkinter ของ Python เพื่อสร้าง GUI ด้วยวิธีนี้ คุณจะมีโซลูชันซอฟต์แวร์ที่ใช้งานได้ซึ่งสามารถจัดประเภทรูปภาพบนชุดข้อมูลที่ต้องการได้

5. ตรวจจับสีในรูปภาพ

การตรวจจับสีในภาพเป็นส่วนสำคัญของการมองเห็นด้วยคอมพิวเตอร์ อาจดูเหมือนง่ายที่จะทำ แต่ก็ไม่แน่นอน มีแอพพลิเคชั่นมากมายสำหรับโมเดลการตรวจจับสี ตัวอย่างเช่น คุณสามารถใช้ในซอฟต์แวร์แก้ไขภาพ การตรวจจับสีเป็นส่วนสำคัญของการคัดกรองสีเขียว ซึ่งค่อนข้างเป็นที่นิยมในอุตสาหกรรมสื่อและความบันเทิง

เป้าหมายของโมเดลของคุณคือการตรวจจับทุกสีที่มีอยู่ในภาพ คุณสามารถใช้ชุดข้อมูล Google-512 เพื่อฝึกโมเดลของคุณ เป็นคอลเล็กชันภาพทางอินเทอร์เน็ตที่แยกจากกันตามสีหลัก และมีสีดำ สีแดง สีขาว สีเหลือง สีส้ม สีฟ้า สีเทา สีม่วง สีชมพู และสีน้ำตาล คุณสามารถรับชุดข้อมูล Google-512 ได้ที่นี่

ชำระเงิน: แนวคิดโครงการปัญญาประดิษฐ์

วิธีทำให้โครงการมีความท้าทายมากขึ้น

ดังที่เราได้กล่าวไว้ก่อนหน้านี้ การตรวจคัดกรองสีเขียวน่าจะเป็นการประยุกต์ใช้เทคโนโลยีการตรวจจับสีที่ได้รับความนิยมมากที่สุด หน้าจอสีเขียวเป็นชื่อที่แนะนำคือหน้าจอสีเขียว อนุญาตให้ผู้ใช้เปลี่ยนพื้นหลังของรูปภาพหรือวิดีโอเป็นรูปภาพหรือวิดีโอที่ต้องการ ซอฟต์แวร์จะระบุสีเขียวของหน้าจอและแทนที่ด้วยรูปภาพหรือวิดีโอที่เลือก คุณสามารถสร้างแบบจำลองที่คล้ายกับหน้าจอสีเขียว

6. เรียนรู้การติดตามวัตถุ

การติดตามวัตถุเป็นโปรแกรมคอมพิวเตอร์วิทัศน์ขั้นสูง แม้ว่าเราจะพูดถึงโปรเจ็กต์การประมวลผลภาพเป็นส่วนใหญ่ในรายการของเรา แต่โปรเจ็กต์นี้เน้นที่การวิเคราะห์วิดีโอ โมเดลการติดตามวัตถุจะระบุและติดตามวัตถุเฉพาะในวิดีโอ โมเดลทำงานเฉพาะสองอย่างในการติดตามออบเจ็กต์ มันต้องทำนายสถานะถัดไปของวัตถุตามสถานะปัจจุบัน จากนั้นโมเดลจะต้องแก้ไขสถานะตามสภาพจริงของวัตถุ

คุณสามารถใช้ชุดข้อมูล TLP เพื่อทำงานในโปรเจ็กต์นี้ได้ มีวิดีโอความละเอียดสูง 50 รายการจากสถานการณ์จริง มีคลิปต่างๆ มากกว่า 400 นาที ผู้สร้างชุดข้อมูล TLP ยังมีชุดข้อมูลขนาดเล็กที่เรียกว่า TinyTLP มี 20 วินาทีแรกของทุกคลิปในชุดข้อมูล TLP คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับชุดข้อมูล TLP ได้ ที่นี่

7. นับยานพาหนะในรูปภาพและวิดีโอ

ระบบการนับรถมีประโยชน์อย่างมากสำหรับการจัดการการจราจร อาจเป็นประโยชน์สำหรับรถยนต์ไร้คนขับด้วยเช่นกัน ในโครงการนี้ คุณจะต้องสร้างแบบจำลองการนับยานพาหนะที่สามารถนับจำนวนรถยนต์และจักรยานที่มีอยู่ในภาพ ควรจะสามารถนับได้ภายใต้สถานการณ์ที่ท้าทาย (ภาพที่มีเงาสูงหรือการบดเคี้ยวสูง) ในการทำงานกับโปรเจ็กต์นี้ คุณสามารถใช้ฐานข้อมูลภาพรถ ซึ่งเป็นคอลเล็กชันภาพรถมากกว่า 3425 ภาพ

คุณสามารถฝึกโมเดลของคุณให้รู้จักรถยนต์ได้โดยใช้ชุดข้อมูลนั้น คุณควรทำความคุ้นเคยกับการรู้จำวัตถุก่อนที่จะเริ่มทำงานในโครงการนี้ ฐานข้อมูลมีภาพลำดับถนน 3900 ภาพโดยไม่มียานพาหนะเช่นกัน มีหลายคลาสในฐานข้อมูลภาพยานพาหนะ คุณจึงสามารถฝึกโมเดลของคุณได้อย่างเข้มงวด

8. สร้างเครื่องสแกนรหัส QR

คุณต้องสังเกตเห็นว่ารหัส QR ได้รับความนิยมในช่วงไม่กี่ปีที่ผ่านมา UPI, Paytm, PhonePe และแอปชำระเงินดิจิทัลอื่นๆ ทำให้รหัส QR เป็นที่นิยมอย่างกว้างขวางเนื่องจากมีการใช้งานที่เรียบง่าย เครื่องสแกนโค้ด QR ใช้การมองเห็นของคอมพิวเตอร์ในการวิเคราะห์ภาพ ดังนั้น ในโครงการนี้ คุณต้องสร้างเครื่องสแกนรหัส QR

คุณต้องใช้ OpenCV เพื่อสร้างเครื่องสแกน ซึ่งหมายความว่าคุณควรทำความคุ้นเคยกับการเขียนโปรแกรมใน Python ก่อนเริ่มทำงานในโครงการนี้ นอกเหนือจาก OpenCV คุณจะใช้ pyzbar ในโปรเจ็กต์นี้ ไลบรารี Python ที่ทุ่มเทให้กับการสแกนรหัส QR และบาร์โค้ด

การทำงานในโครงการนี้จะทำให้คุณคุ้นเคยกับการใช้งานคอมพิวเตอร์วิทัศน์ในโลกแห่งความเป็นจริง นอกจากนี้ คุณจะมีเครื่องสแกนรหัส QR ที่ใช้งานได้ซึ่งคุณสามารถรวมเข้ากับโครงการอื่นได้

วิธีทำให้โครงการมีความท้าทายมากขึ้น

เพื่อให้โครงการนี้ซับซ้อนยิ่งขึ้น คุณสามารถเพิ่มฟังก์ชันการสแกนบาร์โค้ดในแบบจำลองของคุณได้ บาร์โค้ดและรหัส QR มีความแตกต่างกันอย่างมาก คุณต้องใช้ pyzbar เพื่อสร้างเครื่องสแกนบาร์โค้ด คุณสามารถทำให้โปรเจ็กต์นี้ก้าวไปอีกขั้นได้โดยการรวมเครื่องสแกนโค้ด QR และเครื่องสแกนบาร์โค้ดไว้ในโซลูชันเดียว

อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง

เรียนรู้เพิ่มเติมเกี่ยวกับ AI และการเรียนรู้ของเครื่อง

เราหวังว่าคุณจะสนุกกับการอ่านบทความนี้เกี่ยวกับแนวคิดโครงการ Computer Vision หากคุณมีคำถามหรือข้อเสนอแนะในหัวข้อนี้ โปรดแจ้งให้เราทราบ เราชอบที่จะได้ยินจากคุณ

คุณสามารถพัฒนาทักษะที่จำเป็นในการเป็นผู้เชี่ยวชาญในสาขานี้ได้ด้วยการทำงานในโครงการคอมพิวเตอร์วิทัศน์หลายโครงการ โครงการช่วยคุณในการค้นหาข้อบกพร่องของคุณเช่นกัน หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการมองเห็นด้วยคอมพิวเตอร์ โปรดไปที่บล็อกของเรา

ในทางกลับกัน หากคุณต้องการประสบการณ์การเรียนรู้ที่เป็นส่วนตัว เราแนะนำให้ เรียนหลักสูตรแมชชีนเลิ ร์น นิง หลักสูตรแมชชีนเลิร์นนิงจะช่วยให้คุณเรียนรู้จากผู้เชี่ยวชาญในอุตสาหกรรมผ่านแบบทดสอบ วิดีโอ และโครงการเชิงโต้ตอบ

ลองดูโปรแกรมการรับรองขั้นสูงใน Machine Learning & Cloud กับ IIT Madras ซึ่งเป็นโรงเรียนวิศวกรรมที่ดีที่สุดในประเทศเพื่อสร้างโปรแกรมที่สอนคุณไม่เพียงแต่แมชชีนเลิร์นนิง แต่ยังรวมถึงการปรับใช้อย่างมีประสิทธิภาพโดยใช้โครงสร้างพื้นฐานระบบคลาวด์ เป้าหมายของเราในโปรแกรมนี้คือการเปิดประตูของสถาบันที่คัดเลือกมามากที่สุดในประเทศและให้ผู้เรียนเข้าถึงคณาจารย์และทรัพยากรที่น่าทึ่งเพื่อฝึกฝนทักษะที่สูงและเติบโต

โครงการประมวลผลภาพใดที่คุณชอบมากที่สุด? คุณวางแผนที่จะทำงานในโครงการหรือไม่? แจ้งให้เราทราบในความคิดเห็น.

Computer Vision แตกต่างจากการประมวลผลภาพอย่างไร?

Computer Vision เป็นเวอร์ชันที่สูงกว่าของการประมวลผลภาพ โดยอินพุตเป็นภาพ และผลลัพธ์คือการตีความภาพแทนที่จะเป็นภาพ ความแตกต่างพื้นฐานอยู่ระหว่างวัตถุประสงค์มากกว่าเทคนิค การประมวลผลภาพจะใช้เมื่อมีจุดประสงค์เพื่อปรับปรุงภาพเพื่อใช้ในภายหลัง ในทางกลับกัน Computer Vision เกี่ยวข้องกับการจำลองการมองเห็นเหมือนมนุษย์เพื่อจุดประสงค์ในการตรวจจับวัตถุ สิ่งสำคัญคือต้องเข้าใจความแตกต่างที่สำคัญ การประมวลผลภาพเป็นส่วนประกอบหนึ่งของ Computer Vision เนื่องจากมีการใช้วิธีการประมวลผลภาพเพื่อให้ Computer Vision ทำงานได้อย่างถูกต้อง

แอพพลิเคชั่นของ Computer Vision คืออะไร?

รถยนต์ที่ขับด้วยตนเองใช้คอมพิวเตอร์วิทัศน์เพื่อทำความเข้าใจสภาพแวดล้อม กล้องรอบๆ รถจะรวบรวมวิดีโอจากมุมต่างๆ และส่งไปยังซอฟต์แวร์จดจำวัตถุ ซึ่งจะประมวลผลภาพแบบเรียลไทม์เพื่อค้นหาขอบถนน อ่านป้ายจราจร และตรวจจับรถยนต์ วัตถุ และคนเดินเท้าอื่นๆ แอปพลิเคชันการระบุใบหน้า ซึ่งใช้คอมพิวเตอร์วิทัศน์ในการจับคู่ภาพใบหน้าของผู้คนกับตัวตนของพวกเขา เป็นอีกพื้นที่หนึ่งที่คอมพิวเตอร์วิทัศน์มีบทบาทสำคัญ คอมพิวเตอร์วิทัศน์ยังมีบทบาทสำคัญในความก้าวหน้าทางเทคโนโลยีด้านสุขภาพ อัลกอริธึมการมองเห็นของคอมพิวเตอร์สามารถช่วยในการทำงานอัตโนมัติ เช่น การตรวจจับไฝร้ายในภาพถ่ายผิวหนัง และการระบุตำแหน่งอาการในการสแกนด้วยเอ็กซเรย์และ MRI

CV มีบทบาทอย่างไรในความจริงเสริมและความเป็นจริงผสม?

คอมพิวเตอร์วิทัศน์มีความสำคัญอย่างยิ่งในความจริงเสริมและความเป็นจริงผสม ซึ่งช่วยให้อุปกรณ์คอมพิวเตอร์ เช่น สมาร์ทโฟน แท็บเล็ต และเทคโนโลยีสวมใส่สามารถซ้อนทับและฝังวัตถุเสมือนบนภาพจริงได้ อุปกรณ์ AR ตรวจจับสิ่งของในสภาพแวดล้อมจริงโดยใช้คอมพิวเตอร์วิทัศน์เพื่อระบุว่าควรวางวัตถุเสมือนไว้ที่ใดบนจอแสดงผลของอุปกรณ์ ตัวอย่างเช่น อัลกอริธึมการมองเห็นของคอมพิวเตอร์สามารถช่วยแอปพลิเคชัน AR ในการตรวจจับระนาบ เช่น โต๊ะ ผนัง และพื้น ซึ่งเป็นส่วนสำคัญของการกำหนดความลึกและขนาด และการวางสิ่งของเสมือนจริงในสภาพแวดล้อมจริง