Convolutional Neural Networks: สุดยอดคู่มือสำหรับผู้เริ่มต้นในปี 2022

เผยแพร่แล้ว: 2021-01-05

การค้นหา "วิทยาศาสตร์ข้อมูล" อย่างรวดเร็วโดย Google จะเปิดเผยให้ทุกคนเห็นอย่างชัดเจน
เป็นที่นิยมในวงการนี้ในช่วงห้าปีที่ผ่านมา พร้อมกับวิทยาศาสตร์ข้อมูลเทียม
ความฉลาด การเรียนรู้ของเครื่อง และการเรียนรู้เชิงลึกกำลังได้รับความนิยมใน
สาขาวิทยาการคอมพิวเตอร์ ล่าสุดที่จะเพิ่มในรายการนี้คือระบบประสาทที่บิดเบี้ยว
เครือข่าย— นวัตกรรมจากสาขาคอมพิวเตอร์วิทัศน์

สารบัญ

มันเริ่มต้นที่ไหน?

โครงข่ายประสาทเทียมได้รับความนิยมอย่างมากในปี 2555 เมื่อ Alex Krizhevsky ชนะ
การแข่งขัน ImageNet ในปีนั้น การแข่งขันครั้งนี้คล้ายกับการแข่งขันกีฬาโอลิมปิกคอมพิวเตอร์
วิสัยทัศน์และเมื่อ Alex ใช้พวกเขา ข้อผิดพลาดในการจัดหมวดหมู่ลดลงจาก 26% เป็น 15%

นี่คือแสงเลเซอร์แห่งความหวังที่ไม่มีใครเทียบได้ ซึ่งบริษัทและคอมพิวเตอร์
นักวิทยาศาสตร์จำเป็น ตั้งแต่นั้นมา บริษัทต่างๆ เช่น Instagram, Facebook, Pinterest เป็นต้น
ได้ใช้โครงข่ายประสาทเทียมอย่างกระตือรือร้นเพื่อมอบประสบการณ์ที่ดีที่สุดให้กับ
ผู้ชมของพวกเขา อ่าน: กวดวิชาโครงข่ายประสาทเทียม

การเชื่อมต่อทางชีววิทยาของโครงข่ายประสาทเทียมจะช่วยในการสร้าง
รากฐานที่ชัดเจน ในปี 1962 Hubel และ Wiesel ได้แสดงให้เห็นว่าเซลล์ประสาทที่แตกต่างกันใน
คอร์เทกซ์การมองเห็นถูกไล่ออกเมื่อมีสัญญาณภาพเฉพาะเท่านั้น ร่วมกันเหล่านี้
เซลล์ประสาทมีโครงสร้างเป็นแนวเสา และเมื่อถูกยิง จะทำให้เกิดการมองเห็นโดยรวม
การรับรู้.

ตัวอย่างเช่น เซลล์ประสาทบางตัวจะยิงเมื่อพวกมันสัมผัสกับขอบแนวนอนเท่านั้น
คนอื่นยิงต่อหน้าขอบแนวตั้งหรือแนวทแยง ดังนั้น เซลล์ประสาทต่างๆ
ตอบสนองต่อองค์ประกอบภาพที่แตกต่างกันและทำให้เราเห็น

Convolutional Neural Network คืออะไร?

Convolutional Neural Network หรือที่เรียกว่า CNN หรือ ConvNet คือ Deep Learning
อัลกอริทึม นำภาพที่ป้อนเข้ามากำหนดน้ำหนัก/อคติให้กับส่วนประกอบของ
รูปภาพ แล้วจัดประเภทรูปภาพทั้งหมด ด้วยการฝึกอบรมที่เพียงพอ ConvNets จึงเป็น
ความสามารถในการเรียนรู้ตัวกรอง/การจำแนกประเภทและการประมวลผลล่วงหน้าที่จำเป็นต่ำกว่าเช่น
เมื่อเทียบกับอัลกอริธึมอื่นๆ อ่านเกี่ยวกับความแตกต่างระหว่างการเรียนรู้เชิงลึกและโครงข่ายประสาทเทียม

ในที่สุดสิ่งที่เราต้องการให้โครงข่ายประสาทเทียมทำคือการแยกแยะ
ระหว่างภาพและจัดประเภทให้ถูกต้อง สามารถจับภาพได้ทั้งชั่วขณะและ
การพึ่งพาเชิงพื้นที่เนื่องจากการใช้ตัวกรองที่เกี่ยวข้อง

พื้นฐานของวิธีการทำงาน

รูปภาพจะกลายเป็นอาร์เรย์ขึ้นอยู่กับความละเอียดและขนาดของรูปภาพ

แต่ละรายการในอาร์เรย์จะประกอบด้วยตัวเลขตั้งแต่ 0 ถึง 255 (หากระบบ RGB เป็น
ใช้แล้ว). ตัวเลขนี้จะแสดงความเข้มของพิกเซล ณ จุดนั้น

การนำตัวเลขเหล่านี้เป็นอินพุต คอมพิวเตอร์จะส่งออกตัวเลข เบอร์นี้
จะบ่งบอกถึงความน่าจะเป็นของภาพที่เป็นของชั้นหนึ่ง (เช่น บ้าน
ถนน รถบัส สุนัข แมว ฯลฯ)

โครงสร้างของ CNN

เห็นภาพด้านบนแล้ว คุณอาจคิดว่ามีเลเยอร์มากมายใน Convolutional
โครงข่ายประสาทเทียม แต่ในความเป็นจริง มีเพียง 3 เครือข่ายหลักเท่านั้น ซึ่งรวมถึง:
1. ชั้นบิดงอ
2. ชั้นรวม
3. เลเยอร์ที่เชื่อมต่ออย่างเต็มที่
มาดำดิ่งลึกลงไปในแต่ละสิ่งเหล่านี้กัน

ชั้นบิดงอ

นี่คือเลเยอร์หลักของโครงข่ายประสาทเทียม พารามิเตอร์ของมันคือ
ประกอบด้วยชุดฟิลเตอร์ ตัวกรองเหล่านี้มีขนาดเล็ก แต่ครอบคลุมความลึกของ
ปริมาณอินพุต

งานหลักที่ทำที่ชั้น convolutional คือการสกัดระดับสูง
คุณสมบัติ. อันแรก (ดังแสดงในภาพด้านบน) มีหน้าที่ในการสกัด-
คุณสมบัติระดับ เช่น สี ขอบ ฯลฯ เลเยอร์ที่บิดเบี้ยวที่ตามมาจะนำ
คุณสมบัติระดับสูงจึงทำให้เข้าใจ/พิจารณาภาพได้อย่างสมบูรณ์

The Pooling Layer

เลเยอร์นี้มีขึ้นเพื่อลดขนาดเชิงพื้นที่ของการแสดงภาพ เช่นนี้มัน
ยังช่วยลดการคำนวณและการประมวลผลในโครงข่ายประสาทเทียม
นอกจากนี้ยังแยกคุณสมบัติเด่นที่อยู่ในตำแหน่งและหมุน
ไม่คงที่

การรวมประเภทหนึ่งทำได้โดยใช้การดำเนินการสูงสุด การดำเนินการนี้เลือก
ค่าสูงสุดจากกลุ่มเซลล์ประสาทแต่ละกลุ่มที่ชั้นก่อนหน้า การรวมกลุ่มอีกประเภทหนึ่ง
คือการรวมกลุ่มเฉลี่ยซึ่งส่งคืนค่าเฉลี่ยจากคลัสเตอร์
เนื่องจาก Max pooling ยังทำหน้าที่เป็นตัวลดเสียงรบกวนด้วย จึงทำงานได้ดีกว่า Average
การรวมกลุ่ม

ดังที่แสดงในภาพด้านบน นอกจากจะมีการรวมเลเยอร์หลายชั้นแล้ว
ชั้นโค้ง ยิ่งจำนวนเลเยอร์เหล่านี้มากเท่าไร คุณสมบัติระดับต่ำก็ยิ่งมากขึ้นเท่านั้น
จะถูกสกัด อย่างไรก็ตาม พลังการคำนวณที่ใช้ไปก็จะเพิ่มขึ้นเช่นกัน

ตอนนี้ภาพที่ได้ผ่านการ convolutional และ pooling ทั้งหมดในปัจจุบัน
เลเยอร์ การแยกคุณลักษณะเสร็จสมบูรณ์ ถึงเวลาสำหรับการแบ่งประเภทของภาพแล้ว เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ทำงานนี้

เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ (FCL)

ในฐานะที่เป็นเลเยอร์สุดท้าย เลเยอร์ FC เป็นเพียงโครงข่ายประสาทฟีดฟอร์เวิร์ด อินพุตไปยัง
เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์คือผลลัพธ์ที่แบนของการรวม / convolutional ล่าสุด
ชั้น. การแผ่รังสีหมายความว่าเมทริกซ์หรืออาร์เรย์ 3 มิติถูกคลี่ออกเป็นเวกเตอร์

สำหรับแต่ละเลเยอร์ FC จะมีการคำนวณทางคณิตศาสตร์เฉพาะ หลังจากที่เวกเตอร์ผ่านเลเยอร์ที่เชื่อมต่อทั้งหมดแล้ว ฟังก์ชันการเปิดใช้งาน softmax จะถูกใช้ในเลเยอร์สุดท้าย ใช้เพื่อคำนวณความน่าจะเป็นของอินพุตที่เป็นของงานเฉพาะ

ดังนั้น ผลลัพธ์ที่ได้คือความน่าจะเป็นที่แตกต่างกันของอิมเมจอินพุตที่เป็นของคลาสต่างๆ

ขั้นตอนนี้จะทำซ้ำสำหรับรูปภาพประเภทต่างๆ และรูปภาพแต่ละรูปภายในประเภทเหล่านั้น เป็นการฝึกเครือข่ายและสอนให้แยกแยะระหว่างสุนัขกับแมว กับดอกกุหลาบกับดอกทานตะวัน

ซื้อกลับบ้าน

เทคโนโลยีพื้นฐานของ โครงข่ายประสาทเทียม กำลังได้รับการขัดเกลาอย่างต่อเนื่อง เครือข่ายได้รับการฝึกฝนอย่างหนักเพื่อให้ได้ความน่าจะเป็นที่แม่นยำ กล่าวได้ถูกต้อง: ในสาขาคอมพิวเตอร์วิทัศน์ CNN สะกดการปฏิวัติเพียงอย่างเดียว

คุณสามารถตรวจสอบ PG Diploma in Machine Learning และ AI ซึ่ง มีการฝึกอบรมเชิงปฏิบัติการเชิงปฏิบัติ ผู้ให้คำปรึกษาในอุตสาหกรรมแบบตัวต่อตัว กรณีศึกษาและการมอบหมายงาน 12 กรณี สถานะศิษย์เก่า IIIT-B และอื่นๆ

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

PG DIPLOMA ในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์

เรียนรู้เพิ่มเติม