แมชชีนเลิร์นนิงของฝ่ายตรงข้าม: วิธีโจมตีและปกป้องโมเดล ML
เผยแพร่แล้ว: 2022-03-11ทุกวันนี้ โมเดลแมชชีนเลิร์นนิงในคอมพิวเตอร์วิทัศน์ถูกนำมาใช้ในการใช้งานจริงหลายอย่าง เช่น รถยนต์ที่ขับด้วยตนเอง การจดจำใบหน้า การวินิจฉัยโรคมะเร็ง หรือแม้แต่ในร้านค้ายุคใหม่ เพื่อติดตามว่าลูกค้านำผลิตภัณฑ์ใดออกจากชั้นวาง บัตรสามารถเรียกเก็บเงินได้เมื่อออก
ความแม่นยำที่เพิ่มขึ้นของระบบการเรียนรู้ของเครื่องเหล่านี้ค่อนข้างน่าประทับใจ ดังนั้นจึงทำให้เกิดแอปพลิเคชันจำนวนมากขึ้นโดยธรรมชาติ แม้ว่าพื้นฐานทางคณิตศาสตร์เบื้องหลังจะได้รับการศึกษาเมื่อไม่กี่ทศวรรษก่อน แต่การถือกำเนิดของ GPU ที่ทรงพลังเมื่อไม่นานมานี้ทำให้นักวิจัยมีพลังในการคำนวณที่จำเป็นในการทดลองและสร้างระบบการเรียนรู้ด้วยเครื่องที่ซับซ้อน ทุกวันนี้ โมเดลที่ทันสมัยที่สุดสำหรับการมองเห็นด้วยคอมพิวเตอร์นั้นอิงจากโครงข่ายประสาทเทียมระดับลึกที่มีพารามิเตอร์หลายล้านตัว และพวกเขาพึ่งพาฮาร์ดแวร์ที่ไม่สามารถใช้ได้เมื่อสิบปีที่แล้ว
ในปี 2555 Alex Krizhevsky et altri เป็นคนแรกที่แสดงวิธีการใช้เครือข่าย Deep Convolutional ซึ่งในขณะนั้นได้กลายเป็นโมเดลที่ทันสมัยในการจำแนกวัตถุ ตั้งแต่นั้นมา ได้มีการเผยแพร่การปรับปรุงมากมายในแบบจำลองดั้งเดิม โดยแต่ละการปรับปรุงมีความแม่นยำเพิ่มขึ้น (VGG, ResNet, Inception เป็นต้น) ล่าสุด โมเดลการเรียนรู้ของเครื่องสามารถบรรลุความแม่นยำของมนุษย์และแม้กระทั่งความถูกต้องเหนือมนุษย์ในงานวิชันซิสเต็มจำนวนมาก
เมื่อสองสามปีก่อน การคาดคะเนที่ผิดพลาดจากโมเดลแมชชีนเลิร์นนิงเคยเป็นบรรทัดฐาน ปัจจุบันนี้ได้กลายเป็นข้อยกเว้น และเราคาดหวังว่าพวกเขาจะทำงานได้อย่างไม่มีที่ติ โดยเฉพาะอย่างยิ่งเมื่อนำไปใช้ในแอปพลิเคชันในโลกแห่งความเป็นจริง
ก่อนหน้านี้ โมเดลแมชชีนเลิร์นนิงมักได้รับการฝึกอบรมและทดสอบในสภาพแวดล้อมของ ห้องปฏิบัติการ เช่น การแข่งขันแมชชีนเลิร์นนิงและเอกสารทางวิชาการ ในปัจจุบัน เมื่อมีการปรับใช้ในสถานการณ์จริง ช่องโหว่ด้านความปลอดภัยที่มาจากข้อผิดพลาดของโมเดลได้กลายเป็นข้อกังวลอย่างแท้จริง
แนวคิดของบทความนี้คือการอธิบายและแสดงให้เห็นว่าเครือข่ายประสาทเทียมระดับลึกล้ำสมัยที่ใช้ในการจดจำภาพสามารถหลอกได้ง่ายโดยผู้ประสงค์ร้าย และทำให้เกิดการคาดคะเนที่ผิดพลาดได้อย่างไร เมื่อเราคุ้นเคยกับกลยุทธ์การโจมตีตามปกติแล้ว เราจะหารือถึงวิธีป้องกันแบบจำลองของเราจากพวกมัน
ตัวอย่างการเรียนรู้ของเครื่องของฝ่ายตรงข้าม
เริ่มต้นด้วยคำถามพื้นฐาน: ตัวอย่างการเรียนรู้ของเครื่องที่เป็นปฏิปักษ์คืออะไร
ตัวอย่างที่เป็นปฏิปักษ์คืออินพุตที่เป็นอันตรายซึ่งออกแบบมาเพื่อหลอกโมเดลการเรียนรู้ของเครื่อง
ในบทความนี้ เราจะจำกัดความสนใจของเราไว้ที่โมเดลการเรียนรู้ของเครื่องที่ทำการจัดประเภทรูปภาพ ดังนั้น ตัวอย่างที่เป็นปฏิปักษ์จะเป็นภาพที่ผู้โจมตีสร้างขึ้นโดยผู้โจมตีซึ่งโมเดลไม่สามารถจำแนกได้อย่างถูกต้อง
ตัวอย่างเช่น ให้เรานำ GoogLeNet ที่ได้รับการฝึกอบรมเกี่ยวกับ ImageNet เพื่อทำการจำแนกรูปภาพเป็นโมเดลการเรียนรู้ของเครื่อง ด้านล่างมีภาพแพนด้า 2 ภาพที่ไม่สามารถแยกแยะได้ด้วยตามนุษย์ รูปภาพทางด้านซ้ายเป็นหนึ่งในอิมเมจที่สะอาดในชุดข้อมูล ImageNet ที่ใช้ในการฝึกโมเดล GoogLeNet ภาพด้านขวาเป็นการดัดแปลงเล็กน้อยของตัวแรก ซึ่งสร้างขึ้นโดยการเพิ่มเวกเตอร์สัญญาณรบกวนในภาพตรงกลาง ภาพแรกคาดการณ์โดยนางแบบจะเป็นหมีแพนด้าตามที่คาดไว้ อย่างที่สอง ถูกคาดการณ์ (ด้วยความมั่นใจสูงมาก) ว่าเป็นชะนี
นอยส์ที่เพิ่มเข้าไปในภาพแรกไม่ใช่แบบสุ่ม แต่เป็นผลลัพธ์ของการเพิ่มประสิทธิภาพอย่างระมัดระวังโดยผู้โจมตี
เป็นตัวอย่างที่สอง เราสามารถดูที่วิธีสังเคราะห์ตัวอย่างที่เป็นปฏิปักษ์ 3 มิติโดยใช้เครื่องพิมพ์ 3 มิติ ภาพด้านล่างแสดงมุมมองต่างๆ ของเต่า 3 มิติที่ผู้เขียนพิมพ์และการจัดประเภทที่ไม่ถูกต้องโดยโมเดล Google Inception v3
โมเดลล้ำสมัยที่มีความแม่นยำในการจำแนกประเภทเหนือมนุษย์ ทำผิดพลาดที่ดูโง่เขลาเช่นนี้ได้อย่างไร
ก่อนที่เราจะเจาะลึกถึงจุดอ่อนที่โมเดลโครงข่ายประสาทเทียมมักจะมี ให้เราจำไว้ว่ามนุษย์เรามีกลุ่มตัวอย่างที่เป็นปฏิปักษ์ของเราเอง ลองดูที่ภาพด้านล่าง คุณเห็นอะไร? เกลียวหรือชุดของวงกลมศูนย์กลาง?
ตัวอย่างที่แตกต่างกันเหล่านี้เผยให้เห็นด้วยว่าโมเดลการเรียนรู้ด้วยเครื่องและการมองเห็นของมนุษย์ต้องใช้การนำเสนอภายในที่แตกต่างกันมากเมื่อทำความเข้าใจว่ามีอะไรอยู่ในภาพ
ในส่วนถัดไป เราจะสำรวจกลยุทธ์เพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์
วิธีสร้างตัวอย่างที่เป็นปฏิปักษ์
เริ่มต้นด้วยคำถามง่ายๆ: อะไรคือตัวอย่างที่เป็นปฏิปักษ์?
ตัวอย่างที่เป็นปฏิปักษ์เกิดขึ้นจากการสร้างภาพที่สะอาดซึ่งโมเดลจัดประเภทอย่างถูกต้อง และพบการรบกวนเล็กน้อยที่ทำให้ภาพใหม่ถูกจัดประเภทโดยแบบจำลอง ML ที่ไม่ถูกต้อง
สมมติว่าผู้โจมตีมีข้อมูลที่สมบูรณ์เกี่ยวกับรูปแบบที่พวกเขาต้องการโจมตี โดยพื้นฐานแล้วหมายความว่าผู้โจมตีสามารถคำนวณฟังก์ชันการสูญเสียของโมเดล $J(\theta, X, y)$ โดยที่ $X$ เป็นอิมเมจอินพุต $y$ คือคลาสเอาต์พุต และ $\theta$ เป็นคลาสภายใน พารามิเตอร์โมเดล ฟังก์ชันการสูญเสียนี้มักจะเป็นโอกาสการสูญเสียเชิงลบสำหรับวิธีการจำแนกประเภท
ภายใต้สถานการณ์สมมติกล่องขาวนี้ มีกลยุทธ์การโจมตีหลายอย่าง แต่ละกลยุทธ์แสดงถึงการแลกเปลี่ยนที่แตกต่างกันระหว่างต้นทุนในการคำนวณในการผลิตและอัตราความสำเร็จ วิธีการทั้งหมดเหล่านี้พยายามเพิ่มการเปลี่ยนแปลงในฟังก์ชันการสูญเสียแบบจำลองให้มากที่สุดโดยที่ยังคงความรบกวนของภาพที่ป้อนเข้าให้น้อย ยิ่งขนาดของพื้นที่ภาพที่ป้อนเข้าสูงเท่าไร ก็ยิ่งง่ายที่จะสร้างตัวอย่างที่เป็นปฏิปักษ์ซึ่งไม่สามารถแยกแยะได้จากภาพที่สะอาดด้วยสายตามนุษย์
วิธี L-BFGS
เราพบ ${x}'$ ของตัวอย่างที่เป็นปฏิปักษ์โดยการแก้ปัญหาการปรับให้เหมาะสมที่มีข้อจำกัดแบบกล่องต่อไปนี้:
โดยที่ $c > 0$ เป็นพารามิเตอร์ที่ต้องแก้ไขด้วย ตามสัญชาตญาณ เราจะมองหารูปภาพที่เป็นปฏิปักษ์ ${x}'$ เพื่อให้ผลรวมถ่วงน้ำหนักของการบิดเบือนเทียบกับภาพที่สะอาด ( $\left | x - {x}' \right |$ ) และการสูญเสียที่เกี่ยวข้องกับ คลาสที่ไม่ถูกต้องเป็นขั้นต่ำที่เป็นไปได้
สำหรับโมเดลที่ซับซ้อน เช่น Deep Neural Network ปัญหาการปรับให้เหมาะสมนั้นไม่มีวิธีแก้ปัญหาแบบปิด ดังนั้นจึงต้องใช้วิธีการเชิงตัวเลขแบบวนซ้ำ ด้วยเหตุนี้ วิธี L-BFGS จึงช้า อย่างไรก็ตาม อัตราความสำเร็จนั้นสูง
เครื่องหมายไล่ระดับอย่างรวดเร็ว (FGS)
ด้วยวิธีเครื่องหมายไล่ระดับสีอย่างรวดเร็ว (FGS) เราทำการประมาณเชิงเส้นของฟังก์ชันการสูญเสียรอบจุดเริ่มต้น โดยกำหนดโดยเวกเตอร์ภาพที่สะอาด $X$ และคลาสจริง $y$
ภายใต้สมมติฐานนี้ ความชันของฟังก์ชันการสูญเสียจะระบุทิศทางที่เราจำเป็นต้องเปลี่ยนเวกเตอร์อินพุตเพื่อสร้างการเปลี่ยนแปลงสูงสุดในการสูญเสีย ในการที่จะรักษาขนาดของสิ่งรบกวนให้เล็กลง เราจะแยกเฉพาะเครื่องหมายของการไล่ระดับสี ไม่ใช่บรรทัดฐานที่แท้จริง แล้วปรับขนาดด้วยเอปซิลอนที่มีปัจจัยเล็กๆ
ด้วยวิธีนี้ เรารับรองว่าความแตกต่างในระดับพิกเซลระหว่างรูปภาพเริ่มต้นกับภาพที่แก้ไขจะน้อยกว่าเอปซิลอนเสมอ (ความแตกต่างนี้คือบรรทัดฐานของ L_infinity)
การไล่ระดับสีสามารถคำนวณได้อย่างมีประสิทธิภาพโดยใช้การขยายพันธุ์ย้อนหลัง วิธีนี้เป็นวิธีที่เร็วและประหยัดที่สุดในการคำนวณ อย่างไรก็ตาม อัตราความสำเร็จต่ำกว่าวิธีการที่มีราคาแพงกว่าอย่าง L-BFGS
ผู้เขียน Adversarial Machine Learning at Scale กล่าวว่ามีอัตราความสำเร็จระหว่าง 63% ถึง 69% จากการคาดการณ์อันดับ 1 สำหรับชุดข้อมูล ImageNet โดยมี epsilon ระหว่าง 2 ถึง 32 สำหรับโมเดลเชิงเส้น เช่น การถดถอยโลจิสติก วิธีเครื่องหมายเกรเดียนต์เร็ว เป็นที่แน่นอน ในกรณีนี้ ผู้เขียนบทความวิจัยอีกฉบับเกี่ยวกับตัวอย่างที่เป็นปฏิปักษ์รายงานอัตราความสำเร็จ 99%

เครื่องหมายการไล่ระดับสีอย่างรวดเร็วซ้ำ
การขยายที่ชัดเจนของวิธีการก่อนหน้านี้คือการใช้หลาย ๆ ครั้งด้วยขนาดขั้นตอนที่เล็กกว่าอัลฟา และตัดความยาวขั้นตอนทั้งหมดเพื่อให้แน่ใจว่าความผิดเพี้ยนระหว่างภาพที่สะอาดและภาพที่ขัดแย้งจะต่ำกว่าเอปซิลอน
เทคนิคอื่นๆ เช่นเดียวกับที่เสนอในบทความของ Nicholas Carlini คือการปรับปรุงเหนือ L-BFGS พวกเขายังมีราคาแพงในการคำนวณ แต่มีอัตราความสำเร็จสูง
อย่างไรก็ตาม ในสถานการณ์จริงส่วนใหญ่ ผู้โจมตีไม่ทราบฟังก์ชันการสูญเสียของโมเดลเป้าหมาย ในกรณีนี้ ผู้โจมตีต้องใช้กลยุทธ์กล่องดำ
การโจมตีกล่องดำ
นักวิจัยได้ตั้งข้อสังเกตซ้ำแล้วซ้ำเล่าว่าตัวอย่างที่เป็นปฏิปักษ์สามารถถ่ายโอนระหว่างแบบจำลองได้ค่อนข้างดี ซึ่งหมายความว่าสามารถออกแบบสำหรับโมเดลเป้าหมาย A ได้ แต่จะจบลงด้วยประสิทธิผลกับโมเดลอื่นๆ ที่ได้รับการฝึกอบรมในชุดข้อมูลที่คล้ายกัน
นี่คือคุณสมบัติที่สามารถถ่ายโอนได้ของตัวอย่างที่เป็นปฏิปักษ์ ซึ่งผู้โจมตีสามารถใช้เพื่อประโยชน์ของตนเมื่อไม่มีการเข้าถึงข้อมูลที่สมบูรณ์เกี่ยวกับโมเดล ผู้โจมตีสามารถสร้างตัวอย่างที่เป็นปฏิปักษ์ได้โดยทำตามขั้นตอนเหล่านี้:
- ค้นหาโมเดลเป้าหมายด้วยอินพุต $X_i$ สำหรับ $i=1…n$ และเก็บผลลัพธ์ $y_i$
- ด้วยข้อมูลการฝึกอบรม $(X_i, y_i)$ ให้สร้างโมเดลอื่นที่เรียกว่า โมเดลทดแทน
- ใช้อัลกอริธึมไวท์บ็อกซ์ที่แสดงด้านบนเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์สำหรับโมเดลทดแทน หลายคนกำลังจะถ่ายโอนได้สำเร็จและกลายเป็นตัวอย่างที่เป็นปฏิปักษ์สำหรับโมเดลเป้าหมายเช่นกัน
การนำกลยุทธ์นี้ไปใช้อย่างประสบความสำเร็จกับโมเดลแมชชีนเลิร์นนิงเชิงพาณิชย์ได้นำเสนอในเอกสารของมูลนิธิ Computer Vision Foundation
การป้องกันตัวอย่างจากฝ่ายตรงข้าม
ผู้โจมตีสร้างการโจมตีโดยใช้ประโยชน์จากข้อมูลทั้งหมดที่พวกเขามีเกี่ยวกับโมเดล เห็นได้ชัดว่า ยิ่งโมเดลแสดงข้อมูลออกมาในเวลาคาดการณ์น้อยลงเท่าใด ผู้โจมตีก็จะยิ่งสร้างการโจมตีที่ประสบความสำเร็จได้ยากขึ้นเท่านั้น
มาตรการง่ายๆ ประการแรกในการปกป้องแบบจำลองการจัดประเภทของคุณในสภาพแวดล้อมการผลิตคือการหลีกเลี่ยงการแสดงคะแนนความเชื่อมั่นสำหรับแต่ละชั้นเรียนที่คาดการณ์ไว้ แบบจำลองควรระบุเฉพาะคลาสที่มีแนวโน้มมากที่สุดของ $N$ (เช่น 5) เท่านั้น เมื่อให้คะแนนความมั่นใจแก่ผู้ใช้แล้ว ผู้โจมตีที่ประสงค์ร้ายสามารถใช้คะแนนดังกล่าวเพื่อประเมินระดับความชันของฟังก์ชันการสูญเสียเป็นตัวเลขได้ ด้วยวิธีนี้ ผู้โจมตีสามารถสร้างการโจมตีแบบกล่องขาวได้โดยใช้วิธีการ เช่น วิธีการลงป้ายแบบไล่ระดับอย่างรวดเร็ว ในรายงานของ Computer Vision Foundation ที่เราได้ยกมาก่อนหน้านี้ ผู้เขียนได้แสดงวิธีการทำเช่นนี้กับโมเดลการเรียนรู้ของเครื่องเชิงพาณิชย์
ให้เราดูการป้องกันสองข้อที่ได้รับการเสนอในวรรณคดี
การกลั่นเชิงป้องกัน
วิธีนี้พยายามสร้างโมเดลใหม่ที่มีการไล่ระดับสีน้อยกว่าโมเดลเดิมที่ไม่มีการป้องกันมาก หากการไล่ระดับสีมีขนาดเล็กมาก เทคนิคเช่น FGS หรือ Iterative FGS จะไม่มีประโยชน์อีกต่อไป เนื่องจากผู้โจมตีจะต้องบิดเบือนอย่างมากของภาพที่ป้อนเข้า เพื่อให้เกิดการเปลี่ยนแปลงที่เพียงพอในฟังก์ชันการสูญเสีย
การกลั่นเชิงป้องกันแนะนำพารามิเตอร์ใหม่ $T$ ที่เรียกว่า อุณหภูมิ ไปยังเลเยอร์ softmax สุดท้ายของเครือข่าย:
โปรดทราบว่าสำหรับ T=1 เรามีฟังก์ชัน softmax ปกติ ยิ่งค่าของ $T$ สูง การไล่ระดับสีของการสูญเสียก็จะน้อยลงตามภาพที่นำเข้า
การกลั่นเชิงป้องกันดำเนินการดังนี้:
- ฝึกอบรมเครือข่ายที่เรียกว่าเครือข่ายครูที่มีอุณหภูมิ $T » 1$
- ใช้เครือข่ายครูที่ได้รับการฝึกอบรมเพื่อสร้างป้ายชื่อแบบนุ่มนวลสำหรับแต่ละภาพในชุดฝึกอบรม ซอฟต์เลเบลสำหรับรูปภาพคือชุดของความน่าจะเป็นที่โมเดลกำหนดให้กับแต่ละคลาส ตัวอย่างเช่น หากภาพที่ส่งออกคือนกแก้ว โมเดลครูอาจแสดงป้ายกำกับแบบนุ่มนวล เช่น (นกแก้ว 90%, ปาปากาโย 10%)
- ฝึกเครือข่ายที่สอง เครือข่าย กลั่น บนซอฟต์เลเบล โดยใช้อุณหภูมิ $T$ อีกครั้ง การฝึกอบรมด้วยซอฟต์เลเบลเป็นเทคนิคที่ลดการโอเวอร์ฟิตและปรับปรุงความถูกต้องแม่นยำของเครือข่ายกลั่น
- สุดท้าย ในเวลาคาดการณ์ เรียกใช้เครือข่ายกลั่นด้วยอุณหภูมิ $T=1$
Defensive Distillation ประสบความสำเร็จในการปกป้องเครือข่ายจากชุดของการโจมตีที่พยายามใน การกลั่นเพื่อเป็นการป้องกันการรบกวนจากฝ่ายตรงข้ามกับ Deep Neural Networks
น่าเสียดายที่รายงานฉบับต่อมาของมหาวิทยาลัยแห่งแคลิฟอร์เนีย นักวิจัยของ Berkeley ได้นำเสนอวิธีการโจมตีชุดใหม่ที่เอาชนะการกลั่นแบบตั้งรับ การโจมตีเหล่านี้เป็นการปรับปรุงเหนือวิธี L-BFGS ที่พิสูจน์ว่าการกลั่นแบบตั้งรับไม่ใช่วิธีแก้ปัญหาทั่วไปสำหรับตัวอย่างที่เป็นปฏิปักษ์
การฝึกปรปักษ์
ปัจจุบันการฝึกปรปักษ์เป็นกลยุทธ์การป้องกันที่มีประสิทธิภาพมากที่สุด ตัวอย่างที่เป็นปฏิปักษ์จะถูกสร้างขึ้นและใช้เมื่อฝึกโมเดล ตามสัญชาตญาณแล้ว หากแบบจำลอง เห็น ตัวอย่างที่เป็นปฏิปักษ์ระหว่างการฝึก ประสิทธิภาพ ณ เวลาคาดการณ์จะดีกว่าสำหรับตัวอย่างฝ่ายตรงข้ามที่สร้างขึ้นในลักษณะเดียวกัน
ตามหลักการแล้ว เราต้องการใช้วิธีการโจมตีที่รู้จักเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ระหว่างการฝึก อย่างไรก็ตาม สำหรับชุดข้อมูลขนาดใหญ่ที่มีวิธีการโจมตีที่มีมิติสูง (เช่น ImageNet) เช่น L-BFGS และการปรับปรุงที่อธิบายไว้ในเอกสารของ Berkeley นั้นมีค่าใช้จ่ายในการคำนวณสูงเกินไป ในทางปฏิบัติ เราสามารถใช้วิธีที่รวดเร็วเช่น FGS หรือ FGS แบบวนซ้ำเท่านั้นที่สามารถใช้ได้
การฝึกปรปักษ์ใช้ฟังก์ชันการสูญเสียที่แก้ไขแล้ว ซึ่งเป็นผลรวมถ่วงน้ำหนักของฟังก์ชันการสูญเสียตามปกติในตัวอย่างที่ชัดเจนและฟังก์ชันการสูญเสียจากตัวอย่างที่เป็นปฏิปักษ์
ระหว่างการฝึก ทุกชุดของภาพที่สะอาด $m$ เราสร้างภาพฝ่ายตรงข้าม $k$ โดยใช้สถานะปัจจุบันของเครือข่าย เราส่งต่อการเผยแพร่เครือข่ายทั้งตัวอย่างที่ชัดเจนและฝ่ายตรงข้ามและคำนวณการสูญเสียด้วยสูตรข้างต้น
การปรับปรุงอัลกอริธึมที่นำเสนอในเอกสารการประชุมนี้เรียกว่าการฝึกอบรมฝ่ายตรงข้ามทั้งมวล แทนที่จะใช้เครือข่ายปัจจุบันเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ จะมีการใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าหลายแบบเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ บน ImageNet วิธีนี้จะเพิ่มความแข็งแกร่งของเครือข่ายต่อการโจมตีแบบกล่องดำ การป้องกันนี้เป็นผู้ชนะของรอบที่ 1 ในการ แข่งขัน NIPS 2017 เรื่อง Defenses Against Adversarial Attacks
ข้อสรุปและขั้นตอนเพิ่มเติม
ณ วันนี้ การโจมตีโมเดลแมชชีนเลิร์นนิงง่ายกว่าการป้องกัน โมเดลล้ำสมัยที่ใช้ในการใช้งานจริงจะถูกหลอกโดยตัวอย่างจากฝ่ายตรงข้าม หากไม่มีการใช้กลยุทธ์ในการป้องกัน ซึ่งเปิดประตูสู่ปัญหาด้านความปลอดภัยที่อาจร้ายแรง กลยุทธ์การป้องกันที่น่าเชื่อถือที่สุดคือการฝึกปรปักษ์ โดยจะมีการสร้างตัวอย่างฝ่ายตรงข้ามและเพิ่มตัวอย่างที่ชัดเจนในเวลาฝึก
หากคุณต้องการประเมินความแข็งแกร่งของแบบจำลองการจัดประเภทรูปภาพของคุณกับการโจมตีแบบต่างๆ เราขอแนะนำให้คุณใช้ไลบรารี Python แบบโอเพนซอร์สที่ฉลาด วิธีการโจมตีหลายวิธีสามารถทดสอบกับโมเดลของคุณได้ ซึ่งรวมถึงวิธีที่กล่าวถึงในบทความนี้ คุณยังสามารถใช้ไลบรารีนี้เพื่อฝึกโมเดลของคุณสำหรับฝ่ายตรงข้าม และเพิ่มความแข็งแกร่งให้กับตัวอย่างที่เป็นปฏิปักษ์
การค้นหาการโจมตีใหม่และกลยุทธ์การป้องกันที่ดีขึ้นเป็นพื้นที่ของการวิจัย จำเป็นต้องมีทั้งงานเชิงทฤษฎีและเชิงประจักษ์เพื่อทำให้โมเดลการเรียนรู้ของเครื่องมีประสิทธิภาพและปลอดภัยยิ่งขึ้นในการใช้งานจริง
ฉันขอแนะนำให้ผู้อ่านทดลองเทคนิคเหล่านี้และเผยแพร่ผลลัพธ์ใหม่ที่น่าสนใจ นอกจากนี้ ผู้เขียนยินดีรับคำติชมใดๆ เกี่ยวกับบทความปัจจุบัน
- โมเดล AI ของเสียงลอจิกและโมโนโทนิก
- แอปพลิเคชั่น Gradient Descent มากมายใน TensorFlow