แมชชีนเลิร์นนิงของฝ่ายตรงข้าม: วิธีโจมตีและปกป้องโมเดล ML

เผยแพร่แล้ว: 2022-03-11

ทุกวันนี้ โมเดลแมชชีนเลิร์นนิงในคอมพิวเตอร์วิทัศน์ถูกนำมาใช้ในการใช้งานจริงหลายอย่าง เช่น รถยนต์ที่ขับด้วยตนเอง การจดจำใบหน้า การวินิจฉัยโรคมะเร็ง หรือแม้แต่ในร้านค้ายุคใหม่ เพื่อติดตามว่าลูกค้านำผลิตภัณฑ์ใดออกจากชั้นวาง บัตรสามารถเรียกเก็บเงินได้เมื่อออก

ความแม่นยำที่เพิ่มขึ้นของระบบการเรียนรู้ของเครื่องเหล่านี้ค่อนข้างน่าประทับใจ ดังนั้นจึงทำให้เกิดแอปพลิเคชันจำนวนมากขึ้นโดยธรรมชาติ แม้ว่าพื้นฐานทางคณิตศาสตร์เบื้องหลังจะได้รับการศึกษาเมื่อไม่กี่ทศวรรษก่อน แต่การถือกำเนิดของ GPU ที่ทรงพลังเมื่อไม่นานมานี้ทำให้นักวิจัยมีพลังในการคำนวณที่จำเป็นในการทดลองและสร้างระบบการเรียนรู้ด้วยเครื่องที่ซับซ้อน ทุกวันนี้ โมเดลที่ทันสมัยที่สุดสำหรับการมองเห็นด้วยคอมพิวเตอร์นั้นอิงจากโครงข่ายประสาทเทียมระดับลึกที่มีพารามิเตอร์หลายล้านตัว และพวกเขาพึ่งพาฮาร์ดแวร์ที่ไม่สามารถใช้ได้เมื่อสิบปีที่แล้ว

ในปี 2555 Alex Krizhevsky et altri เป็นคนแรกที่แสดงวิธีการใช้เครือข่าย Deep Convolutional ซึ่งในขณะนั้นได้กลายเป็นโมเดลที่ทันสมัยในการจำแนกวัตถุ ตั้งแต่นั้นมา ได้มีการเผยแพร่การปรับปรุงมากมายในแบบจำลองดั้งเดิม โดยแต่ละการปรับปรุงมีความแม่นยำเพิ่มขึ้น (VGG, ResNet, Inception เป็นต้น) ล่าสุด โมเดลการเรียนรู้ของเครื่องสามารถบรรลุความแม่นยำของมนุษย์และแม้กระทั่งความถูกต้องเหนือมนุษย์ในงานวิชันซิสเต็มจำนวนมาก

เมื่อสองสามปีก่อน การคาดคะเนที่ผิดพลาดจากโมเดลแมชชีนเลิร์นนิงเคยเป็นบรรทัดฐาน ปัจจุบันนี้ได้กลายเป็นข้อยกเว้น และเราคาดหวังว่าพวกเขาจะทำงานได้อย่างไม่มีที่ติ โดยเฉพาะอย่างยิ่งเมื่อนำไปใช้ในแอปพลิเคชันในโลกแห่งความเป็นจริง

ก่อนหน้านี้ โมเดลแมชชีนเลิร์นนิงมักได้รับการฝึกอบรมและทดสอบในสภาพแวดล้อมของ ห้องปฏิบัติการ เช่น การแข่งขันแมชชีนเลิร์นนิงและเอกสารทางวิชาการ ในปัจจุบัน เมื่อมีการปรับใช้ในสถานการณ์จริง ช่องโหว่ด้านความปลอดภัยที่มาจากข้อผิดพลาดของโมเดลได้กลายเป็นข้อกังวลอย่างแท้จริง

แนวคิดของบทความนี้คือการอธิบายและแสดงให้เห็นว่าเครือข่ายประสาทเทียมระดับลึกล้ำสมัยที่ใช้ในการจดจำภาพสามารถหลอกได้ง่ายโดยผู้ประสงค์ร้าย และทำให้เกิดการคาดคะเนที่ผิดพลาดได้อย่างไร เมื่อเราคุ้นเคยกับกลยุทธ์การโจมตีตามปกติแล้ว เราจะหารือถึงวิธีป้องกันแบบจำลองของเราจากพวกมัน

ตัวอย่างการเรียนรู้ของเครื่องของฝ่ายตรงข้าม

เริ่มต้นด้วยคำถามพื้นฐาน: ตัวอย่างการเรียนรู้ของเครื่องที่เป็นปฏิปักษ์คืออะไร

ตัวอย่างที่เป็นปฏิปักษ์คืออินพุตที่เป็นอันตรายซึ่งออกแบบมาเพื่อหลอกโมเดลการเรียนรู้ของเครื่อง

ในบทความนี้ เราจะจำกัดความสนใจของเราไว้ที่โมเดลการเรียนรู้ของเครื่องที่ทำการจัดประเภทรูปภาพ ดังนั้น ตัวอย่างที่เป็นปฏิปักษ์จะเป็นภาพที่ผู้โจมตีสร้างขึ้นโดยผู้โจมตีซึ่งโมเดลไม่สามารถจำแนกได้อย่างถูกต้อง

ตัวอย่างเช่น ให้เรานำ GoogLeNet ที่ได้รับการฝึกอบรมเกี่ยวกับ ImageNet เพื่อทำการจำแนกรูปภาพเป็นโมเดลการเรียนรู้ของเครื่อง ด้านล่างมีภาพแพนด้า 2 ภาพที่ไม่สามารถแยกแยะได้ด้วยตามนุษย์ รูปภาพทางด้านซ้ายเป็นหนึ่งในอิมเมจที่สะอาดในชุดข้อมูล ImageNet ที่ใช้ในการฝึกโมเดล GoogLeNet ภาพด้านขวาเป็นการดัดแปลงเล็กน้อยของตัวแรก ซึ่งสร้างขึ้นโดยการเพิ่มเวกเตอร์สัญญาณรบกวนในภาพตรงกลาง ภาพแรกคาดการณ์โดยนางแบบจะเป็นหมีแพนด้าตามที่คาดไว้ อย่างที่สอง ถูกคาดการณ์ (ด้วยความมั่นใจสูงมาก) ว่าเป็นชะนี

สองภาพเคียงข้างกันของหมีแพนด้า ภาพที่สองดูเหมือนกับภาพแรก แต่มีป้ายกำกับว่าเป็นสัตว์อื่น ภาพที่สามของสิ่งที่ดูเหมือนสแตติกแบบสุ่มคือระหว่างภาพ แสดงให้เห็นถึงเลเยอร์ที่เพิ่มเข้าไปในภาพแพนด้าที่สองเพื่อสร้างความสับสนให้กับโมเดล

นอยส์ที่เพิ่มเข้าไปในภาพแรกไม่ใช่แบบสุ่ม แต่เป็นผลลัพธ์ของการเพิ่มประสิทธิภาพอย่างระมัดระวังโดยผู้โจมตี

เป็นตัวอย่างที่สอง เราสามารถดูที่วิธีสังเคราะห์ตัวอย่างที่เป็นปฏิปักษ์ 3 มิติโดยใช้เครื่องพิมพ์ 3 มิติ ภาพด้านล่างแสดงมุมมองต่างๆ ของเต่า 3 มิติที่ผู้เขียนพิมพ์และการจัดประเภทที่ไม่ถูกต้องโดยโมเดล Google Inception v3

ภาพแสดงตารางภาพเต่า ซึ่งบางภาพจัดว่าเป็นเต่าอย่างถูกต้อง บางภาพจัดประเภทเป็นปืนไรเฟิล และบางภาพจัดประเภทเป็นภาพอื่นๆ

โมเดลล้ำสมัยที่มีความแม่นยำในการจำแนกประเภทเหนือมนุษย์ ทำผิดพลาดที่ดูโง่เขลาเช่นนี้ได้อย่างไร

ก่อนที่เราจะเจาะลึกถึงจุดอ่อนที่โมเดลโครงข่ายประสาทเทียมมักจะมี ให้เราจำไว้ว่ามนุษย์เรามีกลุ่มตัวอย่างที่เป็นปฏิปักษ์ของเราเอง ลองดูที่ภาพด้านล่าง คุณเห็นอะไร? เกลียวหรือชุดของวงกลมศูนย์กลาง?

ตัวอย่างที่แตกต่างกันเหล่านี้เผยให้เห็นด้วยว่าโมเดลการเรียนรู้ด้วยเครื่องและการมองเห็นของมนุษย์ต้องใช้การนำเสนอภายในที่แตกต่างกันมากเมื่อทำความเข้าใจว่ามีอะไรอยู่ในภาพ

ในส่วนถัดไป เราจะสำรวจกลยุทธ์เพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์

วิธีสร้างตัวอย่างที่เป็นปฏิปักษ์

เริ่มต้นด้วยคำถามง่ายๆ: อะไรคือตัวอย่างที่เป็นปฏิปักษ์?

ตัวอย่างที่เป็นปฏิปักษ์เกิดขึ้นจากการสร้างภาพที่สะอาดซึ่งโมเดลจัดประเภทอย่างถูกต้อง และพบการรบกวนเล็กน้อยที่ทำให้ภาพใหม่ถูกจัดประเภทโดยแบบจำลอง ML ที่ไม่ถูกต้อง

สมมติว่าผู้โจมตีมีข้อมูลที่สมบูรณ์เกี่ยวกับรูปแบบที่พวกเขาต้องการโจมตี โดยพื้นฐานแล้วหมายความว่าผู้โจมตีสามารถคำนวณฟังก์ชันการสูญเสียของโมเดล $J(\theta, X, y)$ โดยที่ $X$ เป็นอิมเมจอินพุต $y$ คือคลาสเอาต์พุต และ $\theta$ เป็นคลาสภายใน พารามิเตอร์โมเดล ฟังก์ชันการสูญเสียนี้มักจะเป็นโอกาสการสูญเสียเชิงลบสำหรับวิธีการจำแนกประเภท

ภายใต้สถานการณ์สมมติกล่องขาวนี้ มีกลยุทธ์การโจมตีหลายอย่าง แต่ละกลยุทธ์แสดงถึงการแลกเปลี่ยนที่แตกต่างกันระหว่างต้นทุนในการคำนวณในการผลิตและอัตราความสำเร็จ วิธีการทั้งหมดเหล่านี้พยายามเพิ่มการเปลี่ยนแปลงในฟังก์ชันการสูญเสียแบบจำลองให้มากที่สุดโดยที่ยังคงความรบกวนของภาพที่ป้อนเข้าให้น้อย ยิ่งขนาดของพื้นที่ภาพที่ป้อนเข้าสูงเท่าไร ก็ยิ่งง่ายที่จะสร้างตัวอย่างที่เป็นปฏิปักษ์ซึ่งไม่สามารถแยกแยะได้จากภาพที่สะอาดด้วยสายตามนุษย์

วิธี L-BFGS

เราพบ ${x}'$ ของตัวอย่างที่เป็นปฏิปักษ์โดยการแก้ปัญหาการปรับให้เหมาะสมที่มีข้อจำกัดแบบกล่องต่อไปนี้:

$$ \begin{matrix} \text{ย่อเล็กสุด } c \cdot \left \| x - {x}' \right \|^2_2 + \text{loss}_{f,1} {x}' \\ \text{เช่นว่า } {x}' \epsilon \left [0, 1 \right ]^n \end{เมทริกซ์} $$

โดยที่ $c > 0$ เป็นพารามิเตอร์ที่ต้องแก้ไขด้วย ตามสัญชาตญาณ เราจะมองหารูปภาพที่เป็นปฏิปักษ์ ${x}'$ เพื่อให้ผลรวมถ่วงน้ำหนักของการบิดเบือนเทียบกับภาพที่สะอาด ( $\left | x - {x}' \right |$ ) และการสูญเสียที่เกี่ยวข้องกับ คลาสที่ไม่ถูกต้องเป็นขั้นต่ำที่เป็นไปได้

สำหรับโมเดลที่ซับซ้อน เช่น Deep Neural Network ปัญหาการปรับให้เหมาะสมนั้นไม่มีวิธีแก้ปัญหาแบบปิด ดังนั้นจึงต้องใช้วิธีการเชิงตัวเลขแบบวนซ้ำ ด้วยเหตุนี้ วิธี L-BFGS จึงช้า อย่างไรก็ตาม อัตราความสำเร็จนั้นสูง

เครื่องหมายไล่ระดับอย่างรวดเร็ว (FGS)

ด้วยวิธีเครื่องหมายไล่ระดับสีอย่างรวดเร็ว (FGS) เราทำการประมาณเชิงเส้นของฟังก์ชันการสูญเสียรอบจุดเริ่มต้น โดยกำหนดโดยเวกเตอร์ภาพที่สะอาด $X$ และคลาสจริง $y$

ภายใต้สมมติฐานนี้ ความชันของฟังก์ชันการสูญเสียจะระบุทิศทางที่เราจำเป็นต้องเปลี่ยนเวกเตอร์อินพุตเพื่อสร้างการเปลี่ยนแปลงสูงสุดในการสูญเสีย ในการที่จะรักษาขนาดของสิ่งรบกวนให้เล็กลง เราจะแยกเฉพาะเครื่องหมายของการไล่ระดับสี ไม่ใช่บรรทัดฐานที่แท้จริง แล้วปรับขนาดด้วยเอปซิลอนที่มีปัจจัยเล็กๆ

ด้วยวิธีนี้ เรารับรองว่าความแตกต่างในระดับพิกเซลระหว่างรูปภาพเริ่มต้นกับภาพที่แก้ไขจะน้อยกว่าเอปซิลอนเสมอ (ความแตกต่างนี้คือบรรทัดฐานของ L_infinity)

$$ X^{adv} = X + \epsilon \text{ sign} \left( \bigtriangledown_x J \left( X, y_{true} \right) \right) $$

การไล่ระดับสีสามารถคำนวณได้อย่างมีประสิทธิภาพโดยใช้การขยายพันธุ์ย้อนหลัง วิธีนี้เป็นวิธีที่เร็วและประหยัดที่สุดในการคำนวณ อย่างไรก็ตาม อัตราความสำเร็จต่ำกว่าวิธีการที่มีราคาแพงกว่าอย่าง L-BFGS

ผู้เขียน Adversarial Machine Learning at Scale กล่าวว่ามีอัตราความสำเร็จระหว่าง 63% ถึง 69% จากการคาดการณ์อันดับ 1 สำหรับชุดข้อมูล ImageNet โดยมี epsilon ระหว่าง 2 ถึง 32 สำหรับโมเดลเชิงเส้น เช่น การถดถอยโลจิสติก วิธีเครื่องหมายเกรเดียนต์เร็ว เป็นที่แน่นอน ในกรณีนี้ ผู้เขียนบทความวิจัยอีกฉบับเกี่ยวกับตัวอย่างที่เป็นปฏิปักษ์รายงานอัตราความสำเร็จ 99%

เครื่องหมายการไล่ระดับสีอย่างรวดเร็วซ้ำ

การขยายที่ชัดเจนของวิธีการก่อนหน้านี้คือการใช้หลาย ๆ ครั้งด้วยขนาดขั้นตอนที่เล็กกว่าอัลฟา และตัดความยาวขั้นตอนทั้งหมดเพื่อให้แน่ใจว่าความผิดเพี้ยนระหว่างภาพที่สะอาดและภาพที่ขัดแย้งจะต่ำกว่าเอปซิลอน

$$ X^{adv}_0 = X, X^{adv}_{N + 1} = คลิป_{X, \epsilon} \left\{ X^{adv}_{N} + \alpha \text{ sign } \left( \bigtriangledown_X J \left( X^{adv}_N, y_{true} \right) \right) \right\} $$

เทคนิคอื่นๆ เช่นเดียวกับที่เสนอในบทความของ Nicholas Carlini คือการปรับปรุงเหนือ L-BFGS พวกเขายังมีราคาแพงในการคำนวณ แต่มีอัตราความสำเร็จสูง

อย่างไรก็ตาม ในสถานการณ์จริงส่วนใหญ่ ผู้โจมตีไม่ทราบฟังก์ชันการสูญเสียของโมเดลเป้าหมาย ในกรณีนี้ ผู้โจมตีต้องใช้กลยุทธ์กล่องดำ

การโจมตีกล่องดำ

นักวิจัยได้ตั้งข้อสังเกตซ้ำแล้วซ้ำเล่าว่าตัวอย่างที่เป็นปฏิปักษ์สามารถถ่ายโอนระหว่างแบบจำลองได้ค่อนข้างดี ซึ่งหมายความว่าสามารถออกแบบสำหรับโมเดลเป้าหมาย A ได้ แต่จะจบลงด้วยประสิทธิผลกับโมเดลอื่นๆ ที่ได้รับการฝึกอบรมในชุดข้อมูลที่คล้ายกัน

นี่คือคุณสมบัติที่สามารถถ่ายโอนได้ของตัวอย่างที่เป็นปฏิปักษ์ ซึ่งผู้โจมตีสามารถใช้เพื่อประโยชน์ของตนเมื่อไม่มีการเข้าถึงข้อมูลที่สมบูรณ์เกี่ยวกับโมเดล ผู้โจมตีสามารถสร้างตัวอย่างที่เป็นปฏิปักษ์ได้โดยทำตามขั้นตอนเหล่านี้:

ค้นหาโมเดลเป้าหมายด้วยอินพุต $X_i$ สำหรับ $i=1…n$ และเก็บผลลัพธ์ $y_i$
ด้วยข้อมูลการฝึกอบรม $(X_i, y_i)$ ให้สร้างโมเดลอื่นที่เรียกว่า โมเดลทดแทน
ใช้อัลกอริธึมไวท์บ็อกซ์ที่แสดงด้านบนเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์สำหรับโมเดลทดแทน หลายคนกำลังจะถ่ายโอนได้สำเร็จและกลายเป็นตัวอย่างที่เป็นปฏิปักษ์สำหรับโมเดลเป้าหมายเช่นกัน

การนำกลยุทธ์นี้ไปใช้อย่างประสบความสำเร็จกับโมเดลแมชชีนเลิร์นนิงเชิงพาณิชย์ได้นำเสนอในเอกสารของมูลนิธิ Computer Vision Foundation

การป้องกันตัวอย่างจากฝ่ายตรงข้าม

ผู้โจมตีสร้างการโจมตีโดยใช้ประโยชน์จากข้อมูลทั้งหมดที่พวกเขามีเกี่ยวกับโมเดล เห็นได้ชัดว่า ยิ่งโมเดลแสดงข้อมูลออกมาในเวลาคาดการณ์น้อยลงเท่าใด ผู้โจมตีก็จะยิ่งสร้างการโจมตีที่ประสบความสำเร็จได้ยากขึ้นเท่านั้น

มาตรการง่ายๆ ประการแรกในการปกป้องแบบจำลองการจัดประเภทของคุณในสภาพแวดล้อมการผลิตคือการหลีกเลี่ยงการแสดงคะแนนความเชื่อมั่นสำหรับแต่ละชั้นเรียนที่คาดการณ์ไว้ แบบจำลองควรระบุเฉพาะคลาสที่มีแนวโน้มมากที่สุดของ $N$ (เช่น 5) เท่านั้น เมื่อให้คะแนนความมั่นใจแก่ผู้ใช้แล้ว ผู้โจมตีที่ประสงค์ร้ายสามารถใช้คะแนนดังกล่าวเพื่อประเมินระดับความชันของฟังก์ชันการสูญเสียเป็นตัวเลขได้ ด้วยวิธีนี้ ผู้โจมตีสามารถสร้างการโจมตีแบบกล่องขาวได้โดยใช้วิธีการ เช่น วิธีการลงป้ายแบบไล่ระดับอย่างรวดเร็ว ในรายงานของ Computer Vision Foundation ที่เราได้ยกมาก่อนหน้านี้ ผู้เขียนได้แสดงวิธีการทำเช่นนี้กับโมเดลการเรียนรู้ของเครื่องเชิงพาณิชย์

ให้เราดูการป้องกันสองข้อที่ได้รับการเสนอในวรรณคดี

การกลั่นเชิงป้องกัน

วิธีนี้พยายามสร้างโมเดลใหม่ที่มีการไล่ระดับสีน้อยกว่าโมเดลเดิมที่ไม่มีการป้องกันมาก หากการไล่ระดับสีมีขนาดเล็กมาก เทคนิคเช่น FGS หรือ Iterative FGS จะไม่มีประโยชน์อีกต่อไป เนื่องจากผู้โจมตีจะต้องบิดเบือนอย่างมากของภาพที่ป้อนเข้า เพื่อให้เกิดการเปลี่ยนแปลงที่เพียงพอในฟังก์ชันการสูญเสีย

การกลั่นเชิงป้องกันแนะนำพารามิเตอร์ใหม่ $T$ ที่เรียกว่า อุณหภูมิ ไปยังเลเยอร์ softmax สุดท้ายของเครือข่าย:

$$ \text{softmax} \left( x, T \right)_i = \frac{e^{x_i/T}}{\Sigma_j e^{x_j/T}} $$

โปรดทราบว่าสำหรับ T=1 เรามีฟังก์ชัน softmax ปกติ ยิ่งค่าของ $T$ สูง การไล่ระดับสีของการสูญเสียก็จะน้อยลงตามภาพที่นำเข้า

การกลั่นเชิงป้องกันดำเนินการดังนี้:

ฝึกอบรมเครือข่ายที่เรียกว่าเครือข่ายครูที่มีอุณหภูมิ $T » 1$
ใช้เครือข่ายครูที่ได้รับการฝึกอบรมเพื่อสร้างป้ายชื่อแบบนุ่มนวลสำหรับแต่ละภาพในชุดฝึกอบรม ซอฟต์เลเบลสำหรับรูปภาพคือชุดของความน่าจะเป็นที่โมเดลกำหนดให้กับแต่ละคลาส ตัวอย่างเช่น หากภาพที่ส่งออกคือนกแก้ว โมเดลครูอาจแสดงป้ายกำกับแบบนุ่มนวล เช่น (นกแก้ว 90%, ปาปากาโย 10%)
ฝึกเครือข่ายที่สอง เครือข่าย กลั่น บนซอฟต์เลเบล โดยใช้อุณหภูมิ $T$ อีกครั้ง การฝึกอบรมด้วยซอฟต์เลเบลเป็นเทคนิคที่ลดการโอเวอร์ฟิตและปรับปรุงความถูกต้องแม่นยำของเครือข่ายกลั่น
สุดท้าย ในเวลาคาดการณ์ เรียกใช้เครือข่ายกลั่นด้วยอุณหภูมิ $T=1$

Defensive Distillation ประสบความสำเร็จในการปกป้องเครือข่ายจากชุดของการโจมตีที่พยายามใน การกลั่นเพื่อเป็นการป้องกันการรบกวนจากฝ่ายตรงข้ามกับ Deep Neural Networks

รูปภาพของตารางแสดงอัตราความสำเร็จตามอุณหภูมิการกลั่น โดยทั่วไป ยิ่งอุณหภูมิสูงขึ้น อัตราความสำเร็จก็จะยิ่งต่ำลงสำหรับทั้งตัวอย่างที่เป็นปฏิปักษ์ของ MNIST และ CIFAR10

น่าเสียดายที่รายงานฉบับต่อมาของมหาวิทยาลัยแห่งแคลิฟอร์เนีย นักวิจัยของ Berkeley ได้นำเสนอวิธีการโจมตีชุดใหม่ที่เอาชนะการกลั่นแบบตั้งรับ การโจมตีเหล่านี้เป็นการปรับปรุงเหนือวิธี L-BFGS ที่พิสูจน์ว่าการกลั่นแบบตั้งรับไม่ใช่วิธีแก้ปัญหาทั่วไปสำหรับตัวอย่างที่เป็นปฏิปักษ์

การฝึกปรปักษ์

ปัจจุบันการฝึกปรปักษ์เป็นกลยุทธ์การป้องกันที่มีประสิทธิภาพมากที่สุด ตัวอย่างที่เป็นปฏิปักษ์จะถูกสร้างขึ้นและใช้เมื่อฝึกโมเดล ตามสัญชาตญาณแล้ว หากแบบจำลอง เห็น ตัวอย่างที่เป็นปฏิปักษ์ระหว่างการฝึก ประสิทธิภาพ ณ เวลาคาดการณ์จะดีกว่าสำหรับตัวอย่างฝ่ายตรงข้ามที่สร้างขึ้นในลักษณะเดียวกัน

ตามหลักการแล้ว เราต้องการใช้วิธีการโจมตีที่รู้จักเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ระหว่างการฝึก อย่างไรก็ตาม สำหรับชุดข้อมูลขนาดใหญ่ที่มีวิธีการโจมตีที่มีมิติสูง (เช่น ImageNet) เช่น L-BFGS และการปรับปรุงที่อธิบายไว้ในเอกสารของ Berkeley นั้นมีค่าใช้จ่ายในการคำนวณสูงเกินไป ในทางปฏิบัติ เราสามารถใช้วิธีที่รวดเร็วเช่น FGS หรือ FGS แบบวนซ้ำเท่านั้นที่สามารถใช้ได้

การฝึกปรปักษ์ใช้ฟังก์ชันการสูญเสียที่แก้ไขแล้ว ซึ่งเป็นผลรวมถ่วงน้ำหนักของฟังก์ชันการสูญเสียตามปกติในตัวอย่างที่ชัดเจนและฟังก์ชันการสูญเสียจากตัวอย่างที่เป็นปฏิปักษ์

$$ Loss = \frac{1}{\left( m - k \right)} \left( \sum_{i \epsilon CLEAN} {L \left( X_i | y_i \right) + \lambda} \sum_{i \epsilon ADV} {L \left( X*{adv}_i | y_i \right)} \right) $$

ระหว่างการฝึก ทุกชุดของภาพที่สะอาด $m$ เราสร้างภาพฝ่ายตรงข้าม $k$ โดยใช้สถานะปัจจุบันของเครือข่าย เราส่งต่อการเผยแพร่เครือข่ายทั้งตัวอย่างที่ชัดเจนและฝ่ายตรงข้ามและคำนวณการสูญเสียด้วยสูตรข้างต้น

การปรับปรุงอัลกอริธึมที่นำเสนอในเอกสารการประชุมนี้เรียกว่าการฝึกอบรมฝ่ายตรงข้ามทั้งมวล แทนที่จะใช้เครือข่ายปัจจุบันเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ จะมีการใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าหลายแบบเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ บน ImageNet วิธีนี้จะเพิ่มความแข็งแกร่งของเครือข่ายต่อการโจมตีแบบกล่องดำ การป้องกันนี้เป็นผู้ชนะของรอบที่ 1 ในการ แข่งขัน NIPS 2017 เรื่อง Defenses Against Adversarial Attacks

ข้อสรุปและขั้นตอนเพิ่มเติม

ณ วันนี้ การโจมตีโมเดลแมชชีนเลิร์นนิงง่ายกว่าการป้องกัน โมเดลล้ำสมัยที่ใช้ในการใช้งานจริงจะถูกหลอกโดยตัวอย่างจากฝ่ายตรงข้าม หากไม่มีการใช้กลยุทธ์ในการป้องกัน ซึ่งเปิดประตูสู่ปัญหาด้านความปลอดภัยที่อาจร้ายแรง กลยุทธ์การป้องกันที่น่าเชื่อถือที่สุดคือการฝึกปรปักษ์ โดยจะมีการสร้างตัวอย่างฝ่ายตรงข้ามและเพิ่มตัวอย่างที่ชัดเจนในเวลาฝึก

หากคุณต้องการประเมินความแข็งแกร่งของแบบจำลองการจัดประเภทรูปภาพของคุณกับการโจมตีแบบต่างๆ เราขอแนะนำให้คุณใช้ไลบรารี Python แบบโอเพนซอร์สที่ฉลาด วิธีการโจมตีหลายวิธีสามารถทดสอบกับโมเดลของคุณได้ ซึ่งรวมถึงวิธีที่กล่าวถึงในบทความนี้ คุณยังสามารถใช้ไลบรารีนี้เพื่อฝึกโมเดลของคุณสำหรับฝ่ายตรงข้าม และเพิ่มความแข็งแกร่งให้กับตัวอย่างที่เป็นปฏิปักษ์

การค้นหาการโจมตีใหม่และกลยุทธ์การป้องกันที่ดีขึ้นเป็นพื้นที่ของการวิจัย จำเป็นต้องมีทั้งงานเชิงทฤษฎีและเชิงประจักษ์เพื่อทำให้โมเดลการเรียนรู้ของเครื่องมีประสิทธิภาพและปลอดภัยยิ่งขึ้นในการใช้งานจริง

ฉันขอแนะนำให้ผู้อ่านทดลองเทคนิคเหล่านี้และเผยแพร่ผลลัพธ์ใหม่ที่น่าสนใจ นอกจากนี้ ผู้เขียนยินดีรับคำติชมใดๆ เกี่ยวกับบทความปัจจุบัน

ที่เกี่ยวข้อง:

โมเดล AI ของเสียงลอจิกและโมโนโทนิก
แอปพลิเคชั่น Gradient Descent มากมายใน TensorFlow