การตรวจจับการฉ้อโกงในการเรียนรู้ของเครื่อง: สิ่งที่คุณต้องรู้ [2022]
เผยแพร่แล้ว: 2021-01-02อาหาร เสื้อผ้า เครื่องประดับ หรือเฟอร์นิเจอร์ ทุกสิ่งที่คุณเคยซื้อจากร้านค้าบนถนนที่พลุกพล่านสามารถซื้อออนไลน์ได้แล้ว อีคอมเมิร์ซเป็นอุตสาหกรรมที่มีมูลค่าหลายพันล้านดอลลาร์และกำลังเพิ่มขึ้นเรื่อยๆ จำเป็นต้องพูด สิ่งนี้ก็อยู่ในเงื้อมมือของโลกแห่งอาชญากรเช่นกัน อาชญากรออนไลน์มีอยู่ในทุกภาคส่วนออนไลน์ที่คุณสามารถตั้งชื่อได้
การตรวจจับการฉ้อโกงด้วยการเรียนรู้ของเครื่องเป็นไปได้เนื่องจากความสามารถของแบบจำลองในการเรียนรู้จากข้อมูลการฉ้อโกงในอดีต เพื่อรับรู้รูปแบบและคาดการณ์ความถูกต้องของธุรกรรมในอนาคต ในกรณีส่วนใหญ่จะมีประสิทธิภาพมากกว่ามนุษย์เนื่องจากความเร็วและประสิทธิภาพของการประมวลผลข้อมูล
การฉ้อโกงทางอินเทอร์เน็ตบางประเภท ได้แก่:
- การปลอมแปลงรหัส ทุกวันนี้ ID ถูกประดิษฐ์ขึ้นอย่างดีจนแทบเป็นไปไม่ได้ที่มนุษย์จะตรวจสอบความถูกต้องและป้องกันการฉ้อโกงข้อมูลประจำตัว
ด้วยการใช้ AI ทำให้สามารถวิเคราะห์ลักษณะต่างๆ ของลักษณะบัตรประจำตัวเพื่อให้มีผลกับความถูกต้องของเอกสาร ซึ่งช่วยให้บริษัทต่างๆ สามารถกำหนดเกณฑ์ความปลอดภัยของตนเองได้เมื่อมีการร้องขอซึ่งต้องใช้เอกสารประจำตัวบางอย่าง
- กลโกงสินเชื่อธนาคาร. สิ่งเหล่านี้อาจเกิดขึ้นได้หากมีบุคคลติดต่อคุณและเสนอโครงการเงินกู้ที่มีเงื่อนไขที่น่าสงสัย ที่นี่บุคคลที่ติดต่อคุณจะขอรายละเอียดธนาคารของคุณหรือชำระเงินล่วงหน้า โดยไม่มีข้อมูลบริษัทที่เหมาะสม หรือแม้แต่ใช้หมายเลขติดต่อระหว่างประเทศ AI สามารถจัดการการฉ้อโกงดังกล่าวได้อย่างง่ายดายโดยใช้บันทึกการสมัครสินเชื่อก่อนหน้าเพื่อกรองผู้ผิดนัดเงินกู้
- อีเมลฟิชชิ่ง นี่เป็นอาชญากรรมทางอินเทอร์เน็ตประเภทหนึ่งที่มีการโฆษณาเว็บไซต์และข้อความปลอมให้กับผู้ใช้ โดยขอให้พวกเขาแบ่งปันข้อมูลส่วนบุคคล หากบุคคลไม่ระมัดระวังมากเกินไป เขาหรือเธออาจป้อนข้อมูลที่เป็นความลับซึ่งสามารถทำให้พวกเขาเสี่ยงต่อการคุกคามได้ วิธีที่ดีที่สุดในการหลีกเลี่ยงการฉ้อโกงนี้คือให้ผู้ใช้ระมัดระวังตัวเอง อย่างไรก็ตาม AI สามารถค้นหาอีเมลหลอกลวงได้โดยการกรองโดยใช้อัลกอริธึมการเรียนรู้ของเครื่องพื้นฐาน เช่น การถดถอย
- การฉ้อโกงบัตรเครดิต นี่เป็นประเภทการฉ้อโกงการชำระเงินที่พบบ่อยที่สุด เนื่องจากรายละเอียดทั้งหมดถูกจัดเก็บออนไลน์ ซึ่งทำให้อาชญากรและแฮกเกอร์เข้าถึงได้ง่ายขึ้น การ์ดที่ส่งทางไปรษณีย์สามารถถูกสกัดกั้นได้อย่างง่ายดาย วิธีหนึ่งในการกรองธุรกรรมการฉ้อโกงดังกล่าวโดยใช้การเรียนรู้ของเครื่องได้อธิบายไว้ด้านล่าง
- การโจรกรรมข้อมูลประจำตัว แมชชีนเลิร์นนิงสำหรับตรวจจับการโจรกรรมข้อมูลระบุตัวตนช่วยตรวจสอบเอกสารระบุตัวตนที่มีค่า เช่น หนังสือเดินทาง บัตร PAN หรือใบขับขี่แบบเรียลไทม์ นอกจากนี้ บางครั้งอาจต้องใช้ข้อมูลไบโอเมตริกเพื่อปรับปรุงความปลอดภัยให้ดียิ่งขึ้น วิธีการรักษาความปลอดภัยเหล่านี้ต้องการการรับรองความถูกต้องด้วยตนเอง ซึ่งช่วยลดโอกาสในการฉ้อโกงได้มาก
อ่านเพิ่มเติมเกี่ยวกับ: เงินเดือนวิศวกรการเรียนรู้ของเครื่องในอินเดีย
แบบจำลองทำนายการฉ้อโกงโดยใช้ข้อมูลบัตรเครดิต
ที่นี่ใช้ชุดข้อมูล Kaggle ที่มีชื่อเสียงมากเพื่อแสดงให้เห็นว่าการตรวจจับการฉ้อโกงทำงานอย่างไรโดยใช้โมเดลโครงข่ายประสาทเทียมอย่างง่าย

การนำเข้า:
นำเข้า แพนด้า เป็น pd
นำเข้า numpy เป็น np
นำเข้า เทนเซอร์โฟลว์ เป็น tf
นำเข้า keras
จาก sklearn.preprocessing นำเข้า StandardScaler
จาก keras.models นำเข้า Sequential
จาก keras.layers นำเข้า หนาแน่น
จาก sklearn.model_selection นำเข้า train_test_split
จาก sklearn.metrics นำเข้า การจัดหมวดหมู่ _report
ลองดูชุดข้อมูล ที่ นี่ คอลัมน์ จำนวนเงิน จะถูกทำให้เป็นมาตรฐานเช่นเดียวกับคุณลักษณะอื่นๆ และ คอลัมน์ เวลา จะถูกลบออกเนื่องจากไม่เกี่ยวข้อง
data= pd.read_csv ( 'creditcard.csv' )
data [ 'Amount_norm' ] = StandardScaler () .fit_transform ( ข้อมูล [ 'Amount' ] .values.reshape ( -1 , 1 ))
data= data.drop ([ 'จำนวน' ], แกน= 1 )
data= data.drop ([ 'เวลา' ], แกน= 1 )

ข้อมูล=ข้อมูล [: -1 ]
data.info()
หลังจากล้างข้อมูลแล้ว ชุดข้อมูลของเรามีคุณลักษณะทั้งหมด 28 รายการและหนึ่งเป้าหมาย โดยทั้งหมดมีค่าทศนิยมซึ่งไม่ว่างเปล่า
เป้าหมายของเราคือ คอลัมน์ Class ซึ่งกำหนดว่าธุรกรรมบัตรเครดิตนั้นเป็นการฉ้อโกงหรือไม่ ดังนั้นชุดข้อมูลจึงถูกแบ่งออกเป็นการฝึกและการทดสอบ โดยรักษาอัตราส่วนการแยก 80:20 ตามปกติ ( random_state ได้รับการแก้ไขเพื่อช่วยให้คุณทำซ้ำข้อมูลแยกของคุณ)
X = data.iloc [:, data.columns != 'คลาส' ]
y = data.iloc [:, data.columns == 'คลาส' ]
X_train , X_test , y_train , y_test = train_test_split ( X , y , test_size = 0.2 , random_state= 0 )
เราใช้โมเดลตามลำดับจาก ไลบรารี keras เพื่อสร้างโครงข่ายประสาทเทียมที่มี 3 ชั้นหนาแน่น เลเยอร์เอาต์พุตมีเซลล์ประสาทเพียงเซลล์เดียวซึ่งจะใช้ ฟังก์ชัน sigmoid เพื่อให้ผลลัพธ์เป็นคลาสบวกหรือคลาสลบ
จากนั้นโมเดลจะคอมไพล์ด้วย adam Optimizer แม้ว่าขอแนะนำอย่างยิ่งให้คุณลองใช้ค่าพารามิเตอร์ไฮเปอร์ที่แตกต่างกันด้วยตัวเอง เช่น จำนวนหน่วยในแต่ละเลเยอร์ การเปิดใช้งาน ตัวเพิ่มประสิทธิภาพ ฯลฯ เพื่อดูว่าสิ่งใดดีที่สุดสำหรับค่าที่กำหนด ชุดข้อมูล
รุ่น= ลำดับ ()
model.add ( หนาแน่น ( หน่วย = 16 , การเปิดใช้งาน = 'relu' , input_dim = 29 ))
model.add ( หนาแน่น ( หน่วย = 16 , การเปิดใช้งาน = 'relu' ))
model.add ( หนาแน่น ( หน่วย = 1 , การเปิดใช้งาน = 'sigmoid' ))
แบบอย่าง. คอมไพล์ ( เครื่องมือเพิ่มประสิทธิภาพ = 'adam' , การสูญเสีย = 'binary_crossentropy' , เมตริก = [ 'ความแม่นยำ' ])
model.fit ( X_train , y_train , batch_size = 32 , ยุค = 15 )
นี่คือผลลัพธ์หลังจากรันโมเดลในช่วงสองสามยุค
เราเห็นว่าโมเดลให้ความแม่นยำ 99.97% เร็วมาก ด้านล่างนี้ y_pred มีการคาดคะเนของแบบจำลองของเราเกี่ยวกับข้อมูลการทดสอบ และมีการแสดงสรุปประสิทธิภาพของแบบจำลองอย่างละเอียด
y_pred = model.predict ( X_test )

y_pred = ( y_pred > 0.5 )
พิมพ์ ( types_report ( y_test , y_pred ))
อ่าน: แนวคิดโครงการแมชชีนเลิร์นนิงสำหรับผู้เริ่มต้น
บทสรุป
ด้วยวิธีนี้ เราจึงประสบความสำเร็จในการสร้างแบบจำลองที่มีความแม่นยำสูงเพื่อระบุธุรกรรมที่เป็นการฉ้อโกง สิ่งเหล่านี้มีประโยชน์มากสำหรับวัตถุประสงค์ในการบริหารความเสี่ยง
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ