สำรวจ AutoML: มีเครื่องมือยอดนิยม [สิ่งที่คุณต้องรู้]
เผยแพร่แล้ว: 2020-12-07วงจรชีวิตของแมชชีนเลิร์นนิงเป็นกลุ่มของกระบวนการที่รวมถึงการรวบรวมข้อมูล การล้างข้อมูล วิศวกรรมคุณสมบัติ การเลือกคุณสมบัติ การสร้างแบบจำลอง การปรับแต่งไฮเปอร์พารามิเตอร์ การตรวจสอบ และการปรับใช้โมเดล
แม้ว่าการรวบรวมข้อมูลจะมีได้หลายรูปแบบ เช่น แบบสำรวจด้วยตนเอง การป้อนข้อมูล การลบเว็บ หรือข้อมูลที่สร้างขึ้นระหว่างการทดลอง การล้างข้อมูลเป็นที่ที่ข้อมูลจะถูกแปลงเป็นรูปแบบมาตรฐานที่สามารถใช้ได้ในช่วงอื่นๆ ของวงจรชีวิต .
การเพิ่มขึ้นของแมชชีนเลิร์นนิงเมื่อเร็วๆ นี้ทำให้ธุรกิจจำนวนมากยอมรับโซลูชันที่ใช้ AI สำหรับผลิตภัณฑ์หลักของตน ดังนั้น AutoML บทใหม่จึงได้เข้าสู่ตลาดแล้ว อาจเป็นเครื่องมือที่ยอดเยี่ยมในการตั้งค่าโซลูชันที่ใช้ AI ได้อย่างรวดเร็ว แต่ก็ยังมีปัจจัยที่เกี่ยวข้องบางอย่างที่ต้องแก้ไข
สารบัญ
AutoML คืออะไร
เป็นชุดเครื่องมือที่ทำให้บางส่วนของการเรียนรู้ของเครื่องเป็นอัตโนมัติซึ่งเป็นกระบวนการอัตโนมัติในการสร้างการคาดการณ์และการจัดประเภทที่นำไปสู่ผลลัพธ์ที่สามารถดำเนินการได้ แม้ว่าจะทำได้เฉพาะวิศวกรรมคุณลักษณะ การสร้างแบบจำลอง และขั้นตอนการปรับใช้ในบางครั้งเท่านั้น แต่เครื่องมือ AutoML ส่วนใหญ่รองรับอัลกอริธึมการเรียนรู้ของเครื่องหลายตัวและตัววัดการประเมินเกือบเท่าตัว
เมื่อเครื่องมือประเภทนี้เริ่มทำงาน มันจะรันชุดข้อมูลเดียวกันกับอัลกอริธึมทั้งหมด ทดสอบเมตริกต่างๆ ที่เกี่ยวข้องกับปัญหา จากนั้นจึงนำเสนอการ์ดรายงานโดยละเอียด มาสำรวจเครื่องมือที่มีชื่อเสียงที่มีอยู่ในตลาดและใช้กันอย่างกว้างขวาง
H2O.ai
หนึ่งในโซลูชันชั้นนำใน AutoML คือ H2O.ai ที่นำเสนอโซลูชันที่พร้อมสำหรับอุตสาหกรรมสำหรับปัญหาทางธุรกิจที่ไม่ต้องทำอะไรเลยตั้งแต่เริ่มต้น ซึ่งช่วยให้ทุกคนจากโดเมนใดก็ได้ดึงข้อมูลเชิงลึกที่มีความหมายจากข้อมูลโดยไม่จำเป็นต้องมีความเชี่ยวชาญในการเรียนรู้ของเครื่อง

H2O เป็นโอเพ่นซอร์สที่รองรับโมเดลการเรียนรู้ของเครื่องที่ใช้กันอย่างแพร่หลายและวิธีการทางสถิติ สร้างขึ้นเพื่อนำเสนอโซลูชันสำหรับอาหารค่ำอย่างรวดเร็ว เนื่องจากข้อมูลถูกแจกจ่ายข้ามคลัสเตอร์และจัดเก็บในรูปแบบคอลัมน์ในหน่วยความจำ ซึ่งช่วยให้สามารถอ่านข้อมูลแบบขนานได้
เวอร์ชันที่ใหม่กว่าของโปรเจ็กต์นี้ยังรองรับ GPU ซึ่งทำให้ทำงานได้รวดเร็วและมีประสิทธิภาพมากขึ้น ลองดูวิธีการนี้สามารถทำได้โดยใช้ Python (รันโค้ดในสมุดบันทึก jupyter เพื่อความเข้าใจที่ดีขึ้น):
!pip ติดตั้ง h2o # เรียกใช้สิ่งนี้หากคุณยังไม่ได้ติดตั้ง
นำเข้า h2o
h2o.init()
จาก h2o.automl นำเข้า H2OAutoML
df = h2o.import_file() # ที่นี่ให้เส้นทางของไฟล์
y = 'target_label'
x = df.remove(y)
X_train, X_test, X_validate = df.split_frame(อัตราส่วน=[.7, .15])
model_obj = H2OAutoML(max_models = 10, seed = 10, verbosity=”info”, nfolds=0)
model_obj.train(x = x, y = y, training_frame = X_train, validation_frame=X_validate)
ผลลัพธ์ = model_obj.leaderboard
สิ่งนี้จะเก็บผลลัพธ์ของอัลกอริธึมทั้งหมดที่แสดงเมตริกที่เกี่ยวข้องโดยขึ้นอยู่กับปัญหา
อ่าน: เครื่องมือการเรียนรู้ของเครื่อง
Pycaret
นี่เป็นไลบรารี่ใหม่ที่เปิดตัวในปีนี้ ซึ่งรองรับฟีเจอร์ AutoML มากมายด้วยโค้ดเพียงไม่กี่บรรทัด ไม่ว่าจะเป็นการประมวลผลค่าที่หายไป การแปลงข้อมูลตามหมวดหมู่ให้เป็นรูปแบบที่ป้อนได้ของโมเดล การปรับพารามิเตอร์แบบไฮเปอร์ หรือแม้แต่วิศวกรรมคุณลักษณะ PyCaret จะทำให้ทั้งหมดนี้ทำงานโดยอัตโนมัติในเบื้องหลังเมื่อคุณมุ่งเน้นที่กลยุทธ์การจัดการข้อมูลมากขึ้น

มันเป็นตัวห่อหุ้ม Python มากกว่าสำหรับเครื่องมือและไลบรารีการเรียนรู้ของเครื่องที่มีอยู่ทั้งหมด เช่น NumPy, pandas, sklearn, XGBoost เป็นต้น มาทำความเข้าใจว่าคุณจะแก้ไขปัญหาการจัดหมวดหมู่โดยใช้ Pycaret ได้อย่างไร:
!pip ติดตั้ง pycaret # เรียกใช้สิ่งนี้หากคุณยังไม่ได้ติดตั้ง
จาก pycaret.datasets นำเข้า get_data
จากการนำเข้า pycaret.classification *
df = get_data('เบาหวาน')
การตั้งค่า = การตั้งค่า (เบาหวาน, เป้าหมาย = 'ตัวแปรคลาส')
Compare_models() # ฟังก์ชั่นนี้แสดงการเปรียบเทียบอัลกอริธึมทั้งหมด!
select_model = create_model() # ส่งชื่อของอัลกอริทึมที่คุณต้องการสร้าง
ทำนาย_รุ่น(selected_model)
final_model = finalize_model (เลือกแล้ว_รุ่น)
save_model(final_model , 'file_name')
โหลด = load_model('file_name')
เพียงเท่านี้ คุณเพิ่งสร้างไปป์ไลน์การเปลี่ยนแปลงที่ทำวิศวกรรมคุณลักษณะ ฝึกแบบจำลอง และบันทึก!
Google DataPrep
เราได้ตรวจสอบไลบรารีสองแห่งที่ทำให้การเลือกคุณลักษณะโดยอัตโนมัติ การสร้างแบบจำลอง และการปรับแต่งเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด แต่เราไม่ได้พูดถึงว่าการล้างข้อมูลจะเป็นไปโดยอัตโนมัติได้อย่างไร กระบวนการนี้สามารถเป็นแบบอัตโนมัติได้อย่างแน่นอน แต่ต้องมีการตรวจสอบด้วยตนเองว่าข้อมูลที่ถูกต้องถูกส่งผ่านไปหรือไม่ หรือค่าต่างๆ สมเหตุสมผลหรือไม่
ข้อมูลเพิ่มเติมเป็นจุดบวกสำหรับการสร้างแบบจำลอง แต่ควรเป็นข้อมูลที่มีคุณภาพเพื่อให้ได้ผลลัพธ์ที่มีคุณภาพ Google DataPrep เป็นเครื่องมือเตรียมข้อมูลอัจฉริยะที่นำเสนอเป็นแพลตฟอร์มในฐานะบริการที่ช่วยให้สามารถล้างข้อมูลด้วยภาพได้ ซึ่งหมายความว่าคุณสามารถเปลี่ยนข้อมูลได้โดยไม่ต้องเข้ารหัสแม้แต่บรรทัดเดียวและเพียงแค่เลือกตัวเลือก

มันมี GUI แบบโต้ตอบซึ่งทำให้ง่ายต่อการเลือกตัวเลือกเพื่อใช้งานฟังก์ชั่นที่คุณต้องการใช้ ส่วนที่ดีที่สุดเกี่ยวกับเครื่องมือนี้คือมันจะแสดงการเปลี่ยนแปลงทั้งหมดที่ทำกับชุดข้อมูลในแผงด้านข้างตามลำดับที่ได้ทำไปแล้ว และขั้นตอนใดๆ ก็สามารถเปลี่ยนแปลงได้ ช่วยในการติดตามการเปลี่ยนแปลง คุณจะได้รับคำแนะนำให้ทำ ซึ่งส่วนใหญ่ถูกต้อง
ไฟล์ผลลัพธ์สามารถส่งออกไปยังที่จัดเก็บในตัวเครื่องได้ หรือเนื่องจากบริการนี้มีให้ใน Google Cloud Platform คุณจึงนำไฟล์นี้ไปที่บัคเก็ต Google Storage หรือตาราง BigQuery ได้โดยตรง ซึ่งคุณสามารถทำงานแมชชีนเลิร์นนิงได้โดยตรงในตัวแก้ไขข้อความค้นหา ความล้มเหลวที่สำคัญของสิ่งนี้อาจเป็นค่าใช้จ่ายที่เกิดขึ้นประจำ ไม่ใช่โครงการโอเพนซอร์ซ แต่เป็นโซลูชันอุตสาหกรรมที่เต็มเปี่ยม
สิ่งนี้สามารถแทนที่ Data Scientists ได้หรือไม่
ไม่ได้อย่างแน่นอน! AutoML นั้นยอดเยี่ยมและสามารถช่วย Data Scientist ในการเร่งวงจรชีวิตเฉพาะ แต่จำเป็นต้องมีคำแนะนำจากผู้เชี่ยวชาญเสมอ ตัวอย่างเช่น จะต้องใช้เวลามากในการรับแบบจำลองที่ถูกต้องสำหรับคำชี้แจงปัญหาเฉพาะจาก AutoML ซึ่งเรียกใช้อัลกอริทึมทั้งหมดมากกว่าจากผู้เชี่ยวชาญที่จะเรียกใช้บนอัลกอริทึมเฉพาะที่เหมาะสมกับปัญหามากที่สุด
นักวิทยาศาสตร์ด้านข้อมูลจะต้องตรวจสอบผลลัพธ์จากระบบอัตโนมัติประเภทนี้ จากนั้นจึงจัดหาวิธีแก้ปัญหาที่เป็นไปได้ให้กับธุรกิจ ผู้เชี่ยวชาญด้านโดเมนจะพบว่าการทำงานอัตโนมัตินี้มีประโยชน์มาก เนื่องจากอาจไม่มีประสบการณ์มากนักในการรับข้อมูลเชิงลึกจากข้อมูล แต่เครื่องมือเหล่านี้จะแนะนำพวกเขาอย่างดีที่สุด
หากคุณต้องการเชี่ยวชาญแมชชีนเลิร์นนิงและเรียนรู้วิธีฝึกตัวแทนให้เล่น tic tac toe ฝึกแชทบ็อต ฯลฯ ให้ลองดูหลักสูตรประกาศนียบัตร PG ปัญญาประดิษฐ์ของ upGrad