كيف تتحد البيانات الضخمة والتعلم الآلي ضد السرطان

نشرت: 2018-01-09

السرطان ليس مرضا واحدا. إنها أمراض كثيرة. دعونا نفهم سبب السرطان بمثال بسيط. إذا أخذت نسخة من مستند ، فبسبب بعض المشكلات ، تظهر نقاط أو لطخات أخرى عليها على الرغم من عدم وجودها في النسخة الأصلية. بنفس الطريقة ، في عمليات تكرار الجينات ، تحدث الأخطاء عن غير قصد. في معظم الأوقات ، لن تتمكن الجينات التي بها أخطاء من الاستمرار وستهلك في النهاية.

في بعض الحالات النادرة ، يبقى الجين المتحول مع الأخطاء على قيد الحياة ويتضاعف بشكل لا يمكن السيطرة عليه. إن التكاثر الذي لا يمكن السيطرة عليه للجينات الطافرة هو السبب الرئيسي للسرطان. يمكن أن تحدث هذه الطفرة في أي من العشرين ألف جين في أجسامنا. الاختلاف في أي واحد أو مجموعة من الجينات يجعل السرطان مرضًا شديدًا يجب التغلب عليه. للقضاء على السرطان ، نحتاج إلى طرق لتدمير الخلايا المارقة دون الإضرار بالخلايا الوظيفية في الجسم ؛ مما يجعل الهزيمة صعبة بشكل مضاعف.

جدول المحتويات

السرطان ومدى تعقيده

السرطان مرض ذو انتشار طويل. يعني التوزيع طويل الذيل أن هناك أسبابًا مختلفة لحدوث هذه الحالة ولا يوجد حل واحد لاستئصالها. هناك أمراض تصيب نسبة كبيرة من السكان ولكن لها سبب وحيد لحدوثها. على سبيل المثال ، دعونا نفكر في الكوليرا. إن تناول الطعام أو شرب الماء الملوث ببكتيريا Vibrio Cholerae هو سبب الكوليرا. يمكن أن تحدث الكوليرا فقط بسبب ضمة ​​الكوليرا ، ولا يوجد سبب آخر. بمجرد اكتشاف السبب الوحيد للمرض ، يصبح من السهل نسبيًا التغلب عليه.

البيانات الضخمة والتعلم الآلي متحدون ضد السرطان مدونة UpGrad
ماذا لو حدثت حالة لأسباب متعددة؟ يمكن أن تحدث طفرة في أي من العشرين ألف جين في أجسامنا. ليس ذلك فحسب ، بل نحتاج أيضًا إلى مراعاة مجموعاتها. قد لا يحدث السرطان فقط بسبب طفرة عشوائية في الجين ولكن أيضًا بسبب مجموعة من الطفرات الجينية. يصبح عدد أسباب السرطان أسيًا ، ولا توجد آلية واحدة لعلاجه. على سبيل المثال ، يمكن أن تسبب طفرة في أي من هذه الجينات ALK و BRAF و DDR2 و EGFR و ERBB2 و KRAS و MAP2K1 و NRAS و PIK3CA و PTEN و RET و RIT1 سرطان الرئة. هناك العديد من الطرق لحدوث السرطان وهذا هو سبب انتشاره على المدى الطويل.

في ترسانتنا لشن هذه الحرب على السرطان وقهره ، تعد البيانات الضخمة والتعلم الآلي أدوات بالغة الأهمية. كيف يمكن للبيانات الضخمة أن تساعد في خوض هذه الحرب؟ ما علاقة التعلم الآلي بالسرطان؟ كيف سيساعدون في محاربة مرض له أسباب عديدة ، وهي حالة ذات توزيع طويل الذيل؟ أولاً ، كيف وأين يتم إنشاء هذه البيانات الضخمة؟ دعونا نجد إجابات لهذه الأسئلة.

التسلسل الجيني والانفجار في البيانات

التسلسل الجيني هو أحد المجالات التي تنتج كميات ضخمة من البيانات. كم بالضبط من البيانات؟ وفقًا لواشنطن بوست ، فإن البيانات البشرية التي تم إنشاؤها من خلال تسلسل الجينات (ما يقرب من 2.5 تسلسل لكح) تشغل حوالي ربع حجم إنتاج البيانات السنوية على YouTube. إذا تم دمج كل هذه البيانات مع جميع المعلومات الإضافية التي تأتي مع تسلسل الجينوم وتسجيلها على أقراص DVD سعة 4 جيجابايت ، فسيكون ارتفاعها حوالي نصف ميل.

لقد تحسنت طرق تسلسل الجينات على مر السنين ، وانخفضت تكلفة ذلك بشكل كبير. في عام 2008 ، بلغت تكلفة التسلسل الجيني 10 ملايين دولار. اعتبارا من اليوم ، هو فقط 1000 دولار. في المستقبل ، من المتوقع أن ينخفض ​​أكثر. تشير التقديرات إلى أن مليار شخص سيتم تسلسل جيناتهم بحلول عام 2025. لذلك ، في غضون العقد القادم ، ستكون بيانات الجينوم الناتجة في مكان ما بين 2 - 40 إكسابايت في السنة. إكسابايت هو عشرة متبوعًا بـ 17 صفرًا.

قبل أن نتطرق إلى الكيفية التي ستساعد بها البيانات في علاج السرطان ، دعونا نأخذ مثالًا ملموسًا ونرى كيف يمكن أن تساعد البيانات في قهر المرض. ساعدت البيانات وتحليلها في معرفة سبب مرض معدٍ ومكافحته ، ليس الآن ولكن في القرن التاسع عشر نفسه! نعم في القرن التاسع عشر! اسم هذا المرض هو الكوليرا.

التجمع في القرن التاسع عشر - اختراق الكوليرا

كان جون سنو طبيب تخدير واندلعت الكوليرا في سبتمبر 1854 بالقرب من منزل سنو. لمعرفة سبب الكوليرا ، قرر سنو تدوين الأبعاد المكانية للمرضى على خريطة المدينة. وضع علامة على موقع عنوان منزل المرضى على خريطة مدينة لندن. من خلال هذا التمرين ، أدرك جون سنو أن الأشخاص الذين يعانون من الكوليرا يتجمعون حول بعض آبار المياه المحددة. وأعرب عن اعتقاده الراسخ أن مضخة ملوثة كانت مسؤولة عن الوباء وضد إرادة السلطات المحلية استبدلت المضخة. أدى هذا البديل إلى خفض انتشار الكوليرا بشكل كبير.

نشر سنو في وقت لاحق خريطة لتفشي المرض لدعم نظريته ، والتي تظهر مواقع الآبار العامة الثلاثة عشر في المنطقة ، و 578 حالة وفاة بسبب الكوليرا تم تحديدها حسب عنوان المنزل. أدت هذه الخريطة في النهاية إلى فهم أن الكوليرا كانت مرضًا معديًا وانتشرت بسرعة عبر وسط الماء. تجربة جون سنو هي أول مثال على تطبيق خوارزمية التجميع لمعرفة سبب المرض والمساعدة في القضاء عليه. في القرن التاسع عشر ، تمكن جون سنو من تطبيق خوارزمية التجميع على خريطة مدينة لندن بقلم رصاص. نظرًا لأن السرطان هو المرض المستهدف ، فإن هذا المستوى من التحليل غير ممكن بنفس سهولة تحليل جون سنو. نحن بحاجة إلى أدوات وتقنيات متطورة لاستخراج هذه البيانات. هذا هو المكان الذي نستفيد فيه من إمكانات التقنيات الحديثة مثل التعلم الآلي والبيانات الضخمة.

البيانات الضخمة والتعلم الآلي - أدوات لمكافحة السرطان

ستساعدنا كميات هائلة من البيانات جنبًا إلى جنب مع خوارزميات التعلم الآلي في معركتنا مع السرطان بعدة طرق. يمكن أن يساعدنا في التشخيص والعلاج والتشخيص. بشكل أساسي ، سيساعد في تخصيص العلاج وفقًا للمريض ، وهو أمر غير ممكن بخلاف ذلك. سيساعد أيضًا في التعامل مع الذيل الطويل للتوزيع.

البيانات الضخمة والتعلم الآلي متحدون ضد السرطان مدونة UpGrad
بالنظر إلى الكميات الهائلة من السجلات الطبية الإلكترونية (EMR) والبيانات التي تم إنشاؤها وتسجيلها من قبل مختلف المستشفيات ؛ من الممكن استخدام البيانات "المسمى" في تشخيص السرطان. يتم استخدام تقنيات مثل برمجة اللغة الطبيعية (NLP) لفهم وصفات الطبيب ويتم نشر الشبكات العصبية للتعلم العميق لتحليل التصوير المقطعي والتصوير بالرنين المغناطيسي. تبحث الأنواع المختلفة من خوارزميات التعلم الآلي في قواعد بيانات السجلات الطبية الإلكترونية وتجد الأنماط المخفية. ستساعد هذه الأنماط المخفية في تشخيص السرطان.

تمكنت طالبة جامعية من تصميم شبكة عصبية اصطناعية من راحة منزلها وطوّرت نموذجًا يمكنه تشخيص سرطان الثدي بدرجة عالية من الدقة.

التشخيص بالبيانات الضخمة والتعلم الآلي

كانت بريتاني فينجر تبلغ من العمر 16 عامًا عندما تم تشخيص إصابة ابنة عمها بسرطان الثدي. ألهمها هذا لجعل العملية أفضل من خلال تحسين التشخيص. كان الشفط بالإبرة الدقيقة (FNA) طريقة أقل توغلًا للخزعة وأسرع طريقة للتشخيص. كان الأطباء مترددين في استخدام FNA لأن النتائج غير موثوقة. فكرت بريتاني في استخدام مهاراتها في البرمجة لفعل شيء حيال ذلك. قررت تحسين موثوقية FNA التي من شأنها أن تمكن النساء من اختيار طرق تشخيص أقل توغلاً ومريحة.

عثر Brittanny على بيانات المجال العام من جامعة ويسكونسن والتي تضمنت Fine Needle Aspiration. قامت بترميز شبكة عصبية اصطناعية (ANN) مستوحاة من تصميم بنية الدماغ البشري. استخدمت تقنيات السحابة لمعالجة البيانات وتدريب شبكة ANN للعثور على أوجه التشابه. بعد العديد من المحاولات والأخطاء أخيرًا ، تمكنت شبكتها من اكتشاف سرطان الثدي من بيانات اختبار FNA بحساسية 99.1 ٪ للأورام الخبيثة. هذه الطريقة قابلة للتطبيق لتشخيص السرطانات الأخرى أيضًا.

تعتمد دقة التشخيص على كمية ونوعية البيانات المتاحة. كلما زادت البيانات المتاحة ، زادت قدرة الخوارزميات على الاستعلام عن قاعدة البيانات ، والعثور على أوجه التشابه والخروج بنماذج قيمة.

التعامل مع البيانات الضخمة والتعلم الآلي

ستكون البيانات الضخمة والتعلم الآلي مفيدًا ليس فقط في التشخيص ولكن أيضًا في العلاج. كان جون وكاثي متزوجين لمدة ثلاثة عقود. في سن 49 ، تم تشخيص كاثي بسرطان الثدي في المرحلة الثالثة. ساعد جون ، رئيس قسم المعلومات في أحد مستشفيات بوسطن في التخطيط لعلاجها بمساعدة أدوات البيانات الضخمة التي صممها وأدخلها إلى حيز الوجود.

في عام 2008 ، شاركت خمس مستشفيات تابعة لجامعة هارفارد قواعد بياناتها وأنشأت أداة بحث قوية تُعرف باسم "شبكة معلومات البحوث الصحية المشتركة" (SHRINE). بحلول وقت تشخيص كاثي ، كان بإمكان أطبائها فحص قاعدة بيانات تضم 6.1 مليون سجل للعثور على معلومات ثاقبة. سأل الأطباء "SHRINE" بأسئلة مثل "نساء آسيويات في الخمسين من العمر ، تم تشخيص إصابتهن بسرطان الثدي في المرحلة الثالثة وعلاجاتهن". مسلحين بهذه المعلومات ، تمكن الأطباء من علاجها بأدوية العلاج الكيميائي من خلال استهداف الخلايا السرطانية الحساسة للإستروجين عن طريق تجنب الجراحة.

بحلول الوقت الذي أكملت فيه كاثي نظام العلاج الكيميائي ، لم يعد بإمكان أطباء الأشعة العثور على أي خلايا سرطانية. هذا مثال على كيف يمكن لأدوات البيانات الضخمة المساعدة في تخصيص خطة العلاج وفقًا لمتطلبات كل منها.

بما أن السرطان هو توزيع طويل الذيل ، فإن فلسفة "مقاس واحد يناسب الجميع" لن تنجح. لتخصيص العلاجات اعتمادًا على تاريخ المريض ، وتسلسل الجينات ، ونتائج الاختبارات التشخيصية ، والطفرة الموجودة في جيناتهم أو مجموعة من جيناتهم وبيئتهم ، لا غنى عن البيانات الضخمة وأدوات التعلم الآلي.

اكتشاف الأدوية باستخدام البيانات الضخمة والتعلم الآلي

لن تساعد البيانات الضخمة والتعلم الآلي في التشخيص والعلاج فحسب ، بل ستحدث ثورة في اكتشاف الأدوية. يمكن للباحثين استخدام البيانات المفتوحة والموارد الحسابية لاكتشاف استخدامات جديدة للأدوية التي تمت الموافقة عليها بالفعل من قبل وكالات مثل FDA لأغراض أخرى. على سبيل المثال ، وجد العلماء في جامعة كاليفورنيا في سان فرانسيسكو من خلال الطحن بالأرقام أن عقارًا يسمى `` pyrvinium pamoate '' يستخدم لعلاج الديدان الدبوسية - يمكن أن يقلص سرطان الخلايا الكبدية ، وهو نوع من سرطان الكبد ، في الفئران. هذا المرض المرتبط بالكبد هو ثاني أكبر مساهم في وفيات السرطان في العالم.

البيانات الضخمة والتعلم الآلي متحدون ضد السرطان مدونة UpGrad
لا تُستخدم البيانات الضخمة لاكتشاف استخدامات جديدة للأدوية القديمة فحسب ، بل يمكن أيضًا استخدامها لاكتشاف العقاقير الجديدة. من خلال تحليل البيانات المتعلقة بالعقاقير المختلفة والمواد الكيميائية وخصائصها وأعراض الأمراض المختلفة والتركيب الكيميائي للأدوية المستخدمة لتلك الحالات والآثار الجانبية لهذه الأدوية التي تم جمعها من وسائط مختلفة ؛ يمكن ابتكار عقاقير جديدة لأنواع مختلفة من السرطان. سيؤدي هذا إلى تقليل الوقت الذي يستغرقه ابتكار أدوية جديدة بشكل كبير دون إهدار ملايين الدولارات في هذه العملية.

لا شك أن استخدام البيانات الضخمة والتعلم الآلي سيحسن عملية التشخيص والعلاج واكتشاف الأدوية في علاج السرطان ، لكن ذلك لا يخلو من التحديات. هناك العديد من العقبات والمشاكل على الطريق أمامنا. إذا لم تتم إزالة هذه الكتل ، ولم يتم مواجهة هذه التحديات ، فسيكون لعدونا اليد العليا وسيهزمنا في المعركة المستقبلية.

التحديات في استخدام البيانات الضخمة والتعلم الآلي لمكافحة السرطان

الرقمنة

باستثناء عدد قليل من المستشفيات الكبيرة والمتقدمة تقنيًا ، لم يتم بعد رقمنة معظمها. لا يزالون يتبعون الأساليب القديمة لالتقاط البيانات وتسجيلها في أكوام ضخمة من الملفات. بسبب الافتقار إلى الخبرة الفنية والقدرة على تحمل التكاليف ووفورات الحجم والعديد من الأسباب الأخرى ، لم تحدث الرقمنة. إن توفير برنامج EMR مفتوح المصدر ، وتعليم مدى فائدة هذه السجلات الرقمية في علاج المرضى ومدى ربحيتها للمستشفيات هي بعض الخطوات في الاتجاه الصحيح.

البيانات مقفلة في مستودعات المؤسسة

اعتبارًا من اليوم ، يمكن لعدد قليل من المستشفيات فقط التقاط سجلات المرضى رقميًا. هذا الجهاز مغلق أيضًا في مستودعات المؤسسات ولا يمكن الوصول إليه من قبل العالم بأسره.

المستشفيات مترددة في مشاركة قواعد بياناتها مع المستشفيات الأخرى. حتى لو كانوا على استعداد ، فإنهم يعانون من مخططات قواعد البيانات المختلفة وبنياتها. مطلوب التفكير النقدي في هذه الجبهة حول كيفية مشاركة المستشفيات لقواعد بياناتها فيما بينها من أجل المنفعة المتبادلة دون التشكك في بعضها البعض. يجب الوصول إلى إجماع حول المخطط الذي يجب مشاركة هذه البيانات فيه أيضًا ، لصالح جميع المستشفيات. يجب إضفاء الطابع الديمقراطي على بيانات المريض هذه واستخدامها لتحسين مستقبل البشرية.

البيانات الضخمة والتعلم الآلي متحدون ضد السرطان مدونة UpGrad
لا ينبغي السماح باستخدام بيانات المريض من أجل نمو منظمة واحدة. يجب توخي أقصى درجات الحذر لإخفاء هوية الشخص الذي تنتمي إليه البيانات. إذا تم تسريب تفضيل أحمر الشفاه لدى الشخص ، فلا ضرر كبير. إذا تم تسريب التاريخ الطبي للشخص ، فسيكون لذلك تأثير كبير على حياته وآفاقه.

يجب أن تتخذ الحكومة خطوات إيجابية في هذا الاتجاه ويجب أن تساعد في إنشاء بنية تحتية للبيانات الضخمة لتخزين السجلات الطبية للمرضى من جميع المستشفيات. يجب أن تجعل من الإلزامي لجميع المستشفيات مشاركة قاعدة البيانات الخاصة بهم داخل هذه البنية التحتية المشتركة. يجب أن يكون الوصول إلى قاعدة البيانات هذه مجانيًا لعلاج المرضى والبحث.

تحسين كفاءة خوارزميات التعلم الآلي

التعلم الآلي ليس حبة سحرية لتشخيص وعلاج السرطان. إنها أداة يمكن أن تساعد في رحلتنا لقهر السرطان إذا ما تم استخدامها بشكل جيد. لا يزال التعلم الآلي في طور النشوء وله عيوبه. على سبيل المثال ، يجب أن تكون البيانات التي يتم تدريب هذه الخوارزميات عليها قريبة جدًا من البيانات التي يتم استخدامها لتحقيق النتائج. إذا كان هناك اختلاف كبير بينهم ، فلن تتمكن الخوارزمية من تقديم نتائج ذات مغزى يمكن استخدامها.

توجد العديد من خوارزميات التعلم الآلي مع افتراضاتها الخاصة ومزاياها وعيوبها. إذا تمكنا من إيجاد طريقة للجمع بين كل هذه الخوارزميات المختلفة لتحقيق النتائج المطلوبة منا ، أي علاج السرطان ، وغني عن القول ، فإننا وجدنا نتيجة مفيدة للغاية. يسميها عالم التعلم الآلي الشهير بيدرو دومينغوس "الخوارزمية الرئيسية" ، والذي كتب أيضًا كتابًا علميًا مشهورًا يحمل نفس الاسم.
وفقًا لبيدرو ، هناك خمس مدارس فكرية مختلفة في التعلم الآلي. رمزي ، اتصال ، بايزي ، تطوريون ومماثلون. من الصعب الخوض في كل هذه الأنواع المختلفة من أنظمة التعلم الآلي في هذه المقالة. سأغطي جميع الأنواع الخمسة لأنظمة التعلم الآلي في إحدى مدوناتي المستقبلية. في الوقت الحالي ، نحتاج إلى فهم أن كل هذه الأساليب المختلفة لها مزايا وعيوب خاصة بها. إذا تمكنا من دمجها ، فيمكننا استخلاص رؤى شديدة التأثير من بياناتنا. سيكون هذا مفيدًا للغاية ليس فقط لجميع أنواع التنبؤات والتنبؤات ولكن أيضًا في معركتنا ضد عدو منتقم - السرطان.

باختصار ، السرطان هو عدو هائل يغير شكله باستمرار. نحن نمتلك أسلحة جديدة في ترسانتنا الآن في شكل بيانات ضخمة وتعلم آلي ، ومع ذلك ، لمواجهتها بكفاءة. لكن لهدمها بالكامل نحتاج إلى سلاح أقوى مما نمتلكه حاليًا. اسم هذا السلاح هو "الخوارزمية الرئيسية".

نحتاج أيضًا إلى إجراء بعض التغييرات في الاستراتيجيات والأساليب التي نحارب بها هذا العدو. تعمل هذه التغييرات على إنشاء بنية تحتية للبيانات الضخمة ، مما يجعل من الإلزامي للمستشفيات مشاركة سجلات المرضى المجهولة الهوية ، والحفاظ على أمان قاعدة البيانات والسماح بالوصول المجاني إلى قاعدة البيانات لعلاج المرضى والبحوث لعلاج السرطان.

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. تعلم برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

تغليف

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم شهادات هندسة البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

خطط لوظيفتك في علوم البيانات الآن.

تقدم بطلب للحصول على برنامج الشهادة المهنية في علوم البيانات من IIM-Kozhikode