نصائح لتجنب اخطاء تعلم الاله في المعلوماتيه الحيويه (الجزء الاول)

نصائح لتجنب اخطاء تعلم الاله في المعلوماتيه الحيويه (الجزء الاول)

| مقدمه

أصبح تعلم الاله (Machine learning) أداة محورية للعديد من المشاريع في البيولوجيا الحاسوبية والمعلوماتية الحيوية والمعلوماتية الصحية , ومع ذلك ، لا يتمتع المبتدئين والباحثون الطبيون في كثير من الأحيان بخبرة كافية لتشغيل مشروع لاستخراج البيانات بشكل فعال ، وبالتالي يمكنهم اتباع ممارسات غير صحيحة قد تؤدي إلى أخطاء شائعة أو نتائج مفرطة في التفاؤل , في هذا المقال ، نقدم 5 نصائح سريعة للاستفادة من التعلم الآلي في سياق علم في الأحياء الحسابي ، من خلال تجنب بعض الأخطاء الشائعة التي لاحظناها مئات المرات في مشاريع المعلوماتية الحيوية المتعددة , نعتقد أن اقتراحاتنا الخمسه يمكن أن تساعد بقوة أي ممارس للتعلم الآلي على تنفيذ مشروع ناجح في البيولوجيا الحاسوبية والعلوم ذات الصلة بعد ظهور الات السلسله الجديده وسهولة استخدامها وقلة تكاليفها اصبحت البيانات الكبيره متاحه بسهوله في علم الاحياء لمجموعه من المجالات (gebomics , protiomics , tramscriptomics , metagenomics) ونتيجة لذلك ، بدأ العلماء في البحث عن طرق جديدة لاستجواب البيانات وتحليلها ومعالجتها ، وبالتالي استنباط المعرفة حول البيولوجيا الجزيئية ، وعلم وظائف الأعضاء ، والسجلات الصحية الإلكترونية ، والطب الحيوي بشكل عام. ونظرًا لقدرتها على التعامل مع مجموعات البيانات الكبيرة ، والتنبؤ بها من خلال نماذج إحصائية دقيقة ، فقد تمكن التعلم الآلي من الانتشار السريع واستخدامه بشكل شائع في مجتمع البيولوجيا الحسابية

على الرغم من أهميتها ، فغالبًا ما لا يتمتع الباحثون ذوو الخلفيات البيولوجية أو الرعاية الصحية بالمهارات المحددة لتشغيل مشروع لاستخراج البيانات هذا النقص في المهارات غالباً ما يجعل علماء الأحياء يؤخرون أو يقررون عدم محاولة تضمين أي تحليل للتعلم الآلي في البحث او المشروع

في حالات أخرى ، يتبع باحثو البيولوجيا والرعاية الصحية الذين يشرعون في مشروع للتعلم الآلي ممارسات غير صحيحة في بعض الأحيان ، والتي تؤدي إلى تحليلات عرضة للخطأ ، أو منحهم وهم النجاح , في هذا المقال سنتحدث عن 5 اخطاء شائعه في تعلم الاله للمعلوماتيه الحيويه وكيفية تجنبها

| 1- تحقيق من مجموعة المدخلات وترتيبها بشكل صحيح

على الرغم من أن الأمر قد يبدو مفاجئًا ، فإن النقطة الأساسية الأكثر أهمية لمشروع التعلم الآلي لا تتعلق بالتعلم الآلي : فهي تتعلق بخصائص مجموعة البيانات وترتيبها. في البدايه , قبل البدء في أي نشاط لاستخراج البيانات ، عليك أن تسأل نفسك : هل لدي بيانات كافية لحل هذه المشكلة في علم الأحياء الحسابي بالتعلم الآلي؟ في الوقت الحاضر ، في عصر البيانات الكبيرة ، مع مجموعات البيانات البيولوجية الكبيرة جدًا المتاحة للجمهور عبر الإنترنت ، قد يبدو هذا السؤال غريب ، لكنه يثير بالفعل مشكلة مهمة في مجتمع التعلم الإحصائي والمجال حيث ان جمع المزيد من البيانات قد يكون مفيدا ولكن تحديد الحد الادني لمجموعة البيانات لتدريب الخوارزميه قد يكون خادعا , و بعد معالجة مشكلة حجم مجموعة البيانات ، فإن الأولوية الأكثر أهمية في مشروعك هي ترتيب مجموعة البيانات , قد تبدو هذه النصيحة غير بديهية للمبتدئين في التعلم الآلي , و في الواقع ، قد يتساءل المتعلمون الجدد : كيف يمكن أن يعتمد نجاح مشروع استخراج البيانات في المقام الأول على مجموعة البيانات ، وليس على الخوارزمية نفسها ؟

التفسير واضح ومباشر: خوارزميات التعلم الآلي الشائعة أصبحت واسعة الانتشار ، أولاً وقبل كل شيء ، لأنها تعمل جيدًا , على غرار ما قاله إسحاق نيوتن ذات مرة ، “إذا استطعنا التقدم أكثر ، فنحن نفعل ذلك من خلال الوقوف على أكتاف العمالقة” ، الذين طوروا أساليب استخراج البيانات التي نستخدمها في الوقت الحاضر , ونظرًا لأن هذه الخوارزميات تعمل جيدًا ، ولدينا الكثير من مكتبات البرامج مفتوحة المصدر ، فنحن عادة لا نحتاج إلى ابتكار تقنيات جديدة للتعلم الآلي عند بدء مشروع جديد

على سبيل المثال تحتوي قاعدة بيانات (GOA)، على سبيل المثال ، على العديد من المشكلات , على الرغم من فائدتها التي لا شك فيها و بما أنه لا يتم الإشراف على جميع البيانات بواسطة منسقين بشريين (اي تقوم المراجعه بواسطة الكمبيوتر)، فقد يكون بعضها خاطئًا ؛ ولان هناك مجموعات مختلفه قامت بالبحث علي نفس الجينات ، فقد تحتوي بعض التعليقات التوضيحية على معلومات غير متسقة لذلك يمكن أن تؤثر مثل هذه المشكلات بشدة على أداء تطبيق طريقة التعلم الآلي , نظرًا لأهمية وتفرد كل مجموعة بيانات لكل مجال ، لا يمكن أن تنجح مشاريع التعلم الآلي إلا إذا فهم الباحث بوضوح تفاصيل مجموعة البيانات وكان قادرًا على ترتيبها بشكل صحيح قبل تشغيل أي خوارزمية لاستخراج البيانات عليها

في الواقع ، لا تحدث المشروعات الناجحة إلا عندما يعمل ممارسو التعليم الآلي جنبًا إلى جنب مع خبراء المجال (خبراء الاحياء) و هذا صحيح بشكل خاص في علم الأحياء الحسابي و لترتيب مجموعة البيانات البيولوجية بشكل صحيح جوانب متعددة ، يتم تجميعها جميعًا في خطوة تسمى المعالجة المسبقة للبيانات وهي خطوه تحدثنا عنها في مقال سابق بعنوان (الخطوه الاولي في تحليل البيانات) , علاوة على ذلك ، هناك ممارسة أخرى ضرورية تتمثل في تنظيف البيانات ، وهي التخلص من جميع البيانات التي تحتوي على قيم تالفة أو غير دقيقة أو غير متسقة الخ .. , و عند التعامل مع مجموعة بيانات كبيرة ، فإن إزالة القيم المتطرفة هي أفضل خطة ، لأنه لا يزال لديك بيانات كافية لتدريب النموذج الخاص بك بشكل صحيح و عندما يكون حجم مجموعة البيانات صغيرًا ويكون كل متغير للبيانات ثمينًا ، فمن الأفضل تقريب القيم المتطرفة إلى الحد الأقصى او الادني

| 2- تقسيم مجموعة بيانات المدخلات

قسّم مجموعة بيانات المدخلات إلى ثلاث مجموعات فرعية مستقلة (مجموعة التدريب ، مجموعة التحقق من الصحة ، مجموعة الاختبار) ، واستخدم مجموعة الاختبار فقط بمجرد إكمال مراحل التدريب والتحسين

يقول العديد من الكتب والأدلة عبر الإنترنت إن التعلم الآلي يتعلق بتقسيم مجموعة البيانات إلى قسمين: مجموعة التدريب ومجموعة الاختبار. هذا النهج غير مكتمل ، لأنه لا يأخذ في الاعتبار أن الخوارزمية دائمًا تقريبًا بها بعض المعلمات التشعبية الرئيسية التي يجب تحديدها قبل تطبيق النموذج و في الواقع ، هناك خطأ شائع في استخدام التعلم الآلي حيث في مجموعة الاختبار (test set) يحدث تضخيم في التوقعات ولكن كما اعتاد (Richard Feynman) أن يقول ، في العلم وفي الحياة : “المبدأ الأول هو أنه يجب ألا تخدع نفسك ، وأنت أسهل شخص تخدع”

لذلك ، لتجنب الخداع بهذه الطريقة ، يجب عليك دائمًا تقسيم مجموعة بيانات الإدخال إلى ثلاث مجموعات فرعية مستقلة كما تحدثنا و ستكون النسبة المقترحة الشائعة 50٪ لمجموعة التدريب ، و 30٪ لمجموعة التحقق ، و 20٪ لمجموعة الاختبار و بعد تقسيم المجموعة الفرعية ، استخدم مجموعة التدريب (training set) ومجموعة التحقق من الصحة (validation set) لتدريب النموذج الخاص بك وتحسين قيم البيانات المفرطة ، وحجب مجموعة الاختبار (test set)

في النهاية ، بمجرد العثور على أفضل المعلمات الفائقة وتدريب الخوارزمية ، وتطبيق النموذج المدرّب على مجموعة الاختبار اصبح نموذك للتعلم الالي جاهزا ، حيث هذا النهج (يُطلق عليه أيضًا “lock box approach”) وهو محوري واساسي في كل مشروع تعليمي آلي ، وغالبًا ما يعني الفرق الحقيقي بين النجاح والفشل و، كما لاحظ (Michael Skocik and colleagues) ، فإن وضع مجموعة فرعية واستخدامها فقط عندما تكون النماذج جاهزة يعد ممارسة شائعة فعالة في مشاريع التعلم الآلي , علاوة على ذلك ، يشير كثير من العلماء إلى أن جميع مشاريع تعلم الآلة في علم الأعصاب تتضمن بشكل روتيني (lock box approach) و نحن نوافق على هذا البيان ونجدده : يجب استخدام نهج (lock box approach) بواسطة كل مشروع تعليمي آلي في كل مجال

| 3- وضع مشكلتك البيولوجية في فئة الخوارزميات الصحيحة

لديك مجموعة بياناتك البيولوجية وسؤالك العلمي وهدفك العلمي لمشروعك و قد قمت بترتيب مجموعة البيانات الخاصة بك وهندستها ، كما هو موضح في نصيحة (1) أنت تقرر أنك تريد حل مشروعك العلمي بالتعلم الآلي ، لكنك لم تقرر بعد الخوارزمية التي ستبدأ بها و قبل اختيار طريقة استخراج البيانات ، يجب أن تضع إطارًا لمشكلتك البيولوجية في فئة الخوارزمية الصحيحة ، والتي ستساعدك بعد ذلك في العثور على الأداة المناسبة للإجابة على سؤالك العلمي يمكن أن تساعدك بعض الأسئلة الأساسية في فهم مشكلتك العلمية فمثلا هل وصفت أهدافًا لمجموعة البيانات الخاصة بك ؟ هل لديك تسمية حقيقة يمكن أن تخبرك ما إذا كانت المعلومات التي تحاول تحديدها مرتبطة بمثيل البيانات هذا أم لا ؟ إذا كانت الإجابة بنعم ، يمكن أن تعزى مشكلتك إلى فئة مهام التعلم الخاضعة للإشراف (supervised learning) ، وإذا لم يكن الأمر كذلك ، عليك التوجه إلى فئة التعلم غير الخاضعة للإشراف (unsupervised learning)

على سبيل المثال ، افترض أن لديك مجموعة بيانات حيث تحتوي الصفوف على ملفات تعريف المرضى ، والأعمدة تحتوي على خصائص بيولوجية متعلقة بهم , فمثلا تشير إحدى الميزات إلى تشخيص المريض ، وهو إذا كان بصحة جيدة أو صحه غير جيده ، والذي يمكن أن يوصف بأنه هدف (أو متغير إخراج) لمجموعة البيانات هذه , نظرًا لأن مجموعة البيانات تحتوي في هذه الحالة على تسمية مستهدفة لكل مثيل للبيانات ، يمكن تسمية مشكلة التنبؤ بهذه الأهداف باسم التعلم الخاضع للإشراف (supervised learning) خوارزميات التعلم الخاضعة للإشراف المشهورة في البيولوجيا الحاسوبية هي :

[support vector machines (SVMs) , k-nearest neighbors (k-NN) , and random forests.]

و إذا كان الهدف يمكن أن يحتوي على عدد محدد من القيم المحتملة (على سبيل المثال ، خارج الخلية ، أو السيتوبلازم ، أو النواة لموقع محدد في الخلية) ، فإننا نسمي هذا مهمة تصنيف المشكلة (problem classification task) وإذا كانت القيم المستهدفة المحتملة هي فقط (مثل صواب أو خطأ ، 0 أو 1 ، مريض سليم أو مريض غير سليم) ، فإننا نسمي هذا التصنيف الثنائي (binary classification) و إذا كانت الأهداف هي قيم حقيقية ، فبدلاً من ذلك ، سيتم تسمية المشكلة بمهمة الانحدار (regression task) و عند عدم تسمية البيانات ، لا يزال من الممكن استخدام التعلم الآلي لاستنتاج الارتباطات الخفية بين مثيلات البيانات ، أو لاكتشاف البنية الخفية لمجموعة البيانات و تسمى هذه الحالات التعلم غير الخاضع للإشراف أو مهام تحليل الكتلة ومن امثلتها :

k-means clustering, truncated singular value decomposition (SVD), and probabilistic latent semantic analysis (pLSA)]

بمجرد أن تدرس وتفهم مجموعة البيانات الخاصة بك ، عليك أن تقرر أي من هذه الفئات من المشاكل يجب أن تتناول مشروعك ، وبعد ذلك تكون على استعداد لاختيار خوارزمية التعلم الآلي المناسبة لبدء تنبؤاتك

|4- أي خوارزمية يجب أن تختار للبدء ؟

بمجرد أن تفهم نوع المشكلة البيولوجية التي تحاول حلها ، وأي فئة من الطرق يمكن أن تتناسب مع وضعك ، يجب عليك بعد ذلك اختيار خوارزمية التعلم الآلي التي ستبدأ بها مشروعك حتى لو كان من المستحسن دائمًا استخدام تقنيات متعددة ومقارنة نتائجها ، فقد يكون القرار الذي يجب أن تبدأ به عملية صعبة حيث يمكن أن تكون خطوة اختيار الخوارزمية هذه ، والتي تحدث عادة في بداية رحلة التعلم الآلي ، خطيرة للمبتدئين , في الواقع ، قد ينتهي الأمر بممارس عديم الخبرة إلى اختيار طريقة معقدة وغير مناسبة لاستخراج البيانات مما قد يؤدي به إلى نتائج سيئة ، وكذلك يفقد الوقت والجهد الثمينين , لذلك ، هذه هو تلميحنا لاختيار الخوارزمية الخاصه بك بكل بساطه : “إذا لم تقرر بعد ، فابدأ بأسهل خوارزمية”

من خلال استخدام خوارزمية بسيطة ، ستتمكن من الحفاظ على كل شيء تحت السيطرة ، وفهمًا أفضل لما يحدث أثناء تطبيق الطريقة , بالإضافة إلى ذلك ، ستوفر الخوارزمية البسيطة مهارات تعميم أفضل ، وفرصة أقل للتركيب ، وتدريب أسهل ، وخصائص تعلم أسرع من الأساليب المعقدة

أمثلة على الخوارزميات البسيطة التعلم بدون اشراف هي (k-means clustering) والتعلم باشراف هي (k-nearest neighbors) هي خوازميات بسيطة لأنها أسهل في الفهم والتفسير من النماذج الأخرى مثل (artificial neural networks) او (support vector machines)

| 5- أعتن بمشكلة البيانات غير المتوازنة

في علم الأحياء الحسابي وفي المعلوماتية الحيوية ، من الشائع أن يكون لديك مجموعات بيانات غير متوازنة , على سبيل المثال ، تحتوي مجموعة البيانات النموذجية (Gene Ontology annotations) ، والتي يمكن تحليلها باستخدام عامل مصفوفة غير سالب (non-negative matrix) ، على حوالي 0.1٪ فقط من مثيلات البيانات الإيجابية ، و 99.9٪ من مثيلات البيانات السلبية , و في هذه المواقف الشائعة ، يمكن أن تكون نسبة مجموعة البيانات تمثل مشكلة حيث انه كيف يمكنك تدريب المصنف (classifier) لتتمكن من التنبؤ بشكل صحيح بكل من مثيلات البيانات الإيجابية ومثيلات البيانات السلبية إذا كان لديك هذا الاختلاف الكبير في النسب ؟

من المحتمل أن يتعلم نموذج التعلم (learning model) الخاص بك بسرعة كيفية التعرف على مثيلات البيانات السلبية الزائدة التمثيل والتي تمثل (99.9٪) ، ولكنه سيواجه صعوبات في التعرف على مثيلات المجموعة الفرعية النادرة ، والتي هي العناصر الإيجابية في هذه الحالة ولكنه سيواجه صعوبات في التعرف على مثيلات المجموعة الفرعية النادرة ، والتي هي العناصر الإيجابية في هذه الحالة والتي تمثل (0.1٪)

لذلك اقتراحنا الاستدلالي بشأن نسبة العناصر التي يجب استخدامها في مجموعة التدريب هو التقاط متوسط ​​القيمة بين 50٪ ونسبة القيمه الحقيقية , لذلك ، في المثال (90٪: 10٪) ، أدخل في مجموعة التدريب (90٪ + 50٪) / 2 = 70٪ مثيلات بيانات سلبية ، و (10٪ + 50٪) / 2 = 30٪ مثيلات بيانات موجبة , و بدلاً من ذلك ، يمكنك الموازنة بين مجموعة البيانات من خلال دمج توزيع التسميه التجريبية (empirical label) لمثيلات البيانات ، وفقًا لقاعدة بايز(Bayes’ rule) وهي (إحدى نتائج نظرية الاحتمالات الهامة التي تعطي التوزيع الاحتمالي الشرطي للمتغير العشوائي مع العلم بالمتغير العشوائي، وذلك بدلالة التوزيع الاحتمالي الشرطي للمتغير العشوائي مع العلم ب والتوزع الاحتمالي للمتغيرين) حتى لو كانت هذه الاستراتيجية أكثر دقة ، فقد تكون معقدة للغاية بالنسبة للمبتدئين ؛ هذا هو السبب في أننا نقترح استخدام نسبة الكشف عن مجريات الأمور المذكورة أعلاه للبدء في التجربه

بالإضافة إلى ذلك ، هناك العديد من التقنيات الفعالة للتعامل مع مشكلة البيانات غير المتوازنة , أفضل طريقة لمعالجة هذه المشكلة هي دائمًا جمع المزيد من البيانات , إذا لم يكن ذلك ممكنًا ، فإن الاستراتيجية العامة والفعالة للتعامل مع مجموعات البيانات غير المتوازنة هي ترجيح فئة البيانات ، حيث يتم تعيين أوزان مختلفة لمثيلات البيانات اعتمادًا على ما إذا كانت تنتمي إلى فئة الأغلبية أو فئة الأقلية حيث تعتبر عملية ترجيح فئة البيانات (Data class weighting) تقنية قياسية لمحاربة مشكلة البيانات غير المتوازنة في تعلم الآلة بلإضافة إلى ذلك ، توجد تقنيات أخرى ، حتى لو كانت تجربة الأساليب المذكورة أعلاه أولاً كافية بالفعل لمشروع التعلم الآلي الخاص بك

| المصدر :
Ten quick tips for machine learning in computational biology

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey