تعلم الاله بدون اشراف (unsupervised machine learning)

تعلم الاله بدون اشراف (unsupervised machine learning)

السلام عليكم , اليوم سنتحدث عن مجال حديث نسبيا في مجال تحليل البيانات , وهو كالعاده ليس خاص فقط بمجال تحليل البيانات البيولوجيه , انما هو عام لتحليل البيانات بشكل عام , تحليل االبيانات بتعلم الاله الغير خاضع للاشراف (unsupervised machen learning) , كلمات تبدو مركبه ومعناها الحقيقي غير واضح ليس هذا فحسب انما كيف يمكن ان نستخدمها في المجال الحيوي او المعلوماتيه ال حيويه ..

في البدايه دعنا نتحدث عن مصطلح machen learning او تعلم الاله , المقصود بتعلم الاله هو معني مختلف كثيرا عن البرمجه العايه , حيث في البرمجه انا اقوم بادخال مدخلات مخصصه معينه ينفذها الكمبيوتر بالامر دون نقاش او تداخل منه , ولكن في تعلم الاله هو انني يمكن ان اقوم بتدريب الاله علي بيانات معينه واعطيها معلومات عنه ومن ثم اختبر تصرفها مع بيانات اخري تشبه البيانات التي تدربت عليها واري كيف ستعامل معها , اي ان التعامل لا يكون بالامر وانما بالتعلم , لذلك اشتق منه الاسم (machen learning)

يوجد في تعلم الاله ثلاثة انواع او اشكال

  • supervised
  • unsupervised
  • Reinforcement

اليوم سنتحدث عن النوع الثاني , ولكن دعنا نتعرف اولا عن الفرق بين الثلاثة انواع , في النوع الاول (supervised) امره بسيط جدا وهو يعني انني لدي البيانات (X) في المدخلات ولدي في المخرجات بيانات (Y) وتقوم الخوارزميه بالتدرب علي هذه البيانات , من اجل انه عندما اقوم باحضار بيانات من النوع (X) جديده تقوم الاله باعطائي بيانات (Y) بناء علي ما قامت علي التدرب عليه من قبل ..

يشبه الامر انك لديك طالب قمت له بشرح كيف يتم استخدام برنامج BLAST من اجل الكشف عن التشابه بين مجموعه من الجينات وتعرفت معه كيف يتم تحليل البيانات لهذه الجينات , ومن ثم اعطيه مجموعة جينات اخري وطلبت منه معرفة التشابه بينهم وتحليل البيانات هو بنفسه لانك دربته كيف يقوم بعمل هذا من قبل , الامر بسيط الفهم ولكنه معقد عند العمل به ولكن هذا مفهوم عام عنه لذلك يسمي التعلم باشراف (اي اشراف منك علي الاله في تعلمها)

في النوع التاني انت تقوم باعطاء الكمبيوتر بيانات (X) ولكنك لا تعرف ما هي المخرجات (Y) وتطلب من الاله اعطاءك مخرجات (Y) ومن هنا اشتق الاسم (التعلم بدون اشراف) لان كل ما في الامر انك تعطيها البيانات فقط وهي تقوم بالحسابات لتعطيك المخرجات , ولكن كيف تقوم بعمل هذا , هو ما سوف نتحدث عنه في هذا المقال ..

النوع الثالث هو يشبه خليط بين النوع الاول والثاني وهو يتعامل مع بيئه تفاعليه ويقوم بالتعلم من اخطاءه , وهو شبيه بما يقوم به فيسبوك وجوجل ويوتيوب , مثلا اذا وجوك جوجل تحب قراءة مقالات كثيره من موقع (Biotech Informatics) سيظهر لك اعلانات من الموقع اولا واذا وجد العكس لن يظهر لك اي شئ يخص الموقع اي انه يتعلم من سلوكك (بيئه تفاعليه)

لقد استخدم التعلم الآلي على نطاق واسع في المعلوماتية الحيوية , على سبيل المثال ، يعتبر التعرف على الجينات والعناصر الوظيفية الأخرى في الجينوم موضوعًا مهمًا في المعلوماتية الحيوية والجينوميات , طور العلماء طرقًا للتعلم الآلي مثل الشبكات العصبية الاصطناعية وآلات مكافحة ناقلات الأمراض لهذه الأنواع من المهام , آلة التعلم هي في الواقع نموذج أيضًا ، ولكنها ليست بالضرورة ان تكون إحصائية ، ويتم استخدام البيانات التي تم الإبلاغ عنها بالتجارب البيولوجية لتدريب النموذج علي موضوع ما , يمكن أيضًا اعتبار HMM كطريقة للتعلم الآلي , يستخدم نموذجًا إحصائيًا متسلسلًا لوصف البيانات ، كما يجب تدريب المعلمات في النموذج على البيانات المعروفة , مثال نموذجي آخر هو استخدام بيانات ميكروأري أو بيانات تعبير البروتينات لتصنيف السرطانات. بالنسبة لكل مريض ، فإن التعبيرات الجينية التي تقاس بالميكروبات الدقيقة تؤلف متجهًا , يمكن أن ينظر إليها باعتبارها الميزات الأصلية لتصنيف العينات , يمكن للمرء اختيار عدد أقل من الجينات لتصنيف نوع معين من السرطان مع الخلايا الطبيعية أو لتصنيف أنواع فرعية من السرطان , يبدو وكأنه مهمة التعرف على الأنماط القياسية.

الان دعنا نتحدث عن التعلم بدون اشراف (unsupervised) ولتوضيح الفكره اكثر دعنا نضرب مثل بسيط , شركه من شركات التكنلولجيا الحيويه تقوم بانتاج كيماويات (kit) تستخدم في البحث العلمي و لديها عدد كبير من العملاء في مصر يقومون بشراء المنتجات الخاصه بالشركه , والشركه بالطبع لديها بيانات هؤلاء العملاء , ولكن الشركه ليس لديها بيانات عن سلوكهم الشرائي هل هو مكثف او ضعيف , عن عن رضاهم من عدمه عن منتجات الشركه , كل ما املك هي بعض البيانات الشخصيه للعملاء , الحل هنا هو تقسيم (Cluster) بيانات المدخلات لهؤلاء العملاء الي مجموعات بحيث تكون كل مجموعه بيانات متشابهه مع بعضها (لنفترض مثلا ان الكمبيوتر يقوم بتقسيمهم الي 5 مجموعات كالاتي)

المجموعه الاولي : باحثين يعملون في مستشفيات تقوم بنشر ابحاث عديده في السنه , المجموعه الثانيه : باحثون يعملون في مراكز بحثيه كبيره في مصر , المجموعه الثالثه : اساتذة جامعات ولكن ليس لديهم نشاط بحثي دائم  ومن خلال هذا التقسيم استطيع اعرف المعدل الشرائي لهؤلاء المجموعات حيث يكون من البديهي جدا ان المعدل الشرائي للمجموعه الاولي اعلي من المعدل الشرائي للمجموعه الاخيره تبعا للبيانات التي امتلكها وهي انهم يعملون في اماكن تنشر ابحاث بمعدل مرتفع والمجموعه الاخيره غالبا لا تستخدم الكيماويات كثرا لانهم يعملون في اماكن لا يتم فيها ابحاث كثيره  , و اهم نقطه في كل هذا هو التقسيم (Clustering) وهو تقريبا اهم ما يعطينا هذه المخرجات , دعنا نتعرف اكثر علي مفهوم التقسيم (Clustering)

| clustering

المفهوم البسيط لهذا المصطلح الغير بسيط تماما هو تقسيم جميع الداتا الكبيره لدي الي مجموعات صغير كل مجموعه متشابهه مع بعضها ومختلفه مع المجموعات الاخري , التقسيم حسب التشابه يشبه اننا لدينا مجموعه من الميكروبات متكون  100 ميكروب المنجه للمضادات الحيويه وانا لدي معلومات مسبقه ان هذه الميكروبات منها من هو محب للحراره وانتاجه للمضاد الحيوي يكون كبير في الدرجات المرتفعه ومنها من هو محب للحراره وانتاجيته للمضادات الحيويه يكون قليل في الحراره المرتفعه ومنها من هو يحب الحراره المتوسطه وانتاجيته تكون متوسطه في درجات الحراره المتوسطه , سيقوم الخوارزميه بتقسيم ال 100 ميكروب الي ثلاثة مجموعات تبعا لتشابههم الي بعض ولكنه لا يعرف محب وكاره , منتج وغير منتج الخ .. , هو لديه بيانات ولكنه لا يفهم ما هية هذه البيانات , كل ما لديه بيانات خام فقط يقوم بالتقسيم تبعا لتشابههم مع بعض حيث يتم تقسيم البيانات من بيانات عامه مختلطه الي اقسام صغيره مميزه

| k-means algorithm

هذا التقسيم يتم عن طريق خوارزميه تسمي k-means تعال بنا لنتعرف اكثر عليها ..

ببساطة ، الخوارزمية (k-means) هي مجموعة من تعليمات المهام التي يجب اتباعها. غالبًا ما يتم تنفيذ الخوارزميات بواسطة أجهزة الكمبيوتر ، ويتم استخدامها في العمليات الحسابية أو حل المشكلات. وبشكل أساسي ، لا تعد الخوارزمية أكثر من مجرد سلسلة من إرشادات المهام التي يجب اتباعها بواسطة جهاز كمبيوتر – مثل وصفة الطبخ , في الوقت الحالي ، كل ما تحتاج إلى معرفته هو أن الخوارزميات غالباً ما تكرر خطوات محددة من تعليماتها من أجل أن تؤدي وظيفتها الموضوعية قيمة مرضية

تعتمد الخوارزمية على مستخدمها لتحديد عدد k الذي يجب أن يكون و عدد (k) هو عدد المجموعات التي ستقوم ببناءها الخوارزميه حيث  انه إذا اختار المستخدم k = 2 على سبيل المثال ، فستحدد خوارزمية k-mean مجموعتين و كما قلت من قبل k-means algorithm غير خاضعة للإشراف (unsupervised) وهنا الخوارزميه لا تعرف كيف يبدو التجمي الجيد, في الحالة التي يكون فيها المحدد k = 2 المحدد ، ستسعى الخوارزمية إلى تحسين وظيفتها الموضوعية نظرًا لوجود مجموعتين. ستحاول وضع ملاحظاتنا (2) في مجموعتين تقلل المسافة الإجمالية للرصدات إلى مركز مجموعتهم

| كيف تعمل الخوارزميه .. ؟

سنأخذ مثال بسيط علي كيفية عمل الخوارزميه من خلال بضع خطوات ومن خلالها تستنتج كيفية العمل بها

هذه الصور تلخص الخطوات الذي سنتحدث عنهم , بعد الانتهاء من قراءة كل خطوه عليك ان تعود للصوره الخاصه بها لفهم ما قرات ولفهم الصوره

  • الخطوه الاولي : اختيار عدد المجموعات (k)

لنفترض ان لديك 32 جين , وكل جين يختلف عن الاخر في عدد تتابعاته ونسبة تعبيره وبعض الصفات الاخري , وبما اننا لدينا معلومات عن الجينات ف من خلال تحليلك للشكل العام للبيانات الخاصه بالجينات قمت بتقسيم هذه الجينات الي مجموعتين , كل مجموعه اكثر تشابها مع بعضها و عادة ، سيكون لدينا أسباب ذكية أو صحيحة لتوقع عدد محدد من المجموعات بين ملاحظاتنا , حسنًا ، هذه الخطوة (1) مكتملة بالفعل : لقد حددنا k = 2

  • الخطوه الثانيه : اختيار المراكز

يجب أن يبدأ الجميع في مكان ما ، وتبدأ خوارزمية بسذاجة فائقة : فهي تختار فقط المواقع العشوائية كمراكز تجميع البداية حيث انه بدون حسابات تضع مراكز عشوائيه في اي مكان سواء كان قريبا او بعيد من البيانات الخاصه بك

الآن ، يتم تنفيذ الخطوة (2) ، وتمت تهيئة الخوارزمية الخاصة بنا بشكل كامل. نحن الآن على استعداد لدخول الحلقة الأساسية للخوارزمية. سيتم تكرار الخطوات الثلاث التالية  (3 , 4 , 5) حتى تختار الخوارزميه المراكز الصحيحه بشكل غير عشوائي

  • الخطوه الثالثه : اختيار أقرب مجموعة

الان ستنظر الخوارزميه الخاصه بنا الي اقرب الجينات الي كل مركز من المراكز المعينه عشوائيا عن طريق قياس المسافه بين كلا من المركزين حيث ينتمي الجين الي المركز الاقرب له نظرًا لأن هذه هي المرة الأولى التي تصل فيها خوارزمية (k-mean) إلى الخطوة 3 ، فإن مراكز المجموعة لا تزال في المواقع العشوائية التي اختارتها الخوارزمية في الخطوة (2) وتحسب الان الخوارزميه المسافه الاقليديه لكل نقطة بيانات الي كلا من المركزين المحددين عشوائيا ومن ثم تنتمي النقطه الاقرب للمركز الاقرب لها وتتم اعادة هذه الخطوه علي كل البيانات وكل النقاط

  • الخطوه الرابعه : تحديث وتعدل المراكز

نتيجة للخطوة (3) ، توجد الآن ملاحظات فعلية مخصصة للمجموعات. وبالتالي ، يمكن للخوارزمية التخلي عن التخمينات العشوائية الأولية الساذجة وحساب مراكز الكتلة الفعلية و نظرًا لأننا نتعامل مع خوارزمية k-mean)) ، ستستند هذه المراكز إلى القيم المتوسطة للرصدات (اي النقاط المنتميه الي المركز) في كل مجموعة ,  لذلك بالنسبة لكل مجموعة ، تأخذ الخوارزمية الملاحظات المخصصة لها ، وتحسب القيمة المتوسطة للكتلة لكل متغير. في حالتنا ، تقوم الخوارزمية بحساب 2 تعني : (حجم الجين , التعبير الجيني له ) و مع تحديث مراكز الكتل ، انتهت خوارزمية k-mean من الخطوة (4) حيث ستلاحظ في الصوره (d) انتقال المركز الي مكان اخر غير الذي كان موجود في صوره (c)

  • الخطوه الخامسه : الانهاء او العوده الي الخطوه الثالثه

الانهاء او العوده , كيف تعرف خوارزمية (k-mean) متى يتم هذا او ذاك ؟

حسنًا ، نعلم بالفعل أن خوارزمية (k-mean) تريد تحسين وظيفتها الموضوعية , وهي تسعى إلى تقليل المسافة الإجمالية للرصدات إلى مراكزها , وهي تقوم بذلك عن طريق تخصيص ملاحظات النقطه التي يكون مركزها أقرب وفقًا للمسافة الإقليدية وهذا تحدثنا عنه , فتبدأ الخوارزميه في تكرار الخطوتين السابقتين الي ان تصل الي اكثر شكل تكون راضيه عنه من تغير المراكز واقتراب الرصدات من المركز الاقرب لها , وتنهي الخوارزميه العمل بالشكل الانسب للبيانات الخاصه بنا

| The clustering solution

مع اكتمال التجميع الآن ، يمكننا محاولة فهم بعض مخرجات الخوارزميه , على سبيل المثال ، يمكننا فحص مدى اختلاف الملاحظات المضمنة في كل مجموعة على متغيراتنا و مخطط الكثافة بالصوره القادمه هو مثال على كيفية المضي قدماً في استكشاف ما تمثله المجموعات

كما نعلم ان الخوارزميه قامت بتقسيم البيانات الخاصه بنا الي مجموعتين , لناخذ مثلا ان مجموعة البيانات الخاصه بنا كانت كانت عباره من مجموعة جينات الخاصه بنا كانت متفاوته الحجم في التتابعات منها من هو طول 100 Pb ومنها من هو طوله 1000 Pb الخ , وقامت الخوارزميه بعمل تقسيم الي مجموعتين كما علمنا , في هذه الصوره تظهر مجموعتين حيثت تحتفظ المجموعه الاولي ذات اللون الاحمر بالجينات ذات التتابعات الكبيره والتعبيرات الجينيه الكبيره , والمجموعه الثانيه باللون الازرق تحتفظ بالجينات ذات الحجم الصغير للتابعات والتعبير الجيني القليل , يعطينا هذا فهم مبدأي لمجموعة البيانات الخاصه بنا , انه كلما ازداد حجم الجين ازداد تعبيره (قد لا يكون هذا غير صحيح بيولوجيا ولكنه مجرد مثال بسيط لتوضيح الفهم)

من الواضح أن حلول التجميع هذه ستصبح أكثر تشويقًا حيث نضيف المزيد من المجموعات والمزيد من المتغيرات لفصل مجموعاتنا وملاحظاتنا , لان هذا العدد من المجموعات قليل جدا فما بالك بزيادة البيانات والمجموعات .. ؟ هذا ما يحدث عند تحليل البيانات الكبيره في علوم الجينوم , الي هنا نكون قد انتهينا من هذا المقال ونلقاكم في مقالات اخري

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey