تحليل بيانات Microarray (الجزء الاول)

تحليل بيانات Microarray (الجزء الاول)

تحدثنا في المقال السابق عن مبدأ عمل تقنية (Microarray) , كما ذكرنا ان المقالات القادمه سوف تكون لبعض الاحصائيات في تحليل بيانات (Microarray) دعنا ناخذ نظره عامه علي الشكل العام لتجربة (Microarray)

| نظرة عامة على تحليل بيانات (Microarray)

– أولاً ، يتم صياغة سؤال بيولوجي ثم يتم إنشاء تصميم تجريبي (ويفضل أن يتم ذلك بالتعاون مع أخصائيي الإحصاء الحيوي)

– بعد أن يتم عزل RNA ويتم إنشاء بيانات (Microarray) ، هناك ثلاث مراحل رئيسية لتحليل بيانات (Microarray)

1- يتم إجراء المعالجة المسبقة لتحليل بيانات الصورة الخام ، وتطبيعها او تسويتها ، وإنشاء مصفوفة من الجينات والعينات , بالنسبه الي رقائق (Microarray) الخاصه بشركة (Affymetrix) فإن خطوة المعالجة المسبقة الإضافية هي تلخيص يتم فيه تقدير قيمة التعبير لجين معين (mRNA transcript) استنادًا إلى النتائج من سلسلة من التهجين إلى ) (olignonucleotide)  وهو جزئ RNA مصنوع في المعمل ) المطابقة لهذا الجين

2- يتم إجراء اختبار فرضية يتم فيه تطبيق t-tests ، أو ANOVA ، أو اختبارات إحصائية أخرى لتحديد النصوص التي تم تسجيلها أو خفضها بشكل كبير في التجربة

3- يمكن تطبيق الإحصائيات الاستكشافية (الوصفية) لتتم مقارنة أوجه التشابه في نقاط البيانات مع قياس مثل معامل الارتباط

4- وأخيرًا ، بعد إجراء تحليل بيانات (Microarray) ، يمكن إجراء تجارب تأكيد بيولوجي قد يؤدي هذا إلى نظرة ثاقبة حول العمليات البيولوجية أو النتائج ذات الصلة بالأمراض

| البرمجيات ومجموعات البيانات

هناك ثلاثة أنواع رئيسية من البرامج المتاحة لتحليل بيانات (Microarray)

1- حزم البرامج التجارية المرتبطة بمصانع ميكروأري , على سبيل المثال ، يقدم (Affymetrix) حاليًا برنامج( MAS 5.0) لصفحاته

2- تشمل حزم البرامج التجارية الأخرى على (BioDiscovery , GeneSifter و MATLABw , (Partek Genomics Suite , Spotfire بالإضافة إلى برامج جداول البيانات مثل (Microsoft Excel) و S-PLUS تشمل باقات الإحصاءات STATA , (SAS)

3- هناك حماس كبير لدي مجتمع المعلوماتية الحيوية للبرمجيات مفتوحة المصدر ، مثل مشروع (BioConductor) الذي يقدم مجموعة متنوعة من الحزم المتوفرة مجانًا , ويتم تنفيذها في بيئة برمجيات (R) المتاحة مجاناً للحوسبة الإحصائية والرسومات

كما تم دمج أدوات التحليل البسيطة في (Gene Expression Omnibus GEO) في المركز الوطني لمعلومات التقنية الحيوية (NCBI) ، وكذلك (ArrayExpress) في المعهد الأوروبي للمعلوماتية الحيوية (EMBL) و (CIBEX) في قاعدة بيانات الحمض النووي في اليابان

سنوضح نُهُج تحليل البيانات في هذا المقال باستخدام عدة مجموعات من البيانات (كلها متوفرة كمستندات ويب)

| جودة بيانات (Microarray)

يمكن أن تولد تجارب ميكروأري كميات كبيرة من البيانات ، وقد نشأ السؤال حول ما إذا كانت الدراسات عبر مختلف المنصات أو عبر مختبرات مختلفة قابلة لإعادة إنتاجها .. ؟

على سبيل المثال ، في أواخر التسعينات عندما تم إدخال ميكروأراي لأول مرة ، تم الإبلاغ على نطاق واسع أن مستنسخات (cDNA) المودعة على (Microarray) كانت في الغالب ملوثة أو تمثل الجين الخطأ وقارنت مؤخراً قياسات التعبير الجيني مقارنة بثلاث منصات تجارية (Affymetrix , Agilent , Amersham) باستخدام نفس (RNA) كمواد مبدئية ، وتضمنت نفس الادوات البيولوجية والتقنيات على حد سواء (تثبيت العوامل) وذكروا أنه لا يوجد سوى تداخل محدود في نسخ ملفات (RNA) التي حددتها المنصات الثلاثة ، بمتوسط ​​معامل الارتباط لبيرسون في القياسات بين المنصات الثلاثة التي تبلغ (0.53) فقط

| معامل ارتباط بيرسون

عندما يختلف متغيرين معًا يقال إنهما مترابطان , إن معامل ارتباط بيرسون له قيم تتراوح من 21 (ارتباط سلبي كامل) إلى صفر (بدون ارتباط) إلى 1 (ارتباط إيجابي كامل)

قبل البدء بأي اختبار أحصائي يتم صياغة فرضية معينة لكي يتم أختبارها عن طريق بيانات احصائية , يجب علينا التميز هنا بين فرضية العدم (H0) , والفرضية البديلة (H1)

1- فرضية العدم هي عبارة عن ظن (ادعاء) على فرضيه أو أكثر من فرضيه في مجتمع قيد الدراسة

2- والفرضية البديلة هي عباره عن ادعاء معاكس لادعاء فرضية العدم.

غالباً ما تخبرنا فرضية العدم بعدم وجود صلة أو علاقة مؤكدة , ومن هنا يشتق الاسم أيضاً. في حالة الاهتمام باثبات فرضية معينة لفرضية ذات دلالة ومغزى أحصائي , يجب صياغة هذه الفرضية كفرضية بديلة لفرضية العدم

يمكن اشتقاق قيمة الاحتمال (p) لمعرفة أهمية الترابط , ربما يكون معامل ارتباط بيرسون هو المقياس الأكثر شيوعًا لتحديد التشابه بين نقاط بيانات التعبير الجيني

| المعالجة المسبقة للبيانات

يمكن أن تعكس التغيرات في التعبير الجيني التي تم تحديدها تغيرات انتقائية وذات صلة بيولوجية في النسخ  بداخل الخليه أوأنها يمكن أن تعكس الاختلافات الناجمة عن أنواع كثيرة من الادوات التجريبية بالمعمل , هذه الادوات  يمكن أن تشمل ما يلي :

1- الاختلافات في نقاوة RNA (أو mRNA) أو الكمية بين العينات البيولوجية التي تتم دراستها. على سبيل المثال ، قد يكون هناك عدم تجانس في أنواع الخلايا التي يتم تشريحها لدراسات التعبير الجيني في الأنسجة المعقدة مثل الدماغ وهذا يعطي دلالات مختلفه

2- الاختلافات في أداء (fluorescence scanner) (تستخدم للكشف وتحديد الأصباغ الفلورية) أو (phosphorimager) (تستخدم للرقائق القائمة على النشاط الإشعاعي)

3- اختلاف كفاءة وضع العلامات على النيوكليوتيدات سواء كان فلورسنتي او اشعاعيا في مرحلة توسيم الـ mRNA

4- عند غسل الرقاقة من أجل الـ mRNA التي لم تلتحم مع مكملاتها من أجل تفادي أية أخطاء في قياس نسبة النشاط الجيني

  • بعض الخطوات الرئيسية في المعالجة المسبقة هي 

1- القياس الكمي للصورة

2- استكشاف البيانات

3- تعديل الخلفية والتطبيع والتلخيص

4- تقييم الجودة

|scatter plot

واحدة من أكثر الطرق المرئية شيوعًا لبيانات (Microarray) هي (scatter plot) ,  هذا يدل على المقارنة بين قيم التعبير الجيني لعينتين , معظم نقاط البيانات تقع عادة على خط 45  ، ولكن يتم وضع النصوص التي هي أعلى أو أسفل التنظيم خارج الخط , تعرض (scatter plot) النصوص الأكثر دراماتيكية وتفاضلًا في التجربة , سنوضح (scatter plot) بمزيد من التفصيل باستخدام مجموعة بيانات من (Mao et al. 2005)

قيم الكثافة (متوسط 7 عينات متلازمة داون) (صوره 1)

هنا يتم قياس قيم الشدة الخام (متلازمة داون في الكروموسوم 21 محور س) مقابل عناصر التحكم (محور ص).

تمثل كل نقطة نصًا. يشار إلى الجينات المعبره التي هي :

  • (up-regulation) (السهم 1) الجينات التي زادت في نسبة التعبير الجيني
  • (down-regulation) (السهم 2) الجينات التي نقصت في نسبة التعبير
  • (السهم 3) النصوص التي يتم التعبير عنها عند مستويات منخفضة أو في الخلفية هي في أسفل اليسار
  • (السهم 4) النصوص التي يتم التعبير عنها بمستويات عالية في أعلى اليمين (السهم 4)

لوغاريتم قيم الكثافة (متوسط 7 عينات متلازمة داون)  صوره 2

يؤدي تحويل المقياس إلى لوغاريتمي إلى توزيع نقاط البيانات بتساوٍ أكبر ، بدلاً من تجميع معظم القيم في الزاوية اليسرى السفلى ، كما في (صوره 1)

      متوسط  لوغاريتم قيم الكثافة (متوسط 7 عينات متلازمة داون) (صوره 3)

متوسط الكثافة اللوغاريتمية وهو قيمة التعبير الجيني (محور y) في هذه الصوره ، التي تميل  درجه 45 بالنسبة إلى (صوره 2) . هنا ، يعكس المحور السيني مستويات التعبير الجيني ، ويعكس المحور الصادي صعودا أو هبوطا في التعبير الجيني. هذا يشار إليه على أنه مخطط  (MA)

| تسوية البيانات (Normalization)

يشيرمصطلح (Normalization) إلى عملية تصحيح مجموعتين أو أكثر من مجموعات البيانات قبل مقارنة قيم التعبير الجيني لديهم , وكمثال على ذلك من الضروري تسوية بيانات ميكروأري ، حيث يتم دمج الأصباغ Cy3 و Cy5 في (cDNA) ,حيث انه بدون التسويه لن يكون من الممكن إجراء تقييم دقيق للتعبير النسبي للعينات المعلمه بهذه الأصباغ ؛ الجينات التي يتم التعبير عنها بالفعل بمستويات قابلة للمقارنة ، سيكون لها نسبة مختلفة عن تلك (البيانات غير المسجلة)  او (للبيانات المسجلة)

التسويه ضروريه أيضًا للسماح بمقارنة تعبير الجينات عبر تجارب ميكروأري متعددة وبالتالي هناك حاجة إلى التسويه لكل من تجارب ميكروأري ذات القناة الواحدة والثنائية و كخطوة أولى ، يتم قياس إشارة شدة الخلفية وطرحها من الإشارة لكل جين (Beissbarth et al.، 2000)

يطبق معظم الباحثين تسويه عامه على كثافة عنصر الصفيف (السَّطْرُ المُسْتَوي من كل شيء) الخام بحيث يكون متوسط ​​نسبة التعبير الجيني واحدًا  , الافتراض الرئيسي لتسوية بيانات ميكروأري هو أن متوسط ​​الجين لا يتغير في مستوى تعبيره في العينات البيولوجية التي يجري اختبارها  , لتصحيح قيمة البيانات هنا يجب علينا أن نرجع أغلبية النقاط إلى الخط ( M = 0) , حيث تتم عملية توفيق المنحنى باستعمال طريقة تسمى (LOWESS) وهي طريقة إنحدار تقوم بتقسيم البيان إلى مجالات صغيرة و توفيق منحنى على كل جزء , يمكن كتابة العملية بالمعادلة التالية :

M_{new} =M – lowess (A)

يمكن تطبيق إجراء التسويه العالمي على مجموعات البيانات المكونة من قناتين (على سبيل المثال ، العينات الموضحة في Cy3 و Cy5 أو مجموعات البيانات ذات القناة الواحدة (على سبيل المثال ، بيانات رقاقة Affymetrix). تعامل بيانات القناة الثانية على أنها مجموعتي بيانات فرديتين لقناة واحدة بحيث تقسم كل شدة إشارة عنصر بواسطة عامل تصحيح خاص بالقناة التي اشتُق منها

| الإحكام والدقة

تم تصميم خطوات المعالجة المسبقة لتحسين صحة البيانات (أي تقليل التحيز) في قياسات التعبير الجيني ، ولتحسين الدقة (أي تقليل التباين)

يمكننا التفكير في الصحه والدقة من حيث سلسلة  من السهام التي تصل إلى هدف : الصحه تشير إلى مدى قرب السهام من نقطة الهدف ، في حين تشير الدقة إلى مدى موثوقية الأسهم في نفس النقطة

1- (ا) تتسم الدقه الجيدة بالنتائج القابلة للاستنساخ. يتم تقييمه من خلال قياسات متكررة لنفس العينات

2- (ب) تتميزالصحه الجيدة بالقياسات التي تتوافق مع نتيجة معروفة بشكل مستقل. ويمكن تقييمه عن طريق قياس تركيزات معروفة مسبقا من RNA إلى تجربة جديده لمعرفة اذا كانت التجربه ستتوافق مع التنتائج التي لدينا من قبل ام لا

3- (ج) يتمثل الهدف من المعالجة الأولية للخوارزميات في تحقيق الصحه والدقة على السواء.

(2006) أجرت دراسة مقارنة باستخدام 31 خوارزمية  لتحليل مجموعات بيانات من (Affymetrix) , وقد خلصوا إلى أن تصحيح الخلفية له تأثير كبير على الأداء ، ويميل إلى تحسين الدقة , و قد نجحت خوارزميات (RMA) و (GCRMA) بشكل جيد من حيث الصحه والدقة ، وقد برزت كادوات رائدة في المعالجة المسبقة لبيانات التعبير الجيني لـ(Affymetrix)

 اختبار الصحه والدقه بواسطة RMA

تقاس الصحه بالتخطيط لتركيزات معروفة من  RNA (محور س) مقابل التركيزات المراد اختبارها (المحور ص) , أداء RMA أسوأ قليلاً عند التركيزات المنخفضة ، وهي حالة  تم تحسينها بواسطة خوارزمية (GCRMA)

(ب) تُقاس الدقة بتخطيط متوسط قيمة لوغاريتم التعبيرالجيني (axis x) مقابل الانحراف المعياري للوغاريتم التعبير الجيني (y axis) والانحراف المعياري هو مقياس يستخدم لقياس كمية التباين أو التشتت لمجموعة من قيم البيانات , و ينتج برنامج ( MAS 5.0) انحرافًا قياسيًا عاليًا ، خاصة بالنسبة للنصوص المعبرعنها عند مستويات منخفضة ، في حين يتمتع RMA بقياسات محسنة بشكل كبيرعبر نطاق واسع في المستويات العاليه

الي هنا نكون انتهينا من الجزء الاول من تحليل بيانات (Microarray) , تحدثنا فقط هعن بعض المفاهيم الاساسيه في المقالات القادمه (الجزء الثاني والثالث) نتعمق اكثر في بعض المفاهيم الاخري ..

Share this post

Comment (1)

  • الـ Plotting في برمجة R – Biotech Reply

    […] متكرر فيما يتعلق بالارتباط والانحدار الخطي.يمكنك رؤية هذا المقال بعنوان (تحليل بيانات ميكرواراي) لمعرفة استخدام (scatter […]

    يونيو 10, 2019 at 4:43 ص

اترك رداً على الـ Plotting في برمجة R – Biotech إلغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey