تحليل بيانات (microarray) الجزء الثاني

تحليل بيانات (microarray) الجزء الثاني

في هذا المقال سوف نستكمل ما بدأناه في المقال السابق , اعلم انه قد يبدو من الصعب فهم كل ما ورد في المقال السابق خاصة ممن ليس لديهم خلفيه في التحليل الاحصائي للبيانات , ولكن في هذا المقال ستتضح الصوره اكثر عن المقال السابق , في هذا المقال سوف نستخدم مجموعة بيانات من تجربة ميكرواراي للكروموسوم 21 لمتلازمة داون , وسنبدأ باستخدام برنامج الاكسل وهو يستخدم في كثير من الاحيان لفلترة البيانات

| نظره علي البيانات باستخدام Excel

(مجموعة بيانات صغيرة تستخدم لإثبات النهج الإحصائية لتحليل بيانات ميكروأري)

تتضمن الأعمدة أسماء الجينات (العمود A) ، الي اي كروموسوم ينتمي (العمود B) ، وقيم الكثافة لسبعة عينات من متلازمة داون (DS1 إلى DS7 ؛ أعمدة G إلى M) وسبع عينات تحكم (Control) من (C1 إلى C7 ؛ أعمدة N إلى T)

تم اختيار الجينات الأربعة الأولى لوجود مستويات عالية للتعبير , ثم تم اختيار الجينات الأربعة التالية ، وجميعها مخصصة للكروموسوم 21 ، لأنها منظمة بشكل مختلف : فهي موجودة بكميات كبيرة في عينات متلازمة داون بالنسبة إلى الضوابط  (Control) في (C1 إلى C7 ؛ أعمدة N إلى T) لأن متلازمة داون ترتبط بثلاث نسخ من الكروموسوم 21 بدلاً من النسختين العاديتين في الخليه الطبيعيه

قيمة  (P-VALUE) الناتجة عن (t-test)  (العمود E) , متوسط قيمة تعبير متلازمة داون (العمود C) ، ومتوسط ​​قيم التحكم (العمود D) , ومتلازمة داون للتحكم في النسبه (العمود F ، مشتقة من C / D) , لاحظ أن المؤشر على الخلية (E11) يعرض صيغة t-test في مربع الوظيفة في الأعلى) يتم استيراد مصفوفة البيانات إلى ((R ويتم نقلها وانشاء مصفوفه (لمعرفة كيف يتم استخدام في هذه النقطه راجع مقال للكاتب بعنوان “مدخل الي تحليل البيانات بلغة  R) ، وتنتج 14 صف (عينات) و 8 أعمدة (جينات)

DS1 9110  9575  10864 12785 1347 480 816  574
DS2 9578  10104 10133 12785 1189 428 634  484
DS3 8931  9733  10864 13000 1340 510 750  465
DS4 9385  11106 12807 11876 1579 498 705  602
DS5 9606  10718 10191 12761 1496 441 668  548
DS6 8708  10641 11966 12209 1552 473 791  535
DS7 9787  10325 10780 10890 1555 555 1016 701
C1  8945  8879  9766  13675 793  306 427  365
C2  10178 9097  9934  12999 925  476 476  365
C3  10327 8892  10040 13716 850  362 450  336
C4  8431  13289 11165 14894 992  283 492  388
C5  9077  10239 9648  15221 911  258 318  368
C6  9315  9795  11800 12312 799  319 399  375
C7  8922  10308 11315 11895 914  306 368  417

من الممكن أن لا توجد جينات في تجربة لها تعبير جيني مختلف بشكل إحصائي , ومع ذلك ، سيكون من الممكن دائمًا ترتيب الجينات حسب نسب التعبير وإيجاد المجموعة التي تتكون من أكثر نسب التعبير تطرفًا او خارج عن المالوف , وبالتالي فإن هذا النهج له فائدة محدودة واحيانا ينتج بعض الاخطاء

| اختبار الفرضيات

الهدف من التحليل الإحصائي الاستدلالي لبيانات ميكروأري هو اختبار الفرضية القائلة ( بأن بعض الجينات يتم التعبير عنها بشكل تفاضلي في المقارنة التجريبية بين حدثين او اكثر) , حيث نقوم بصياغة فرضية العدم (H0) ثم نحدد ونحسب (t-statistic) وهي قيمة تميز بيانات التعبير الجيني المرصودة ومن ثم سنقبل أو نرفض الفرضية الصفرية استنادًا إلى نتائج  t-statistic

من خلال (t-statistic) ، يمكننا حساب (P-VALUE) وهذا يسمح لنا إما برفض أو قبول فرضية العدم حيث ان ظروف التحكم والظروف التجريبية لها قيم تعبير جينية متساوية (بمعنى ، أن فرضية العدم تعني أنه لا يوجد تعبير تفاضلي)

بالنسبة ل (t-test) الذي يوفر قيمة (P-VALUE) ، فإن هذا يعني أن الفارق المرصود بين المجموعتين( مجموعة التحكم) و (المجموعة التجريبية) سيحدث عن طريق الصدفة مرة واحدة , أربع جينات مخصصة للكروموسوم 21 لها (P-VALUE) منخفضة جدا ، واحد لديه (P-VALUE) تبلغ (0.05) ، وثلاثة لها (P-VALUE) غير محددة (0.97 ، 0.70 ، 0.28) (انظر في صورة اكسل)

دعنا نفكر في فائدة (t-test) من خلال النظر في أربعة جينات (أي نسخ RNA)

تم تناول التباين الخاص بالجينات بواسطة (t-test) لأربعة جينات افتراضية , يحتوي الجين 1 على مستوى تعبير منخفض مطلق وتضاؤل ​​منخفض عند القياسات المتكررة في عينات بيولوجيه مكررة ، بينما يمتلك الجين 2 مستوى تعبير منخفض وتباينًا عاليًا نسبيًا , يتم التعبير عن الجينات 3 و 4 بمستويات عالية ، مع وجود تباين منخفض في الجين 3 ويكون للجين 4 تباين عالي , حيث ان كل نسخة من الرنا لها خاصية مميزة لمستوى تعبيرها (على الرغم من أن هذا قد يختلف بشكل كبير عبر مناطق الجسم وعبر مراحل النمو) , عندما نقارن الجين 4 في حالتين (يشار إليهما بالجين 4 و 4 * ، مثل (مستويات بيتا غلوبين في خلايا الدم الحمراء الطبيعية والخلايا المنجلية في الخلايا المصابه) فإن حسابات (t-test ( هي الفرق في المتوسط ​​بين القياسين ، وكذلك يقدم تحليلا للتغير في قياسات التعبير داخل كل من العينات

تُعرف قوة الاختبار الإحصائي بانها (1- بيتا) حيث بيتا هي احتمال الاستنتاج أنه لا يوجد فرق كبير بين متوسطين عندما تكون الفرضية البديلة حقيقة و كلما كان حجم العينة أكبر ، كانت الطاقة أكبر

(الافتراض البديل هو أنه بالنسبة للأعداد الكبيرة من النسخ المتماثلة ، يتم توزيع (t-statistic) عادة بالوسط (0)  والانحراف المعياري لـ 1 ، ومرة ​​أخرى يمكننا حساب (P-VALUE) , في الواقع ، نادرًا ما تتوفر أعداد كبيرة جدًا من النسخ المتماثلة لدراسات ميكرواراي ) تفترض الاختبارات البارامترية مثل (t-test) توزيعًا طبيعيًا , وعلى النقيض من ذلك ، فإن الاختبارات اللابارامتريه تصنف متغيرات النتيجة ولا تفترض التوزيع الطبيعي.

الاختبارات اللابارامتريه ، مثل اختبارات (Mann–Whitney) و(Wilcoxon tests)، وهي تكون أقل تأثرًا بنقاط البيانات المتطرفة للغاية , هذه الاختبارات لا تطبق عادة على بيانات ميكروأري

يعتمد الاختبار المستخدم على النموذج التجريبي , سنوضح بعض الأمثلة على التصاميم التجريبية في الصوره القادمه , حيث قام (Golub et al. 1999) بقياس التعبير الجيني في عينات من المرضى الذين يعانون من اللوكيميا الحادة التي تحدث في نوعين فرعيين

في هذا التصميم التجريبي ، من الضروري التحكم في العوامل مثل الاختلافات في العمر أو الجنس أو الوزن للافراد في المجموعتين  سيتم استخدام (t-test) المقترن لاختبار الاختلافات في القيم المتوسطة بين مجموعتين من القياسات على العينات المتزاوجة

كيف يمكننا التأكد من أن القيمة الاحتمالية التي نحصل عليها من (t-statistic) لا يتم الحصول عليها فقط عن طريق الصدفة ، أي بسبب التغيرات العشوائية في التعبير الجيني ؟ يمكن إجراء permutation test)) حيث يتم تصنيف العناوين المرتبطة بكل عينة على سبيل المثال ، البيانات المريضة (diseased) مقابل بيانات التحكم (control)

يتم تطبيق (t-statistic) على كل جين ، ويتم قياس (P-VALUE) و يتم تشغيل مجموعة كبيرة من الاختبارات المتقطعة  (على سبيل المثال ، 100 إلى 1000) ، ويتم رفض الفرضية الصفرية إذا كانت (P-VALUE) الملاحظة أقل من أي (P-VALUE)من( permutatio test)

الان سناخذ مثالا علي التصميم التجريبي في مرض اللوكيميا وهو مرض سرطان الدم لنري كيف يتم استخدام الاختبارات الصحيحه  تبعا لنوع العينه التي نعمل عليها , كما ذكرنا من قبل تختلف الفرضيات والاختبارات تبعا للعينه لذلك يجب الحذر عند مرحلة التصميم التجريبي لانها مرحله مهمه جدا عن تحليل البيانات لتتسم بالنهايه البيانات بالصحه او الخطا

أمثلة على التصميم التجريبي لتجارب ميكروأري التي تتضمن تنميطًا للتعبير الجيني. تم تصميم معظم هذه التجارب ميكروأري لاختبار فرضية أن هناك اختلافات كبيرة في التعبير الجيني البيولوجي بين العينات كدالة من عوامل مثل نوع الأنسجة (خلايا طبيعيه مقابل خلايا مريضه أواختلاف الانسجه الدماغ مقابل الكبد)

قبل ان نبدا يوجد تعريفين مهمين لفهم هذه الصوره وهم

  • Between-subjects مثال : يقوم أشخاص مختلفون باختبار كل حالة ، بحيث يكون كل شخص معرضًا لواجة مستخدم واحدة فقط
  • Within-subjects مثال : يقوم الشخص نفسه باختبار جميع الشروط (أي جميع واجهات المستخدم)

(A) يجب أن تتحكم في العوامل المربكة مثل العمر أو الجنس أو الوزن.

(b) يزيل التصميم داخل الموضوع التباين الوراثي ويمكن استخدامه لقياس التعبير الجيني قبل وبعد العلاج

(C) يسمح ( (between-subjectبقياس الاختلافات بين كل من ظروف المعالجة والتحكم وعامل آخر مثل النوع (ذكر او انثي)

(D) يسمح (within-subject) استخدام التصميم العكسي لدراسة علاجين مع مرور الوقت.

(E) هنا يحدث تصميم مختلط بين (within-subject) (على سبيل المثال ، قياسات التعبير الجيني بمرور الوقت)  و (between-subject) (على سبيل المثال ، نسيج طبيعي مقابل نسيج مريض)

| تصحيحات لمقارنات متعددة

إذا قمت بقياس قيم التعبير لـ 10000 تعبير جيني ، يمكنك أن تتوقع العثور على اختلافات في 5٪ منها (500 تعبير) تكون ذات أهمية اسمية عند مستوى 0.05 p  ومع ذلك ، من الضروري ، بالنسبة إلى 10000 تعبير ، تطبيق بعض التصحيح المحافظ  لتفسير آلاف القياسات المستقلة المتكررة التي تقوم بها

نريد فقط ان نتعرف علي تعرفين في هذه النقطه مهمين لفهم الموضوع

– (false positive results) يشير إلى نتيجة اختبار تخبرك بوجود مرض أو مشكله ، و في الواقع  لا يوجد أي مرض او مشكله , نتيجة إيجابية خاطئة هي خطأ في الاساس ، مما يعني أن النتيجة لا تعطيك المعلومات الصحيحة , مثال ، اختبار الدم يهدف إلى الكشف عن سرطان القولون و تعود نتائج الاختبار إلى القول إن الشخص مصاب بسرطان القولون في حين أنه لا يعاني من هذا المرض هذا يسمي نتيجه إيجابيه كاذبه

– (false negative results) وهو يعكس تماما النوع الاول حيث تشير نتيجة الاختبار ان هذا الشخص لا يعاني من اي مرض او مشكله ولكنه في الواقع يعاني من مرض ويظهر عليه هذا المرض ولكن نتيجة الاختبار تقول انه سليم (اذا ف هي خاطئه)

نحاول هنا تقليل هذه المشاكل في النتائج الخاصه بنا

تتضمن أخطاء النوع الأول (false positive results)

تتضمن أخطاء النوع الثاني (false negative results)

هناك طريقة أكثر شيوعًا لتجنب مشكلة تصحيح المقارنات المتعددة وهي ضبط معدل الاكتشاف الزائف (FDR) يتم تعريف هذا على النحو التالي :

معدل الاكتشاف الخاطئ (FDR) هو طريقة لتصنيف معدل أخطاء النوع الأول في اختبار فرضية العدم  H0))عند إجراء مقارنات متعددة وتتم كالتالي :

يمثل (FDR) المعدل الذي لا يتم فيه تحديد الجينات التي تم تنظيمها بشكل كبير , بالنسبة إلى  FDR من (0.05 )، فإن 5٪ من التعبير او النسخ ا يطلق عليها هي (false positives) , بالنسبة إلى 100 جين مُنظَّم بشكل كبير و FDR بنسبة 8٪ ، من المتوقع أن تمثل 8 جينات من أصل 100 false positive results

يمكننا مقارنة FDR مع (false positive rate FPR)

يقيس (FPR المعدل الجينات التي لا يتم تنظيمها بشكل كبير )

في ( FPR) يتم حساب المعدل الموجب الخاطئ كنسبة بين عدد الأحداث السلبية التي تم تصنيفها بشكل خاطئ على أنها موجبة (إيجابية كاذبة) التي هي في الحقيقه سلبيه والعدد الإجمالي للأحداث السلبية الفعلية (بغض النظر عن التصنيف)

| SAM

يحدد SAM درجة لكل جين في تجربة ميكروأرياي  بناءً على تغييره في التعبير الجيني , يتم تقييم الدلالة الإحصائية باستخدام (permutation test) الذي تتم فيه مقارنة النتائج التي تمت ملاحظتها مع نتائج القياسات المتكررة من مجموعة البيانات المختلطة

تعتبر دراسات المقارنة من هذا النوع قوية للغاية ويمكن تصميمها بشكل استراتيجي لتحديد التعبير التفاضلي في مجموعة متنوعة من الحالات مثل : الحساسية الكيميائية (الاستجابة للدواء مقابل عدم الاستجابة) ، تطور المرض ، خليه طبيعيه مقابل مريضه ، استجابة الدواء ، أنواع فرعية للمرض ، ويتم استخدام (SAM) على نطاق واسع لأنه يوفر تصحيحات متعددة ل (t-tests) ، واختبارات العينات المزدوجة

إحدى الميزات القيّمة لـ SAM هي أنها تعطي تقديرات لمعدل الاكتشاف الكاذب (FDR) ، وهي نسبة الجينات التي من المحتمل أن تكون قد تم تحديدها عن طريق الصدفة بانها هامة

يمثل الإدخال إلى SAM مصفوفة (matrix) لقيم التعبير الجيني ومتغير الاستجابه (على سبيل المثال ، عنصر تحكم control ،وعنصر تجريبي) ,  يختار المستخدم  parameter deltaلتحديد قطع الدلالة بناءً على المعدل الموجب الخاطئ (false positive rate)

(أ) يتضمن (output) قائمة بجينات منظمة بشكل ملحوظ , (score d) قيمة (t-statistic) لكل جين , يشير البسط (numerator) والمقام (denominator) في جدول البيانات إلى الفرق بين وسائل قيم التعبير الجيني التي يتم مقارنتها وتقدير الانحراف المعياري للبسط ، و (q value) هي معدل الاكتشاف الخاطئ  صوره توضح رسومات (SAM) في النهايه

تتضمن الصوره قطعه من قيم التعبير الجيني المتوقعه مقابل القيم التي تم رصدها , يشير (السهم 1 ) الي جينات (upregulated) ومن ثم يشير (السهم 2) الي جينات (downregulated)

في SAM ، يتم استخدام اختبار (permation-tation)  لتقييم أهمية الجينات التي تم التعبير عنها , يقاس إحصاء الاختبار 100 مرة أو أكثر لكل جين مع تسميات العينة العشوائية , يمكنك إجراء تحليلات مماثلة لـ FDR باستخدام لغة R أو برنامج مثل (Partek)

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey