تحليل بيانات (microarray) الجزء الثالث

تحليل بيانات (microarray) الجزء الثالث

| مقدمه

اذا كنت وصلت الي هذا المقال , فبالتاكيد انت انت قرأت الثلاث مقالات السابقه وفهمتهم فهم جيدا لتكمل معنا في هذا المقال الذي سنحاول ان ننهي فيه ما بدأناه في هذه السلسله المكونه من 4 مقالات تبدأ بمبدأ بتقنية ميكرواراي وتنتهي بتحليل بيانات التقنيه

| العديد الاختبارات من اجل ميكرواراي

في بداية هذا المقال سأحاول ان اوضح الفرق بين الاختبارات المستخدمه في تحليل البيانات وايهم افضل للاستخدام , حيث هناك اختبارات عديده تستخدم في تحليل البيانات ولكن لا نعرف لماذا هذا واين نستخدم هذا او هذا الخ ..

يمكن تطبيق مجموعة متنوعة من إحصائيات الاختبار على بيانات ميكروأري , وتستخدم هذه الاختبارات جميعها لاشتقاق (قيم p) التي تساعد على تقييم احتمالية تنظيم جينات معينة لأكثر من ظرفين , (على سبيل المثال تحليل نقاط زمنية متعددة أو قياس تأثيرات العديد من الأدوية على التعبير الجيني) وتحليل التباين بواسطة (ANOVA) بدلا من (t-test)

يحدد (ANOVA) الجينات المعرب عنها تفاضليًا بينما يتم حساب التباين الذي يحدث داخل المجموعات وبين المجموعات حيث ان ANOVA مناسب بشكل خاص عندما يكون لدى تجربة ميكروأري لديها عدة أصناف من المعالجة (على سبيل المثال ، تتم مقارنة عينات التحكم (control) بحالتين مختلفتين من نفس المرض أو بخمس نقاط زمنية مختلفة) أو عوامل متعددة لكل علاج (على سبيل المثال ، النوع ، العمر ، تاريخ عزل الحمض النووي الريبي ، دفعة التهجين)

(ANOVA ) هو نموذج إحصائي يسمى النموذج الخطي ويأخذ الشكل العام للنموذج الخطي الشكل التالي :

(Y) هي دالة خطية لـ (X) مع الميل (بيتا) و(m) , بينما (x1), (x2), . . ., (xj) هي سلسلة من المتغيرات المستقلة , كل من العوامل الثابتة والعشوائية هي متغيرات مستقلة يتم حسابها في النموذج الخطي , تتضمن العوامل الثابتة تأثيرات العلاج التي اختارها العالم بشكل منتظم (مثل الجنس أو السن) التي ستبقى كما هي إذا تم تكرار التجربة , العوامل الثابتة تمثل الظروف الرئيسية التي يهتم بها الباحث

1- دعنا نقارن بين ANOVA) , (t-test)) في نسبة قياس الاشاره الي الضجيج ..

نسبة الإشارة إلى الضجيج مؤشر في العلوم والهندسة يقارن قيمة إشارة مرغوبة بمستوى ضجيج الخلفية ويسمى أيضا الشوشرة , وتعرّف أنها نسبة قدرة الإشارة إلى قدرة الضجيج

(أ) في (t-test) ، يمكن اعتبار القيم من تجربة (microarray) بأنها تحتوي على مكونات للإشارة (قياسات الكثافة التي تعكس الفرق بين وسائل المجموعتين التي تتم مقارنتهما) والضوضاء (قياسات الكثافة التي لا تعكس الفرق بين وسائل المجموعتين التي تتم مقارنتهما)

إذا تم توسيم الحمض النووي الريبي من عينات التحكم يوم الإثنين ، ويتم توسيم الحمض النووي الريبي من العينات التجريبية يوم الثلاثاء ، فسيكون هناك اختلاط تام بين التاريخ والحالة ، ويمكن لبعض أو حتى جميع الاختلافات المرصودة بين عناصر التحكم والعينات التجريبية يكون بسبب التاريخ الذي تم توسيع العينه فيه وليس العلاج

(ب) في ANOVA ، يمكن حساب الآثار الثابتة و العشوائية و يمكن تحليل المتغير الناتج عن عوامل مثل التاريخ التي اخذت فيه العينه والجنس ، بالإضافة إلى التأثير الرئيسي (عوامل التحكم (control) مقابل الظروف التجريبية (experimental) من خلال تقسيم البيانات إلى مكونات متعددة ، يحسّن (ANOVA) نسبة الإشارة إلى الضجيج

2- التكرارات البيولوجية

لأنه عندما نختار مجموعة من سبع عينات من متلازمة داون ، فإننا نقوم برسمها بطريقة غير متحيزة من إجمالي عدد الأفراد المصابين بمتلازمة داون في العالم

فكرة (ANOVA) هي أن الاختلافات في التعبير الجيني قد تكون ناجمة عن التأثيرات الرئيسية (على سبيل المثال ، العينة العادية مقابل العينة المريضة) ، بينما يمكن تحديد مصادر التباين الأخرى (مثل الجنس أو العمر) وحسابها.

إن (F-statistic) من ANOVA يتكون من نسبة الإشارة إلى الضجيج , ومع ذلك ، تتضمن (ANOVA) تقديرًا أكثر تفصيلاً لمصادر الاختلاف , من خلال تقسيم الإشارة إلى حساب التأثيرات الثابتة والعشوائية في البيانات ، يعزز (ANOVA) نسبة الإشارة إلى الضجيج ، مما يسمح لك في كثير من الأحيان بتحديد النصوص المحكومة وتفصيلها لتقليل الخطأ قدر الأمكان

| تحليل الكتلة الهرمية لبيانات ميكروأري

الهدف الرئيسي للتجميع هو استخدام قياسات التشابه (أو المسافة) بين الكائنات لتمثيلها , تكون نقاط البيانات داخل مجموعة أكثر تشابهاً ، وتلك الموجودة في مجموعات منفصلة أقل تشابهاً , من الشائع استخدام مصفوفة المسافة للتجميع بناءً على المسافات الإقليدية. هناك عدة أنواع من تقنيات التجميع , الشكل الأكثر شيوعًا لتحليل ميكروأري هو التجميع الهرمي ، حيث يتم تحديد تسلسل من الأقسام المتداخلة مما يؤدي إلى مخطط شجري (شجرة) , في كل حالة ، تكون النتيجة عبارة عن شجرة توضح العلاقات بين الكائنات (الجينات ، العينات ، أو كليهما)

هل تتذكر مجموعة البيانات التي قمنا بعمل مصفوفه منها وكانت تحتوي علي 8 جينات منهم 4 جينات قريبين لبعض ومسببين في متلازمة داون في الكروموسوم 21 ؟ علينا ان نحضرها الان لنقوم بعمل تجربه عليها ..

باستخدام برنامج (SPLUS) لاحظ أنه في حين أن الشكل العام متشابه ، فإن العديد من العينات لها مواضع مختلفة بشكل واضح في الشجره الاولي (a) مقابل الشجره الثانيه ( b) , على سبيل المثال ، لاحظ أن القائمتين C1) و C2) (الأسهم المتقطعة) قريبة من DS6 و DS7 (أسهم متصله) في الشجرة الأولى ، ولكنهما متصلتان بعيدًا بـ DS6 و DS7 في الشجرة الثانية , بشكل عام ، قد تعطي التقنيات الاستكشافية نتائج مختلفة اختلافات دقيقة أو دراماتيكية في تمثيلها للبيانات

في الشكل (c) قمنا بحذف 4 جينات غير متواجدين في كروموسوم 21 , هل تتذكر المصفوفه في Microsoft Excel)) تركنا فقط النصوص المستمدة من جينات الكروموسوم 21 ، ينتج عنها الآن شجرة تفصل متلازمة داون عن عينات التحكم (control) , يوضح هذا التأثير الذي يمكن إجراؤه عن طريق تضمين أو استبعاد نقاط البيانات المحددة , وتحدد بعض الدراسات الجينات الخاضعة للتنظيم (regulated genes) بشكل كبير ثم تقوم بالتجميع

التجميع الهرمي هو تقنية غير خاضعة للرقابة او الاشراف (سنتحدث عن تحليل البيانات الخاضع للاشراف في نهاية المقال)، ويضمن الاختيار المسبق للجينات المنظمة في مجموعة من العينات أن هذه العينات سوف يتم فصلها في شجرة , وبالتالي ، لا يجب استخدام الشجرة كدليل على التصنيف الناجح

المقياسان الأكثر استخداما لتحديد المسافة بين نقاط بيانات التعبير الجيني هي (Euclidean distance) , (Pearson coefficient of correlation) العديد من حزم البرامج التي تقوم بتحليل بيانات ميكروأري تسمح لك بالاختيار بين هذه المقاييس وغيرها من المقاييس (such as Manhattan, Canberra, binary, or Minkowski) التي تصف الارتباط بين قيم التعبير الجيني

| تغيرات المسافه علي تعبير الشجره

يوضح هذا الشكل تجمّع ثمانية جينات باستخدام الحزمة الإحصائية في (R) باستخدام الأمر (hclust) مقياس المسافة هو الاختيار الافتراضي للمسافة الإقليدية (Euclidean distance) ويوضح الشكل (b) التغير الذي حدث نتيجة تغير المسافه من (Euclidean) الي (Canberra) مما يؤدي إلى تغيير جذري لطوبولوجيا الشجرة كما انه تتوفر العديد من الخيارات الإضافية ، مثل الوصلة الفردية (c) و(Wards’s method) في الشكل (d)

تقدم هذه الأشكال الأربعة أمثلة على العديد من الطرق المتاحة لصنع مصفوفات المسافة وتحويلها إلى أشجار لاحظ الاختلافات في قيم محور ((y والاختلافات في كيفية عرض الكائنات (الجينات)

من المهم ان تلاحظ ان جميع الأشجار الأربعة تفصل بين الجينات الأربعة التي يتم التعبير عنها بمستويات عالية عن تلك التي يتم التعبير عنها عند مستويات منخفضة

ويبقي السؤال ما هي أهمية هذه الطرق المختلفة لصنع شجرة التجميع ؟

يمكننا النظر في المشكلة العامة التي ينطوي عليها تعريف التجميع (cluster) حيث الكائنات التي تتجمع في مجموعات شكلية لها تجانس (تماسك داخلي) وفصل (عزل خارجي) , يتم تقييم العلاقات بين الكائنات قيد الدراسه ، سواء كانت قياسات من بيانات ميكروأري أو وحدات التصنيف التشغيلية (OTUs) في مجال التطور ، من خلال تدابير التشابه أو الاختلاف , دعنا نري هذه الصوره لنضرب مثال بسيط

تشكل الكائنات في الشكل (a) مجموعتين متميزتين ومع ذلك ، بعد تحويل اثنين فقط من نقاط البيانات لإنشاء الشكل (b) ، ليس من الواضح ما إذا كان هناك مجموعتان حيث اصبحوا مجموعه واحده حيث ان تغير بسيط في ادخال البيانات ادي الي تغير كبير في المخرجات , حسنا دعنا نري الشكل (c) والشكل (d) يبدو ان هناك تحديات أخرى لتحديد طبيعة العناقيد موضحة في الأشكال (c) و (d) يعرض كل شكل مجموعتين ظاهرتين توضحان التجانس والفصل حيث يمثل (c) الفصل بين مجموعتين ويمثل (d) التجانس , ومع ذلك ، إذا حددنا نقطة مركزية في كل مجموعة (النقطه الوسطى) وحساب المسافة إلى أبعد النقاط داخل الكتلة ، فإن تلك المسافة ستؤدي أيضًا إلى التداخل مع الكتلة المجاورة اي ان التجانس سيحدث لا محاله

هناك العديد من الطرق المتاحة لحساب القرب بين كائن واحد ومجموعة تحتوي على عدة كائنات (أو لحساب القرب بين مجموعتين)

| تصنيف الجينات

هناك برنامجان شائعان لتحليل بيانات ميكروأري هما (Cluster) و (Treeview). يتم إدخال البيانات في الكتلة كملفات نصية بعلامات مجدولة بحيث تمثل الصفوف الجينات ، والأعمدة تمثل عينات أو ملاحظات

يتيح البرنامج مجموعة متنوعة من التحليلات ، بما في ذلك التجميع الهرمي ، وتجمّع (k-means) والتي تستخدم في تطبيقات التصنيف ، وخرائط التنظيم الذاتي ، وتحليل المكونات الأساسية كما هو موضح في هذه الصورة في اسفل اليمين ، تتضمن الخيارات ستة مقاييس تشابه مختلفة واختيار تجميع المجموعات المتوسطة أو الكاملة أو الفردية

(Alizadeh et al. 2000) قدموا عدد (1.8) مليون قياسات للتعبير الجيني في 96 عينة من الخلايا الليمفاوية الطبيعية والخبيثة , يتم تجميع خطوط الخلايا في أعمدة عبر الجزء العلوي ، ومن أجل الوضوح ، يتم إظهارها أيضًا بالتدوير الجانبي إلى اليسار و يتم ترتيب الجينات في صفوف وعندما يتم إكتشاف دور جديد لبعض الجينات أو نقوم بتشكيل بعض الفرضيات من خلال نتائج هذا التحليل نقوم بإجراء تجارب أخرى للتأكد من فرضيتنا وللتأكد من دور الجينات التي لوحظ تغيرها بشكل ملموس

– يمكننا استخلاص عدة استنتاجات حول التجميع الهرمي (hierarchical clustering)

تشغل مجموعات البيانات التي تحتوي على عدد صغير نسبيًا من العينات (عادة ما بين 4 إلى 20) وعدد كبير من النسخ (من 5000 إلى 30000) مساحة عالية الأبعاد (highdimensional space)

لم يتم تعريف مفهوم (cluster) بشكل جيد رياضيًا ومع ذلك ، (Thalamuthu وآخرون. 2006) اقترحوا مقياسًا لتحديد درجة دقة خوارزميات (cluster) باستخدام كل من بيانات المحاكاة (Simulation) والواقع في العينات ووجدوا أن (hierarchical clustering) يؤدي أداءً ضعيفًا مقارنة بالتقنيات الأخرى مثل (k-means ) والتجمعات القائمة على النماذج. سننظر بعد ذلك في بعض تقنيات التجميع الأخرهذه

(cluster) هو أداة استكشافية ، ويستخدم لتحديد الارتباطات بين الجينات و / أو بين العينات. ومع ذلك ، لا يتم استخدام التجميع بشكل استنتاجي

| تحليل البيانات الخاضع للاشراف لتصنيف الجينات

يمكن وصف المسافات والتشابهات بين قيم التعبير الجيني باستخدام نوعين من التحليل : (تحت الإشراف) أو (بدون إشراف) تعتبر الطرق غير الخاضعة الاشراف التي وصفناها حتى الآن مفيدة بشكل خاص للعثور على أنماط في مجموعات البيانات الكبيرة

في التحليلات الخاضعة للإشراف ، يختلف النهج لأن صاحب التجربه يفترض بعض المعرفة المسبقة للجينات و / أو العينات في التجربة

(في بعض الحالات ، تنقسم العينات السرطانية إلى أقسام أخرى علي سبيل المثال خبيثة نسبياً أو حميدة نسبياً) اي كل الاورام لا تعامل نفس المعامله و بعض هذه الدراسات تطبق مناهج غير خاضعة للإشراف حيث ان الهدف من خوارزميات تحليل بيانات ميكروأري الخاضعة للإشراف هو تحديد قاعدة يمكن استخدامها لتعيين الجينات (أو الظروف مثل الورم الخبيث والحميد ) في مجموعات

في كل حالة ، نبدأ بقيم التعبير الجيني من مجموعات معروفة (على سبيل المثال ، طبيعي مقابل سرطاني) و “تدريب” خوارزمية لتعلم قاعدة معينه , و يتم استخدام الأمثلة الإيجابية والسلبية لتدريب الخوارزمية ثم يتم تطبيق الخوارزمية على عينات غير معروفة ، ويتم تقييم دقتها كمؤشر أو مصنف و من المهم أن تكون البيانات المستخدمة لبناء التصنيف منفصلة تمامًا عن البيانات المستخدمة لتقييم دقتها التنبؤية (اي الخوارزميه)

بعض خوارزميات تحليل البيانات الخاضعة للإشراف الأكثر شيوعًا هي (k-nearest neighbors, support vector machines, supervised machine learning, neural networks, and linear discriminant analysis )

كمثال على المنهج الخاضع للإشراف ، (Brown et al. 2000) استخدموا شعاع الدعم الآلي ((support vector machines وهي تدريب احصائي لتحليل البيانات من أجل تصنيفها تصنيفا احصائيا وعمل تحليل الإنحدار(وهو كل طريقة إحصائية يتم فيها التنبؤ بمتوسط متغير عشوائي أو عدة متغيرات عشوائية اعتمادا على قيم وقياسات متغيرات عشوائية أخرى) اللازم لها لتصنيف ست فئات وظيفية من جينات الخميرة : (دورة حمض ثلاثي الكربوكسيل ، التنفس ، الريبوسومات ، البروتيزوم ، الهستونات ، وبروتينات (helix–turn–helix) )

يتم استخدام المجموعتين (1 , 2 ) لتدريب (support vector machines) ؛ ثم يتم اختبارالخوارزمية في المجموعة (3) على أنها “المجهولة” , بعد ذلك ، يتم استخدام المجموعتين ( 1 و 3) للتدريب ويتم اختبار المجموعة (2) على أنها المجهولة

وأخيرًا ، يتم استخدام المجموعتين ( 2 , 3 ) للتدريب ، ويتم اختبار المجموعة (1) علي انها المجهوله وقاسوا (false positive rate) ووجدوا أن (support vector machines) تتفوق على كل من المجموعات غير الخاضعة للرقابة ونهج التجميع الإشرافي البديل , وصف Dupuy) and (Simon) 2007) العديد من الاستراتيجيات لإجراء التحاليل الخاضعة للإشراف بشكل صحيح ، كما أدرج العديد من الأخطاء الشائعة في تحليل البيانات والتي سنتحدث عنها في مقال قادم

ولكن دعنا نلقي نظره علي بعض هذه الاخطاء التي تحدث في التجربه , اين توجد .. ؟

تحدث الأخطاء في مجموعة متنوعة من مراحل تجارب ميكروأري :

– التصميم التجريبي هو مرحلة مهمة ولكن غالبًا ما يتم تجاهلها في تجربة ميكروأري. و من الضروري دراسة عدد كاف من العينات التجريبية والضابطة. كما يجب استخدام العدد المناسب من النسخ المتماثلة , في حين أنه لا يوجد توافق في الآراء حول ما هو هذا الرقم بالنسبة لكل تجربة ، لذلك يجب أن تكون هناك قوة إحصائية كافية وأن استخدام واحد إلى ثلاثة مكررات بيولوجية غالباً ما يكون غير كافٍ

– تحليل البيانات يتطلب الاهتمام المناسب لتصحيح الخلفية العالمية والمحلية (global and local background) تشير الدراسات المعيارية إلى أنه في حين تم تطوير أساليب ممتازة (مثل GCRMA) ، فإن تطبيق إجراءات تسويه (normalization) مختلفة سيؤدي إلى نتائج مختلفة

– بالنسبة للتحليلات الاستكشافية ، يمكن أن يكون لاختياراداة مقياس المسافة مثل معامل ارتباط بيرسون ، تأثيرًا هائلًا على النتائج مثل تجميع العينات (clustering of samples)

هناك العديد من الاخطاء ولكن هذه اشهرهم , الي هنا نكون قد انتهينا من مقالات الشرح النظري لتحليل بيانات ميكرواراي , والتي تكونت من 3 مقالات يسبقهم مقال عن التقنيه في المعمل , في المقالات القادمه سوف نقوم ببعض الدروس العمليه لكل هذا ع برمجة (R) ..

| المصدر للثلاث اجزاء في هذه النقطه :
كتاب (functional genomics and bioinformatics)

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey