تحليل بيانات تقنية (ChIP-seq)

تحليل بيانات تقنية (ChIP-seq)

| مقدمه

تحدثنا في المقال السابق عن مبدأ عمل تقنية (ChIP-seq) حيث تعتمد فكرة الترسيب المناعي في الاساس علي مبدأ أرتباط بروتين معين بالاجسام المضاده (anti bodies) المضاف اليها احدي الخصائص التي يمكن الكشف عنها وفصلها كمواد غير قابله للذوبان في الماء أو مواد مغناطيسيه أو مواد ضوئيه ويستخدم في الأصل للكشف عن وجود بروتينات معينه في الدم كدلالات الأورام او أنتيجنات سطح الخليه السرطانيه أو الفيروسات ومن هنا يمكن ترتيب خطوات التقنيه في سبع خطوات أساسيه. في البدايه دعنا نتذكر جزء بسيط مما تحدثنا عنه في المقال السابق ..

1- تثبيت الخليه

يتم تثبيت الخليه باستخدام احدي مواد التثبيت كالفورمالدهيد والتي تعمل علي ربط الحمض النووي بشكل قوي بالبروتينات المرتبطه به أو حتي البروتينات من حوله وهذه الخطوة يمكن ان تضيف الي الحمض النووي بعض البروتينات الغير مرغوبه وتتم تلك الخطوة في تقنيات فصل عوامل النسخ (transcription factors)  أما في تقنيات فصل الهستونات فمن الممكن الاستغناء عنها لان الهستونات بالفعل مرتبطه بالحمض النووي بقوه

2- استخراج الحمض النووي

يتم تكسير الخليه واستخراج الجينوم المرتبط بالبروتينات التي تم تثبيتها في الخطوة السابقه لدراسه التفاعل بينهما

3- تقطيع الحمض النووي

يتم تقطيع الحمض النووي لسهوله دراسته وتسهيل خطوات أرتباط البروتين بالجسم المضاد وسلسله الدنا عن طريق عدة طرق يمكن استخدام اياً منها لتقطيع الحمض النووي الي أجزاء مرتبطه بالبروتين فيمكن استخدام انزيمات القطع ويمكن استخدام طرق التجزئه الصوتيه ويتم أستخدام طريقه التقطيع بناء علي نوع الارتباط بين الجين والبروتين فمثلا لو كان البروتين المرتبط بالجين هو عوامل النسخ  فيكون التقطيع في الاغلب باستخدام الصوتنه (sonication)

4- ارتباط البروتين بالجسم المضاد

في هذه الخطوة يتم اضافه أجسام مضاده مختارة لجزء معين من البروتين المرتبط بالحمض النووي المراد دراسته وكما اسلفنا الذكر فان الجسم المضاد مرتبط بجزئيات يمكن اختياره وفصله عن طريقها كمواد غير قابله للذوبان في الماء أو مواد مغناطيسيه أو معادن ومن ثم يمكن ترسيب البروتين باستخدام الجسم المضاد وبعد غسل الانبوب من متبقيات البروتينات والحمض النووي يمكن عزل البروتين المحدد

5- فصل البروتين عن الحمض النووي

بعد أن يتم غسل الانبوب من الشوائب يتم فصل البروتين عن الحمض النووي اما باضافه تركيز عالي من الاملاح او باحدي طرق الفصل التقليديه ومن ثم التاكد من أن الحمض النووي خالي من الشوائب البروتينيه بغسله بالايثانول

6- سلسله الحمض النووي

و هنا يتم ادخال الحمض النووي الي احدي منصات السلسله لمعرفه تسلسله وتتابعه وتبدأ تلك الخطوة بمضاعفه الحمض النووي داخل الجهاز المعني بذلك في السلسله وبناء المكتبات والتجمعات ومن ثم ادخال الحمض النووي الي منصه من منصات السلسله

7- تحليل البيانات

وهذه الخطوة هي المقصود الحديث عنها اذ يتم تحليل البيانات الخارجه من منصات السلسله علي 6 خطوات اساسيه تبدأ بالتاكد من جوده وسلامه البيانات وتنتهي بمعالجه البيانات الاخيرة ورفعها الي قاعدة البيانات والاستفاده منها في البحوث الجاريه علي هذا الجين

 

| تحليل البيانات

تمثل خطوة تحليل البيانات واحدة من اهم خطوات التقنيه اذ تعني فك شفرة القرائات الناتجه عن آله السلسله والتحكم في جودتها واستخدامها بعد ان يتم معالجتها بواسطه متخصص معلوماتيه الحيويه وتتمثل تلك الخطوة في ستة خطوات أساسيه

  • التحكم في الجودة
  • مقارنه القرائات بالجينوم المرجعي
  • من SAM الي BAM
  • تسوية ملفاتBAM
  • ايجاد القمم (Peak calling)
  • قياس القمم

اولا التحكم في جوده البيانات


يتم التحكم في جودة البيانات والقرائات علي مرحلتين اساسيين .المرحله الاولي تكون قبل اجراء التجربه البيولوجيه نفسها عن طريق التأكد من قوة أرتباط وفعاليه الجسم المضاد في الأرتباط بالبروتين المحدد عن طريق تقنيه (western blotting)

اما المرحله الثانيه فتكون في عن طريق التاكد من جودة السلاسل الناتجه من آلات السلسله عن طريق FASTQC

 FASTQC : هي نوع من الملفات يحتوي علي تسلسل النيوكليوتيدات و يمكنك من التاكد من جودة السلاسل الناتجه من الآت السلسله

  • التحكم في جودة القرائات عن طريق FASTQ

قبل البدء في تحليل البيانات لابد أن يتم التأكد من جودة السلاسل الناتجه للتأكد من عدم وجود أي أخطاء يمكن أن تؤثر بشكل كبير في عمليه تحليل البيانات ويوفر برنامج FASTQC العديد من نماذج التحليل تحتوي علي جودة السلاسل القواعد من خلال (Base calling) و محتواها الأساسي بالأضافه الي التسلسلات المتكررة (اذ يجب الا تحتوي علي اكثر من 20% تسلسلات مكررة )

مقارنه القرائات بالجينوم المرجعي


تقوم تلك المقارنه alignment عن طريق مقارنه بين تسلسلين احداهما مرجعي والاخر نريد معرفه مدي تطابقه معه لذلك يتم تحميل الجينوم المرجعي (وغالبا يكون Synechocystis sp) من قاعده بيانات (NCBI) أو (Ensemble) ومن ثم يتم تعيين القرائات مع الجينوم المرجعي في ملفات FASTQ  باستخدام برنامج bowtie2

وللقيام بهذا نحن بحاجه الي انشاء فهرس للجينوم المرجعي الخاص بنا باستخدام داله bowtie2-build ومن ثم يتم اخراج سته ملفات ذات لواحق (.1.bt2, .2.bt2, .3.bt2, .4.bt2, .rev.1.bt2, and .rev.2.bt2). وتمثل هذه الملفات صيغه SAM (Sequence alignment map)  , لذا نحن بحاجه الي تحويل تلك الصيغه الي صيغه أخري مقابله في الخطوة التاليه ..

من  SAM الي BAM


لتحليل و صف (alignment)  القراءات , يجب تحويل صيغة ملفات ال SAM  الناتجة من المعالجة بواسطة Bowite2  للتعامل بطريقة أكثر دقة مع القراءات المرصوصة.

ملفات صيغة SAM عبارة عن ملفات كبيرة جدًا ويجب تحويلها إلى صيغة خريطة محاذاة ثنائية (Binary Alignment Map (BAM)). يعد ملف BAM إصدارًا مشفرًا ثنائيًا لملف SAM يحتوي على نفس المعلومات ، ولكن عادةً ما يكون حجمه أصغر. من المقبول لدى معظم البرامج تحليل بيانات المحاذاة ، بمجرد فرزها وفهرستها.

يتضمن تنسيق SAM قسم رأس (به خطوط تبدأ بالحرف @) وقسم محاذاة.

لتحويل صيغة SAM إلى صيغة BAM ، ونقوم باستخدم مكتبة (Samtools) لتحليل المحاذاه

SAMtools : هي مكتبة وحزمة برامج. يمكننا استخدامها لتحليل المحاذاة في مدخلات SAM / BAM ، لإنجاز المهام التالية:

  1. تحويل من تنسيقات المحاذاة الأخرى ، أو بين تنسيقات SAM و BAM ؛
  2. فرز ودمج المحاذات.
  3. فهرسة المحاذات (بمجرد الفرز ، يمكن فهرسة ملف BAM من خلال إنشاء ملف BAI المستخدم في التحليلات النهائية)؛
  4. إزالة التكرارات PCR (هذا الإجراء ، الذي يطلق عليه علامة مكررة أو “dedupping” ، يزيل القراءات التي لا لزوم لها) ؛
  5. تقوم بأستدعاء فئتين من المتغيرات: الأشكال المتعددة النوكليوتيدات (SNPs) والأندل الصغيرة.

تسوية ملفات (BAM)


ملفات BAM لا تزال ملفات كبيرة وفحص هذه الملفات باستخدام متصفح الجينوم مثل (IGV) يتطلب استخدام ذاكرة عالية على جهاز كمبيوتر شخصي. لحل هذه المشكلة ، أستخدمنا الأداة المساعدة Bamcoverage من مجموعة Deeptools2 (v2.0). تأخذ هذه الأداة محاذاة القراءات أو الأجزاء كمدخلات (ملف BAM) وتقوم بإنشاء مسار تغطية (bigWig أو bedGraph) كإخراج.

ملفاتbigWig أصغر من ملفات (BAM) ، مما يسهل التحميل المتزامن لمسارات متعددة من ال  ChIP-seq في IGV. بالإضافة إلى ذلك ، يقوم (Bamcoverage) بتنظيم جميع ملفات ChIPseq (باستخدام طرق مختلفة ، مثل القراءة , يقرأ لكل كيلوباس لكل مليون قراءة (RPKM ) Reads Per Kilobase per Million mapped reads) والتي ضرورية  لمقارنة القمم الحادة  من العينات بأعماق متسلسلة مختلفة (على سبيل المثال ، أعداد مختلفة من القراءات). يمكن تحميل ملفات bigWig الطبيعية التي تم إنشاؤها بواسطة (Bamcoverage) في IGV لفحص وتحليل قمم  مواقع الأرتباط لجين معين

ايجاد القمم (Peak calling)


في ال ChIP seq البيانات المتوقعة عبارة عن مناطق محددة وصغيرة من القمم و انت تريد ان تعرف اين يمكن ان تجد مثل هذه القمم في الجينوم

ستواجهك بعض التحديات مثل ضبط قابلية التتابعات للمحاذاه وذلك لوجود التتابعات المكرره, وأيضا لكل تطبيق من ال(chip seq)  نوع محدد من القمم.. مما يقسم القمم الي قمم حادة (مثل قمم ارتباط عوامل النسخ )وقمم واسعة(مثل قمم التعديلات الهيستونية ) ولكل منها ادوات خاصة

قياس القمم


تحديد القمم عن طريق ازالة التتابعات المكررة الناتجه من الPCR  والذي ينسخ نفس القراءت مراراً وتكراراً , يجب ان تنتقل عبر الجينوم وتقارن النتائج ب العينة الأصلية و حدد القمم سوا ان كان لديك زيادة في عينتك ام لا, يتم هذا بواسطة برنامجين(MACS) (Bioconductor R)

يعمل كلا البرنامجين بدون استخدام DNA  مرجعي ولكن عند وجوده تتم المقارنة لتحديد المناطق الخصبة بالقمم , و هذا يؤدي الي حساسية وأتقائية أعلي من عدم أستخدام ال dna  المرجعي ويتم أستخدام ملفات BAM  كا مدخلات لكلاً من البرنامجين و في بعض الحالات الاخري حيث أنه من المنطق عدم التفكير في القمم فقط ولكن في الاشارة ككل

مثال : في تجربة ChIP-seq علي مواقع أرتباط انزيم النسخ POL 2  يكون لديك قمم في أول الجين المعني النسخ وقمم علي طول الجين وأنت لا تزغب في انتقاء قمم معينة وترك قمم اخري واعتبارها ضوضاء من التجربة بدلا من ذلك ينظر الي الاشارة ككل لمعرفة كيف يرتبط الانزيم بالجين , كم الادوات المستخدمة في هذه العملية (CEAC and EpiChip)

بمجرد معرفتك موقع المناطق الخصبة بالقمم في عينتك أنت بحاجة لتحويل هذا الموضوع من تحليل صرف للبيانات الي وضع معني بيلوجي لهذه البيانات (Downstream analysis)

شرح القمم


نقوم بهذا بواسطة متصفح الجينوم مثل Ensembl ,UCSC or IGB  والذي يعطيك منظور عام للبيانات والذي يجعلك تحدد البيانات الغريبة واذا كانت تحتاج الي تحليل اكتر

-حليل العنصر المكرر(motif) يكون لديك التتابعات وتحاول ايجاد تشابهات مع قمم أخري علي سبيل المثال : يمكن أن يكون العنصر المكرر تتابع معين حيث ترتبط عوامل النسخ به

وفي النهايه يتم معالجه البيانات بعد تحليلها ورفعها الي قواعد البيانات الخاصه بها ليتم استخدامها في البحوث المتعلقه بالجينات المرتبطه بالبروتينات وكما قلنا سابقا فإن تحليل البيانات هي عمليه ضروريه من أجل التاكد من جودة التجربه البيولوجيه ومدي قابلية اعتمادها في البحوث العلميه فتحليل البيانات هو من يأكد استمراريه العمل في نفس النهج او اعاده التجربه بشكل كلي كما أنها تمثل خط أتصال البيولوجي بالآت السلسله عن طريق فهم مخرجات الأله جيدا يمكنه فهم تتابع الجين المراد العمل عليه

وأخيرا فان هذا الجزء من التجربه البيولوجيه لايمكن الاغفال عنه باي شكل لذا فهو قيد التطوير يوما عن يوم وفي المقال القادم سنأخذ مثالا عمليا علي تحليل بيانات (ChIP seq) باستخدام لغة البرمجه (R)

| المصادر : ChIP-seq Experiment and Data Analysis in the Cyanobacterium Synechocystis sp. PCC 6803
EBI: Next Generation Sequencing Practical Course ChIP-seq analysis

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey