تحليل بيانات الجينوم من الات الجيل التالي من السلسله (الجزء الاول)

تحليل بيانات الجينوم من الات الجيل التالي من السلسله (الجزء الاول)

في المقالات السابقه [كيف بدأ الـ (Sequencing) , الات الجيل الثاني من السلسله تحدثنا عن الجزء العملي من تقنيات السلسله وتطرقنا الي كثير من المواضيع في فهم معني الـ (Sequencing) وتاريخه وكيف يتم بالمعمل ..

بدأت تقنيات السلسلة في الظهور في الربع الأخير من القرن ال 19 علي يد العالم سانجر وزملائه حيت اعتمدت طريقتهم علي إضافة قواعد جديدة لها القدرة علي إنهاء تفاعل السلسلة للشريط المضافة له وتلك القواعد تسمي (dideoxy nucleotides) حيث تمنع القاعدة التي تليها من أن تضاف للشريط  وأطلق علي هذه الطريقة الجيل الاول من السلسلة ومازالت هذه الطريقة هي اختيار البعض في عملية السلسلة لدقتها العالية 99.99% و لكنها تمتاز بالعيوب من حيث التكلفة ويتوجب استخدام شريط قصير.مما أدي إلي الحاجة إلي ظهور تقنيات جديدة خصوصاً بعد مشروع الجينوم البشري والذي استغرق 13 سنة بتكلفة 2.7 بليون دولار.

تم تطوير تقنيات جديدة متعددة أطلق عليها الجيل الثاني من السلسلة حيث تعتمد كل منصة علي طريقة عمل مختلفة كلها تعتمد علي إضافة قاعدة جديدة واستقبال إشارة من هذه العملية وتتميز هذه التقنيات باالإنتاجية العالية والتكلفة الرخيصة حيث وصل الأمر إلي معرفة تتابع الجينوم في تجربة واحدة تستغرق ساعات و بتكلفة لا تتعدي الألف دولار ولكن مع كل هذه البيانات الكبيرة التي لا يمكن تفسيرها إلا بالاستعانة بتقنيات حوسبية واستخدام خوارزميات لإخراج معني من كل هذه البيانات.

من أمثلة تقنيات التسلسل من الجيل الثاني WGS, RNA-Seq, WES, WGBS, ChIP-Seq  والتي تنتج كميات كبيرة من البيانات ولكل منها خطوات معينة لتحليل بياناتها ولكن سنناقش الخط المشترك بين معظم هذه التقنيات. حيث تنقسم إلي ثلت مراحل اساسية.

| مقدمه

 في المرحلة الأولي يتم فيها استدعاء القواعد بناءً علي تفكيك وتحليل الإشارات الضوئية والفيسيوكيميائية الناتجة من عملية التسلسل في منصات التسلسل المختلفة (تختلف نوعية الإشاره بناءً علي نوع المنصة منها من يعتمد علي انبعاث الضوء أو البيروفوسفات أو تجرير بروتون الهيدروجين وكل هذه الإشارات نتيجة لإضافة قاعدة جديدة علي الشريط الأصلي في عملية التسلسل).

وبغض النظر عن نوعية منصة التسلسل المُستخدمة أو التطبيق المراد استخدامها لاجله, يتم تخزين بيانات عملية استدعاء القواعد في ملف صيغته (Fast Q) كل ملف يحتوي علي عدد كبير من القراءات والتي تعتبر التتابعات الناتجة من عملية تقطيع التتابع الأصلي إلي تتابعات أصغر أثناء مرحلة إعداد المكتبة في عملية التسلسل.

– في المرحلة الثانية من التحليل حيث يتم فحص جودة القراءات الموجوده في ملف ال  FASTQ   ويتم إجراء عمليات مبدئية علي الملف. تتضمن خطوة فحص الجودة فحص العديد من مقاييس الجودة منها فحص طول القراءات. بعد عملية الجودة تاْتي المعاملة المبدئية للملف والتي تتمثل في فلترة القراءات منخفضة الجودة, بقص قطع من القراءات التي تحتوي علي جودة رديئة من استدعاء القواعد,و إزالة تتابعات ال  (adapter) أو اي تتابعات اصطناعية (غير التتابع الاصلي) أخري مثل ال (PCR primers) إن وجدت.

– في المرحله الثالثه يتم إعطاء هذه التحليلات معني بيولوجي عن طريق تعيين التتابعات المتسلسله إلي جينوم مرجعي أو القيام بترتيب الجينوم من جديد في حالة عدم وجود جينوم مرجعي فيما يسمي (de novo genome assembly) وهو ما سوف نتحدث عنه في المقال القادم في الجزء الثاني من هذا المقال , ولكن دعنا نقف عند نقطة تعيين التسلسلات إلي جينوم مرجعي لمعرفة أماكن هذه التسلسلات في الجينوم , بعد ذلك تتم عمليات تحليليه تبعا لكل تجربه ..

| تسمية القواعد Base calling والتخزين في ملفات التنسيق المختلفة

هي أول مراحل تحليل بيانات الجيل الجديد من السلسله  (NGS Data Analysis) وفيها يتم معالجه الإشاره الناتجه من آله السلسله إلي بيانات موثقه ويعزي إلي تلك الخطوة جودة القاعده التي يتم استدعائها والتي سيتم استخدامها فيما بعد في خطوة تحليل جودة البيانات .

تتم عملية ال(Base calling ) أو تسمية القواعد بطرق كثيرة ومختلفه عن بعضها البعض ويختلف ذلك تبعاً للمنصة المستخدمه في السلسله وطريقتها  في تحليل البيانات حيث لِكُل منصة خوارزميات متعددة ومختلفة تستخدمها لتسمية القواعد ف علي سبيل المثال تستخدم منصة illumina خوارزمية تسمي Bustard  ،كما أن هناك خوارزميات أخري مثل Alta cyclic  و Bayes call ويعزي الاختلاف بينهم إلي سرعه ودقه معالجه البيانات وتحسين الأخطاء.

  • خوارزمية Bustard

تقوم هذه الخوارزمية بالتنبؤ بأسماء القواعد عن طريق الإشارات الفلورسية (fluorescence signals) الخارجة من عملية التسلسل فهي فعاله في الدورات الأولي لعمليه السلسله لكن تزداد نسبه الخطأ في الدورات الأخيرة.

  • خوارزمية Alta-cyclic

هي متطورة ذاتياً حيث تتعلم أسباب التشويش الضوئي  والأخطاء تبعاً للنموذج وتجد الحل الأمثل للحد من تأثير الضوضاء (Self-Optimizing) فهي أكثر دقة ولكن تحتاج إلي كمية كبيرة من بيانات التدريب.

  • خوارزمية Bayes call

أكثر دقه .. لا تحتاج لكثير من بيانات التدريب ولكنها بحاجه إلي المزيد من الوقت كي تقوم باستدعاء القاعده بشكل صحيح.

– أسباب ضعف جوده الإشاره أو ضعف استدعاء القاعده:

  1. الاضمحلال في كثافة إشارة الفلورسنت مع كل دورة حيث أنه من المحتمل أن يعزي إلي فقدان المواد أثناء التسلسل
  2. تشابه وتداخل إضاءة القاعدتين, C) -T)
  3. بهوت الإشاره الناتجه من عمليه السلسله مما قد يؤثر علي قراءة القاعدة وفي أغلب الأحيان قد ينتج عنه (N-SCORE) والذي يعني أن الجهاز غير قادر علي تحديد هويه القاعده

صورة تبين تأثير اضمحلال الإشارة على استدعاء القاعدة.

| التخزين علي ملف FastQ

بعد أن يتم استدعاء القواعد ومعالجتها من خلال الخوارزميه يتم تخزين بيانات القواعد وجودتها في ملف FastQ وهو صيغه نصيه خاصه بألات السلسله ويعد من أكثر صيغ الملفات استخداما كما أن هناك أدوات خاصه يمكن من خلالها تحويل أي صيغه ملفات أخري الي fastQ وذلك لسهوله قرائتها ودقه بياناتها وسهوله التعامل معها.

  • بنيه ملفات  FAST Q

ملفات  FAST Q تستطيع تحميل حتي 200 مليون قراءة في حيز صغير نسبيا فهي تتكون من 4 أسطر لكل تسلسل تحتوي علي اسم التسلسل أو رقم التعريف الخاص به في السطر الأول ويليه التسلسل نفسه وفي السطر الثالث نجد رمز (+) والذي يليه في بعض الاحيان نفس صيغه التعريف الخاصه بالتسلسل أما السطر الأخير فيحتوي علي جوده استدعاء كل قاعده من خلال (ASCII codes)  وهي علامات وأحرف تعبر عن جوده كل قاعده.

  • السطر الأول: (@SEQ_ID)
@HWUSI-EAS100R:6:73:941:1973#0/1
ويحتوي علي معلومات خاصه بالتسلسل واله السلسله المستخدمه ومكان التسلسل علي الشريحه ورقم الدورة ومعلومات خاصه بالتجربه ولكن في بعض الأحيان قد يتم تجاهل هذا السطر بعد أن يتم معرفه رقم التعريف الخاص بالتسلسل كما في المثال
  • (HWUSI-EAS100R) اسم الجهاز المنصة المستخدمة في عملية التسلسل (sequencer)
  •  (6) حارة خانة التدفق(حيث تحدث عملية التسسلسل لتلك القراءة).
  • (73) رقم البلاط في تلك الخانة.
  • (941) نسق الx في البلاط.
  • (1973) نسق الy في البلاط.
  • #0  رقم فهرسة العينات المتعددة.
  • /1 ) (إذا تمت العملية من جهة واحدة (single-end reads) أو تكون 2/ عندما تكون من الجهتين (paired-end read).
  • السطر الثاني : التسلسل

يعد من أهم السطور في ملف الـ FAST Q  وهذا لأنه يحتوي علي ترتيب القواعد داخل السلسله وهو ما يتم استخدامه في النهايه أو تخزينه علي قواعد البينات.

  • السطر الثالث : علامه ال (+):

في كثير من الأحيان يتم تجاهل هذا السطر علي أنه blank أو فارغ وقد يكون متبوعا بنفس رقم التعريف الخاص بالسطر الأول ليفصل بين ترتيب التسلسل في السطر السابق وجودة القراءة في السطر التالي.

  • السطر الرابع : ( جودة القراءة):

يعد من أهم السطور في ملف الـ FASTQ  وذلك لأنه يحتوي علي جودة قراءة كل قاعده من الجهاز بعلامات خاصه (ASCII codes) تعطي تلك العلامات رقم جودة لكل قاعده يبدأ من 0 حتي 40 فمثلا تمثل علامه (:) رقم 25 وهذا يعني أن القاعده الي تقابل تلك العلامه في التسلسل جودتها تساوي 25 كما في الصورة السابقه.

تم اختيار تلك الرموز لتمثل جودة القراءات لصغر حجم وحيز تخزينها إذ تتطلب واحد byte  كمساحه تخزين بدلا من 3 والتي تتطلبها الطريقه التقليديه في كتابه الأرقام فيمثل كل رقم byte بالإضافة إلي المساحة الفارغة بين كل رقم والاخر.

هذة الصورة تبين رموز الـ ASCII  ودلالاتها وتمثل هذه الأرقام الـ Q-Score  أو جودة القاعده وهو احتماليه دقه قراءة الجهاز للقاعده حيث تمثل المعادلة التالية كيفية حسابها :

Q= -10 log P
إذ أن P تمثل احتماليه خطأ القاعده,هذا يعني أن لو كان رقم الq score = 30  أن احتماليه خطأ الجهاز في قراءة القاعده يمثل 1/1000 ويمكن تمثيل هذه القيمه بالعديد من الطرق مثل الرسوم البيانيه والمنحنيات

بعد أن تعرفنا علي تنسيق ملفات الـ FAST Q المستخدم في أغلب الات التسلسل وطرقها هناك صيغ ملفات أخري يتم استخدامها ويمكن تحويلها إلي صيغه الـ FAST Q من خلال أدوات خاصه مثل NGS Toolkit

الشكل العام لملفات (FASTQ)

| فحص جودة البيانات QC والعمليات الأولية

– هي ثاني مرحلة من مراحل تحليل بيانات الجيل الثاني (NGS) وهي مهمة جداً بالرغم من أن نتائج هذه المرحله ليس لها معني بيولوجي ولكنها مهمة جداً لان معرفة المشاكل في البيانات يسمح لي بتصحيحها قبل بذل الكثير من الوقت والجهد في عملية التحليل بالإضافه إلي مراجعه جودتها والتأكد من سلامتها قبل البدء في أي مرحله أخري

بعض المشكلات التي يمكن أن نواجهها في البيانات

  1. القواعد ذات درجه ثقه ضعيفه
  2. وجود محولات صناعية (adapter)
  3. تلوث العينه من خلال الRNA Sequences
  4. اختلاف أطوال القطع التي تم تسلسلها

يقوم بهذه المرحلة برامج(software)  متعددة منها :

  • FASTQ C (وهو الأكثر استخداما)
  • FAST X
  • PRINSEQ
  • Tag Cleaner
  • NGS QC Toolkit

يُعتبر (FAST QC) هو الأفضل والأكثر استخداما بين كل البرامج المسئولة عن قياس جودة البيانات  ، كما أن دليل FAST QC متاح عبر الإنترنت وهو شامل للغاية و يدير المؤلفون أيضاً مدونة (Qcfail) التي تناقش أخطاء مراقبة جودة التسلسل التي واجهوها وكيف تم تشخيصها

– يتم استخدام نظام  إشارة المرور(Traffic lights) لجذب الانتباه إلي أقسام التقرير التي تتطلب المزيد من التحقيق .. فيثمل الضوء الأحمر ضعف الجوده في تلك الخاصيه أما الأخضر فيمثل الجودة العاليه والأصفر يمثل وجود بعض المشاكل بحاجه إلي حل

مع ذلك يجدر بنا الإشارة أيضاً إلي أنه تم تصميم FAST QC ليتم تشغيله علي ملفات FAST Q من أي نوع من تجربه التسلسل(DNA,RNA …) وليس لديه أي معلومات أو معرفه عن إعداد مكتبة معينة من القراءات ..مما قد يؤدي الي حدوث بعض الأخطاء ،ايضاً لن تقوم خدمة  FAST QC بفعل أي شئ حيال بياناتك إذا قررت خفض أو إزالة التلوث من التسلسل فستحتاج إلي أداة أخري

| بنية ملف FASTQC

– يُقسم الملف إلي عدة أقسام (sections) وفيما يلي سوف نتحدث عن كل قسم بالتفصيل

الشكل العام لواجهة برنامج (FAST QC) ويظهر علي الأيسر الأقسام الخاصه به وتظهر كل واحده منهم علي الواجهه بمجرد اختيارها

فيما يلي كل قسم من هذه الأقسام :

Basic statistics


يحتوي علي معلومات عن الملف مثل : اسم الملف ، نوعه ،طول التسلسل ،ونسبة قواعد GC وهكذا

per base sequence quality


يعتبر هذا القسم هو من أهم إنتاجيات هذه الأداه وهو مقسم بداخله إلي ثلاثة أقسام :

  • تدل المنطقة الخضراء علي أن جودة القراءة ممتازه
  • والصفراء علي أن جودة مقبوله ولكن تحتاج لمزيد من التحقق
  • بينما الحمراء فتدل علي أن هناك خطأ في البيانات وأن الجودة غير مقبوله

صوره توضح الشكل العام لقسم (per base sequence quality) في أداة (FAST QC)

كما هو موضح بالشكل أعلاه فإن محو (Y) يدل علي القواعد ففي هذه الحالة لدينا حوالي 40 قاعدة ،بينما يدل محور (X)  علي جودة القراءه جدير بالذكر أن جوده القراءة تقل تدريجيا بزياده عدد الدورات فنجد أن الدورات الاولي تكون بجودة عاليه أما الدورات الأخيرة فيكون لها معدل منخفض نسبيا لكن لا يتم قبول درجه الجودة فيما يقل عن 20 وهذه نقطه في غاية الأهميه كما أن أغلب  عدد القواعد والدورات يجب أن تكون في المنطقتين الخضراء والصفراء أما تلك التي تظل في المنطقه الحمراء يجب أن يتم تهذيبها أو مراجعتها فيما بعد باستخدام أدوات خاصه  كما بالصورة في الأسفل

(صوره توضح الفرق بين جودة القراءه الجيده والسيئه)

Per Tile Sequence Quality


– تظهر تلك الخاصيه عند استخدام (illumena platform)  لان الشريحه الخاصه بها(flow cell)  تنقسم إلي بلاطات أو(tiles)  وهي معنيه بتأكيد جودة القراءة لكل (tile) موجود بها لبيان حدوث فقد في الجودة في أماكن محددة من الشريحة , تحسب (FAST QC) متوسط درجات الجودة لكل (tile) في جميع المواضع في القراءات.

– تُظهر المحور y على الرسم البياني رقم tile ، بينما يُظهر المحور x الموضع.

– تظهر الرسوم  الانحراف عن الجودة المتوسطة لكل (tile) . تكون الألوان على نطاق الأزرق  إلى الأحمر  ، حيث يمثل اللون الأزرق الجودة المتوسطة والألوان الأخرى التي تمثل المواضع التي تختلف  فيها الجوده عن المتوسط

– أسباب الأخطاء : تكون أسباب الأخطاء في أغلب الأحيان نتيجه وجود فقاعات في أماكن ال  tiles بداخل ال (flowcell)

  • علامات الخطأ

أصفر : تحذير : ستظهر تلك العلامه إذا أعطت أي (tile) درجه جودة أكثر من 2 أقل من متوسط جودة القراءة

أحمر : فشل : حيث تظهر تلك العلامه إذا أعطت مربع درجه جودة أكثر من 5 أقل من متوسط جودة القراءة.

             توضيح للفرق بين التحذير والقراءة الجيدة لجودة التتابع لكل بلاط (Per Tile Sequence Quality)

Per sequence quality scores


يتيح لك هذا التقرير النظر بشكل موسع إذا كانت مجموعه فرعيه من التسلسلات تم قرائتها بجودة ضعيفه وفي أغلب الأحيان يكون سبب هذا الخلل هو وجود تلك التسلسلات الفرعيه علي حافه الشريحه أو بعيدا عن مجال رؤيه وتصوير الكاميرات.

  • أسباب الخطأ

إذا كانت نسبة كبيرة من التتابعات  منخفضة الجودة بشكل عام ، فقد يشير ذلك إلى نوع من المشكلة المنهجية أو وجود تسلسلات فرعيه علي حافه الشريحه.

  • علامات الخطأ

 يتم إعطاء تحذير إذا كانت الجودة المتوسطة الأكثر ملاحظة أقل من 27 – وهذا يعادل معدل خطأ بنسبة 0.2 ٪ ,ويتم إعطاء علامه الفشلغ

إذا كانت الجودة المتوسطه الأكثر ملاحظه أقل من 20 مع معدل خطأ بنسبه 1%.

الشكل المقبول لدرجه الجودة

Per Base Sequence Content


يحدد هذا النموذج نسبه القواعد الأربعه في كل قطعه من الجينوم حيث يُظهر المحور y على الرسم البياني النسبة المئوية لظهور القاعده ، ويظهر المحور x الموضع في القراءة. بالإضافه إلي وجوب أن تظهر الخطوط الممثله للقواعد الأربعه  متوازيه حيث أن نسبه القواعد حسب قاعده شارجاف  (Char gaff rules)  يجب أن تتمم ال 100% , ويجب أن تعكس الكمية النسبية لكل قاعدة المقدار الكلي لهذه القواعد في الجينوم الخاص بك

  • أسباب الخطأ المحتمله

يمكن أن يسبب وجود المحولات adapter  وقطع الRNA  تلوثا حيث ينتج معدل خطأ أعلي

  • علامات الخطأ

يعطي البرنامج إشاره تحذير  إذا كان الفرق بين (A , T )، و ( G , C) أكبر من 10 ٪ في أي موضع ويعطي إشاره خطأ إذا كان الفرق بين A , T ، أو G , C أكبر من 20 ٪ في أي موضع

صوره توضح الشكل الغير مقبول أولا والشكل المقبول ثانيا

Per Sequence GC Content


تقيس هذه الوحدة محتوى GC عبر الطول الكامل لكل تسلسل في ملف وتقارنه بالتوزيع العادي النموذجي لمحتوى GC , في مكتبة عشوائية عادية , حيث تتوقع أن ترى توزيعًا طبيعيًا تقريبًا لمحتوى GC حيث تتوافق القمة المركزية مع محتوى GC الإجمالي للجينوم الأساسي. نظرًا لأننا لا نعرف محتوى GC في الجينوم ، يتم حساب محتوى GC من البيانات المرصودة ويستخدم لإنشاء توزيع مرجعي.

  • أسباب الخطأ

قد يشير التوزيع الغير متناسق إلي وجود تلوث بالـ RNA أو مشاكل متعلقه المجموعات الفرعيه

  • علامات الخطأ

يعطي البرنامج إشاره التحذير إذا كان مجموع الانحرافات عن التوزيع الطبيعي يمثل أكثر من 15٪ من القراءات وإشاره الخطأ إذا كان مجموع الانحرافات عن التوزيع العادي يمثل أكثر من 30٪ من القراءات.

(صوره توضح الشكل الغير مقبول أولا والمقبول ثانيا)

نكتفي في هذا المقال بهذا الجزء المهم للغاية في هذه الخطوة من تحليل بيانات الجيل التالي من السلسه و بالإضافة إلي كل مقاييس الجودة هذه يتوجب فحص وجود أي تتابعات صناعية مثل ال (adapters and PCR primers) أو تضاعف التتابعات بناءً علي هوية التسلسل أو يمكن فحصه بناءً علي المقارنة بجينوم مرجعي.

بعد معرفة جودة التتابعات يتوجب تنقية وإزالة القراءات ذات الجودة السيئة بالإضافة أيضا إلي القواعد ذات نسبة قراءة قليلة والتتابعات الصناعية(دخيلة) يجب إزالتها إن وُجدت. بعض المنصات مثل Illumina  تقوم بالتنقية تلقائياً , ولكن إذا وجد أن أحد المقاييس غير مرضي لك يجب أن تقوم بالمزيد من التنقية.  و تنفيذ كل هذه العمليات علي الملف يجنبنا الأخطاء التي يمكن أن تحدث في الخطوات القادمة. ومن البرامج الأكثر استخداما لتبين جودة بيانات (NGS)

Fast QC, FAST X-Toolkit, QC Toolkit

تستخدم هذه الأدوات نماذج فعالة لفحص كل تلك المقاييس السابق ذكرها ولكن (Fast QC) هو الأكثر استخداما ومكتوب بلغة ال Java ولديه واجهة مستخدم سهلة الاستخدام ويعمل علي معظم الأنظمة مثل Windows ..

| تعيين القراءات (Reads Mapping)

بعد إتمام عمليه تنقيه البيانات من القراءات التي تحتوي على Q-score  أقل من 20 ننتقل إلى هذه الخطوه وهي تعيين المحاذاه و إرجاع القراءات الناتجة بالجينوم المرجعي بمعني اخر مقارنة القراءات التي حصلت عليها بالمعلومات الموجودة بالجينوم المرجعي و جدير بالذكر أن معظم قراءات NGS تتطلب مراجعتها مع جينوم مرجعي و الغرض من عمليه المراجعه هو تحديد أصل القراءات ف الچينوم , مع العلم أن هناك تحدي دائماً يواجهه الباحثين و هو أن أي جينوم بيتم قرائته ف NGS  ينحرف عن الجينوم المرجعي في عده مواقع و هذا يكون لأكتر من سبب و من هذه الأسباب:

  • تعدد الأشكال في النوع الواحد.
  • الطفرات.

و لحل هذه المشكلة تأخذنا الحاجة إلي Algorithms “خوارزميات” معينه مصممه لتلك المهمه حيث أنها تستطيع استيعاب الانحرافات و تتغلب عليها, و لكن للأسف تظهر مشكله ثانية و هي أن نتيجة للتعقيد الذي بهذه العمليات تظهر إمكانية عدم التمييز بين أخطاء التسلسل “التي حدثت بسبب أخطاء في العمليات السابقه ” و انحرافات التسلسل الحقيقيه. و جدير بالذكر أن رسم الخرائط (Mapping) و مقارنه المعلومات اللي حصلت عليها  بالجينوم المرجعي ليست عمليه جديدة و كانت تحدث قبل ظهور ال (NGS) ,مع العلم كان في عدد كبير من الخوارزميات التي تقوم بمحاذاة للتسلسل قبل ظهور NGS و من أشهر الخوارزميات دي بلاست BLAST, كما يجب ذكر أنه تم تصميم جيل جديد من الخوارزميات التى تقوم برسم قراءات NGS و تقوم بتلك المهمه عن طريق شيئين :

  • من خلال تحسين الطريقه السابقه.
  • إدخال طريقه جديدة

صوره توضح نوعين رئيسيان من الخوارزميات للقيام بعملية (Reads Mapping)

الخوارزمية (Algorithm) عبارة عن مجموعة من الخطوات الرياضية والمنطقية والمتسلسلة اللازمة لحل مشكلة ما وتتميز الخوارزميات بالاتي:

  • وصف خطوات الحل بشكل واضح ومحدد.
  • عدم اعتماد الخوارزمية على أسلوب معين في المعالجة
  • إمكانية استخدام الخوارزمية نفسها لحل جميع المشاكل المشابهة.
  • سهولة فهم خطوات حل المشكلة واستيعابها.
  • إمكانية اكتشاف الأخطاء التي قد تحدث بيسر وسهولة.
  • تعد الخوارزمية وسيلة من وسائل التوثيق

هناك ثلاث تراكيب لبناء البرامج و كتابة الخوارزميات. الفكرة تكمن في أن أي برنامج أو خوارزمية يجب أن تتكون من هذه التراكيب الثلاثة فقط :

  • التسلسل (sequence)
  • الاختيار (selection)
  • التكرار (repetition)

النوع الأول  مبنية علي الـ (spaced-seed indexing) :

وتقوم هذه الخوارزمية بوظيفتها عن طريق تقطيع المواضع لقطع صغيره متساوية في الحجم و هذه القطع تسمي “بذور” او “Seeds”. و بيتم دمج  تلك البذور وتخزينها في جدول بحث, ولكن كيف يفيد تخزينها … ؟

بإختصار شديد يتم استخدم تلك الأزواج من البذور كمفاتيح للبحث عن المواضع المتطابقه وإذا وجد التطابق تبدأ الخوارزمية في مد التطابق حتي (score) معين يتم تحديده بواسطة المستخدم , لكن في الواقع نواجه مشكلة في تلك الطريقة وهي أن المؤشرات فى الخوارزميات كبيره جدا وللتغلب علي هذه المشكله تتم عمليه فهرس’ القراءات على دفعات ومن أمثلة هذه الخوارزميات MAQ algorithm ويمكن إيجادها في BLAST

النوع الثاني تكون مبنية علي الـ Burrows-Wheeler transform :

في هذه الخوارزمية بيتم محاذاة القراءات حرف حرف من اليمين لليسار و من ثم يتم وضعها في Suffix array  والذي يمكن الخوارزمية من تحديد ال BWT  والذي يمثل الحرف الأخير في كل كلمة ويتم التحرك علي الحروف التي تليه لعمل المحاذاة عن طريق احتمالات .وتتميز هذه الطريقة بسرعتها عن الأولي ..

| اختيار خوارزميات رسم الخرائط |وتسلسل الجينوم المرجعي
  • خوارزميات رسم الخرائط (Mapping)

عند اختيار المحاذاة ، يجب مراعاة العوامل بما في ذلك السرعة والحساسية الخاصة بالخوارزميات. نظرًا لأن هذه العوامل عادة ما تكون متضاربة ، فإن بعض الخوارزميات تركز بشكل أكبر على السرعة بينما تشدد الأخرى على الحساسية. إذا كانت السرعة من العوامل الأكثر أهمية ، يوصى باستخدام (Bowtie) أو (SOAP2) ولكن (BWA توازن بين السرعة والحساسية )

في حالة تفضيل حساسية أعلى ، غالبًا ما يتم استخدام الأدوات المستندة إلى جدول التجزئة (hash-table-based tools) مثل (Novoalign) , (Stampy) , SHRiMP2 تم تطوير معظم هذه الخوارزميات  مبدئيًا لتعيين قراءات قصيرة جدًا ، مثل تلك التي تحتوي على 35 نيوكليوتيدات من متسلسلات Illumina.

  • الجينوم المرجعي

إلى جانب خوارزميات التعيين ، يؤثر اختيار تسلسل الجينوم المرجعي ، عند توفر تسلسل الجينوم المرجعي المتعدد أيضًا على نتيجة تعيين الخريطة وذلك من خلال تصميم معظم المصممين الحاليين ، فإن القراءات الأكثر تشابهًا مع التسلسل المرجعي المحدد تتماشى بشكل أفضل من تلك التي تنحرف أكثر عن المرجع. إذا كان الانحراف كبيرًا بدرجة كافية ، فقد يتم تجاهله على أنه غير متطابق. ونتيجة لذلك ، يمكن أن يؤدي استخدام تسلسل الجينوم المرجعي  المختلف إلى “تحيز مرجعي”. يؤدي استخدام أي جينوم مرجعي معين إلى تقديم هذا التحيز دائمًا ، حيث إن جينوم مرجعي واحد لا يمكنه ببساطة استيعاب اختلافات التسلسل وتعدد الأشكال الموجودة بشكل طبيعي في عدد السكان أو الأنواع. يجب أن يوضع هذا التحيز في الاعتبار ، خاصة عندما تكون الخلفية الوراثية للكائن المصدر مختلفة عن الجينوم المرجعي.

 في هذه الحالة ، يمكن أن تساعد مقارنة نتائج التعيين من استخدام مراجع مختلفة في تحديد مرجع أكثر ملاءمة. بدلاً من ذلك ، تمتلك بعض خوارزميات التعيين الأكثر حداثة ، مثل Genome Mapper ، القدرة على استخدام مراجع الجينوم متعددة الأطراف في وقت واحد كمرجع.

| BAM/SAM ملفات التنسيق لنتائج المحاذاة والمعاينة لجينوم مرجعي

تنسيقات الملفات المستخدمة بشكل عام للمحاذاه القائمة علي التسلسل هي تنسيقات SAM/BAM  يمكن    أن تحتوي هذه الملفات علي معلومات حول القراءات ومحتويات التسلسل المرجعي الذي تم استخدامه والعديد من الأشياء الأخري ,حاليا يتم إخراج معظم بيانات تنسيق SAM من المحاذاة التي تقرأ ملفات FAST Q وتعيين التسلسلات إلي جينوم مرجعي معروف.

يعتبر : (sequence Alignment map) واختصارا يدعي (SAM) تنسيق نصي عام لتخزين محاذاة تسلسل النيكليوتيدات الكبيرة في سلسلة من أعمدة ASCII المحددة بعلامات جدولية.

بينما يعتبر  BAM : التمثيل الثنائي (Binary form) لـ SAM والذي يقوم بتخزين نفس البيانات في نموذج ثنائي مضغوط ثم يقوم بفهرستها  لذلك فهي مجرد إصدارات ثنائية مضغوطة من ملفات الـ SAM وتهدف إلي أن تكون أكثر فاعلية للاستخدام بواسطة البرامج و أجهزة الكمبيوتر. وبشكل عام تحتوي ملفات SAM و BAM علي نفس المعلومات , ولكن بتنسيق مختلف لسهولة الاستخدام ولحجم أقل ..

| ما هي المعلومات التي لدى SAM / BAM للمحاذاة ؟

يحتوي كل جزء محاذاة علي :

  • اسم الاستعلام (والذي يسمي read_name في صيغة ال BAM ويسمي QNAME في صيغة ال SAM), يتم استخدامه لتجميع / تحديد المحاذاة الموجودة معًا ، مثل المحاذاة المقترنة  أو قراءة تظهر في محاذاة متعددة.
  • مجموعةمختصة ب الـ (bitwise) من المعلومات التي تصف المحاذاة FLAG قدمت المعلومات التالية:
  • هل هناك قطع (fragments) متعددة ؟
  • هل جميع القطع محاذاة بشكل صحيح ؟
  • هل هذه القطعة غير معينة (Mapped) ؟
  • هل الجزء التالي غير معيّن ؟
  • هل شريط الاستعلام (query) هو شريطا عكسيا ؟
  • هل الجزء التالي هو شريطا عكسي؟
  • هل هذه القطعة الأولي؟
  • هل هذه هي القطعة الأخيرة؟
  • هل هذه محاذاة ثانوية؟
  • هل فشلت هذه القراءة في ضوابط الجودة؟
  • هل هذا قراءة PCR أو Optical duplicated؟

يحتوي ملف SAM على قسمين :

1) قسم الرأس  (header section): قسم الرأس ليس إلزاميًا ، لكن معظم برامج  NGS تتطلب ذلك.

– ويحتوي على معلومات حول خمسة مواضيع رئيسية :

  • Alignment file: (Format version, sorting)
  • reference sequence(s) :علي سبيل المثال الطول ، الأنواع ،عنوان URL
  • read group :مسار التسلسل ، العينة ، مركز التسلسل ، المكتبة ، الخ…

يبدأ كل سطر في قسم الرأس بالرمز”@” و رمز نوع السجل المكون من حرفين

2) قسم المحاذاة (Alignment section)

يتم تمثيل كل قراءة في المحاذاة (وفي بعض الأحيان القراءات غير المعينة) بصف واحد يتكون من حقول محددة بعلامات جدولة (أعمدة أساسية).

إذا تم تعيين قراءة إلى أكثر من موقع ، فسيكون لكل تعيين صف خاص به في ملف SAM

يوجد 11حقل إلزامي في كل صف:

  • قراءة الأسم.
  • bitwise flag : ترمز إلى معلومات حول القراءة،علي سبيل المثال المعينة(Mapped) /  غير المعينة ، المقترنة(paired)/غير المقترنة ، المعينة إلى الإمامي/العكسي ، إلخ)
  • اسم الجينوم المرجعي
  • موضع بدء التعيين يقرأ علي التسلسل المرجعي.
  • جوده الخرائط.
  • سلسلة CIGAR وهذا يعتبر هو أساس الوصف القصير للمحاذاة
  •  reference name for the mate(للبيانات المزدوجة)
  • position of the mate (للبيانات المزدوجة).
  • المسافة بين القراءات المقترنة (للبيانات المزدوجة).
  • تسلسل النيكليوتيدات في القراءة .
  • per base quality of the read

ربما تكون تساءلت عن معني CIGR دعنا نخبرك ,قد يكون التسلسل الذي تم محاذاته للجينوم المرجعي به قواعد إضافية غير موجودة في المرجع أو قد يكون من القواعد المفقودة من المرجع ,سلسلة (CIGR) يتم استخدامها للإشارة إلي أشياء مثل القواعد التي تتم محاذاتها (إما مطابقة / غير مطابقة)  مع المرجع ,ويتم حذفها من المرجع ,وهي إدخالات غير موجودة في المرجع

علي سبيل المثال :

يشير POS إلي أن محاذاة القراءة بدأت من الموضع 5 في المرجع , ويقول GICR أن أول 3 قواعد في تسلسل القراءة تتماشي مع    المرجع ,والقاعدة التالية في القراءة غير موجودة في المرجع ,ثم ال 3 قواعد التاليين يتماشون مع المرجع, و القاعدة المرجعية التالية غير موجودة في تسلسل القراءة ,ثم 5 قواعد الأخري تتماشي مع المرجع .

لاحظ أن في الموضع 14 تختلف القاعدة في القراءة عن المرجع ,ولكنها لاتزال تعتبر M نظرا لأنها  تم محاذتها مع هذا الموضع.

كما ذكرنا أن ملفات SAM/BAM تحتوي علي قسمين وتعريف كل قسم , يمكننا توضيح ذلك بمثال بسيط :

@HD VN:1.3 SO Coordinate

@SQ SN :Ref LN:45

شرح المثال:

  • @HD هذا يعني فقط أن لدينا Header
  • VN:1.3 تنسيق الملف هو اصدار 1.3
  • SO coordinate : يتم فرز القراءات عن طريق تعيين الاحداثيات
  • @SQ  في هذا الصف لدينا معلومات حول (واحد من) التسلسل المرجعي.
  • SN:ref التسلسل المرجعي يسمي ref
  • LN:45 طول التسلسل المرجعي 45bps

مثال بسيط علي القراءة :


1:497:R:-272+13M17D24M   113    chr1    497    37    37M    chr15    100338662    0    CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG    0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>

  • اسم القراءة : 1:497:R: -272 + 13M17D24M
  • اسم المرجع : chr1 (في الكروموسوم 1)
  • موضع التعيين : 497 أول النيكليوتيدات المعينة للقراءة في chr1:497
  • جودة الخرائط : 37
  • سلسة GICR : 37M كل النيكليوتيدات البالغ عددها 37تطابق المرجع.
  • مرجع الزوج : chr15 يتم تعيين القراءة الأخري للزوج الي chr15
  • موقع الزوج : 100338662 اول النيكليوتيدات المعينة هي(100338662) في chr15
  • المسافة بين القراءات المقترنة : 0 هذه القيمة صالحة فقط اذا كان تعيين القراءاتان لنفس المرجع ,لذلك في هذه الحالة تكون 0
  • قراءة التسلسل : CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG
  • جودة القراءة : 0;= = – = = 9;>>>>>=>>>>>>>>>>=>>>>>>>>>> (راجع ملف fAST Q)
  • امتداد الملف : SAM
| فحص ملفات التعيين وإدارتها

بعد أن تم تحويل النتائج إلي صيغة ملفات (BAM/SAM) يجب أن يتم فحصها، يتم ذلك عن طريق ثلاث طرق أساسية :


أولا: يجب وضع إحصائيات مختصرة، مثل النسبة المئوية للقراءات التي تم محاذاتها خصوصا القراءات المميزة. حاليا معدل نسب القراءات لا تزال بعيدة عن نسبة 100% . حتي في ظل الظروف القياسية ، أغلب البرامج التي تصنع المحازاة (Aligners) يجد نسبة التطابق 70% – 75% لكل قراءة. و عدم القدرة علي تحديد الموقع الجيني الأصلي  لعدد من القراءات بسبب بعض من العوامل ، حيث يتضمن

  • وجود تسلسل مكرر (Repetitive Sequence) في أغلب الجينوم
  • ولطولها القصير نسبيا بالتالي أماكن معلومات محدودة لمعظم قراءات الـ (NGS)
  • حدود الخورزميات (Algorithmic limitation)
  • أخطاء السلسلة
  •  تنوع سلسلة الحمض النووي و تعدد الأشكال في العينات

لسنا في أفضل حال ولكن أداء التخطيط (Mapping performance) يتوقع ان يزيد مع زيادة طول القراءات لمنصات السلسلة الجديدة (Newer NGS) و تصميم خوارزميات أفضل.


ثانيا: قراءة هذه الخرائط لأماكن جينومات متعدده عادة يسمي متعدد القراءات (Multireads) لا تسهم في التحليل الملحق و بالتالي يتم تصفيتها. ويرجع الغموض في تخطيط تعدد القراءات بسبب انحرافات السلسلة المذكورة مسبقا التي تحدث بسبب الطفرات (Mutations) و الأماكن المتشابهه في الجينات (Polymorphism) ، أخطاء السلسلة ، و وجود تسلسلات متشابهه بقدر كبير جدا في الجينوم مثل التي تاتي من الجينات المتكررة (Duplicated genes) ، إدراج هذه القراءات في تحليل الاحقة قد يؤدي إلي انحرافات و أخطاء.

تنقية القراءات المتعددة عادة يزيل عدد كبير من القرءات ، مما قد يؤدي الي فقد مؤكد للمعلومات وهذه نقطه في غاية الاهميه ، و هناك بعض الخوارزميات التي تم تصميمها مثل (BM-Map) لإعادة استخدام القراءات المتعددة لتخصيصها بشكل محتمل لمواقع الجينومات المتضاربة


ثالثاً: بجانب وجود  القراءات المتعددة، القراءات المتعددة يجب فلترتها و تعريفها لكثير من التجارب وذلك بسبب ان زيادة تكرارات تفاعل PCR (Over amplification of PCR) و القراءات المتكررة البيولوجية التي لا يمكن تمييزها عن بعض. يجب علي الباحثين توخي الحذر عند اتخاذ قرار أزالة قراءات متكررة في التحليلات اللاحقة.

بالرغم من ان ازالة القراءات المتكررة قد يزيد الاداء في تحليلات لاحقة في بعض الحالات التي لها ظروف اقل تعقيدا او اهداف غنية بالبيانات، مثل التي تاتي من جينوم صغير جدا او التي يتم استخدامها في تحليلات مثلا (RNA-seq,Chip-seq) فإن ازاله هذه القراءات قد يؤدي لفقد المعلومات.

نكتفي بهذا القدر القليل في هذا المقال ونستكمل نفس الموضوع في مقالات اخري لازال لدينا تفاصيل كثيره جدا نحكيها لكم ..

Share this post

Comment (1)

  • محمد عبدالله Reply

    ممتاز جدا جزاك الله خيرا مستنيين الجزء الثاني ان شاء الله

    سبتمبر 3, 2019 at 3:48 م

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey