خوارزمية (BLAST)

خوارزمية (BLAST)

بسم الله الرحمن الرحيم , اليوم سنتحدث عن احد اشهر برامج وخوارزميات المعلوماتيه الحيويه وهو (BLAST) , لن نتحدث عن الامور التاريخيه وكيف تم انشاءه الخ , سنتحدث عن ما هيته وفيم يستخدم وكيف يمكننا استخدامه

يستخدم (BLAST) خوارزمية إرشادية لتحديد تسلسل “أفضل المطابقة” (المعروف أيضًا باسم أزواج القطاعات عالية النقاط أو HSPs) وهو الأداة الرئيسية للمركز الوطني لمعلومات التقنية الحيوية (NCBI) لمقارنة تسلسل البروتين أو الحمض النووي بالتسلسلات الأخرى في قواعد بيانات مختلفة ,  عند ادخال تسلسل ما الي خوارزمية (BLAST) تقوم هي بالبحث في ملاين التسلسلات في قواعد البيانات ولا يتم ارجاع لك الي التتابعات الاكثر تشابها , بكل بساطه هو مجموعة من البرامج التي تتيح لك إدخال تسلسل استعلام ومقارنته بتسلسل الحمض النووي أو البروتين في قاعدة بيانات , وهنا نتحدث انه مجموعه من البرامج لانه يشمل انواع , منها من يبحث في قواعد بيانات الحمض النووي عند ادخالك اليه تتابعات من الحمض الننوي , والاخر لتتابعات البروتين , واخر لترجمة الحمض النووي الي 6 بروتينات , دعنا ننظر في اهمية كل هذا سريعا

1- تحديد ما البروتينات أو الجينات الموجودة في كائن معين , علي سبيل المثال , لدينا تتباعات جديده من كائن ما , ونريد ان نتعرف علي الجينات او البروتينات الموجوده في هذا التسلسل الجديد ,فمثلا هل هناك أي جلوبين في النباتات ؟ هل هناك أي جينات نسخ عكسي (مثل جين HIV-1 pol gene) في الأسماك ؟

2- تحديد المتغيرات التي تم وصفها لجين معين أو بروتين معين. على سبيل المثال ، العديد من الفيروسات قابلة للتغيير للغاية , فيمكنك معرفة هذه التغيرات للتابعات عن طريق المقارنه بين التتابع القديم والجديد

3- اكتشاف جينات جديدة. قد يكشف بحث BLAST عن الحمض النووي الجيني عن أن الحمض النووي يشفر بروتينًا لم يتم وصفه من قبل , وهذا بالتحديد سنتعرف عليه في مقال قادم

4- يستخدم بلاست في مجالات مثل الميتاجينومكس لتعريف الميكروبات الموجوده في البيئه التي قمت بالتجربه عليه

5 –  التحقيق في علامات التسلسل المعبر عنها التي قد تظهر (alternative splicing) هناك قاعدة بيانات تسمي EST التي يمكن استكشافها عن طريق البحث بلاست و في الواقع ، هناك العشرات من قواعد البيانات المتخصصة التي يمكن البحث فيها. على سبيل المثال ، تتكون قواعد البيانات المتخصصة من تسلسلات من كائن معين ، أو نوع من الأنسجة ، أو كروموسوم ، أو نوع من الحمض النووي (مثل المناطق غير المترجمة) ، أو فئة وظيفية من الأحماض النووية أو البروتينات الخ ..

هناك العديد من الاستخدامات , لكن يجب التنبيه ان هذه الخوارزميه لا تستخدم فقط بالشكل المتعارف عليه وانه مجرد اداه موجوده اونلاين , ليس هذا فحسب لان (BLAST) يستخدم في البيانات الكبيره مثل الجينوم والميتاجينوم وهنا تكمن قيمته ..

| اربع خطوات للقيام بتجربة (BLAST)

1- ادخال البيانات : يبدأ بحث BLAST باختيار تسلسل DNA أو البروتين و هناك نوعان رئيسيان من إدخال البيانات: (1) قطع ولصق تسلسل الحمض النووي أو البروتين (على سبيل المثال ، بتنسيق FASTA) والنوع الثاني هو استخدام هو استخدام رقم تعريف التتابع او (GenBank Identification)

يبدأ التسلسل بتنسيق FASTA بوصف سطر واحد متبوعًا بسطور بيانات التسلسل , هذا السطر الاول موجود به وصف التتابع , و يتم تمييز سطر الوصف عن بيانات التسلسل برمز أكبر من (“<“) في العمود الأول و يوصى بأن تكون جميع أسطر النص أقصر من 80 حرفًا , تم عرض مثال للتسلسل بتنسيق (FASTA) في الصوره بالاعلي , و بالنسبة لعمليات بحث BLAST  يمكن أن يكون الاستعلام الخاص بك بحروف كبيرة أو صغيرة ، مع أو بدون تداخل مسافات أو أرقام

2- اختيار برنامج (BLAST) : تتضمن مجموعة برامج NCBI BLAST خمسة برامج رئيسية ، كما هو موضح في الصوره القادمه , حيث تشير (P) الي المقارنه بين تتابعات البروتين , وتشير (N) الي المقارنه بين تتابعات الحمض النووي , وتشير (X) الي ترجمة الحمض النووي الي ستة بروتينات ديناميكيا

3- اختيار قاعدة البيانات : يتم سرد قواعد البيانات المتوفرة للبحث ((BLAST في كل صفحة للبرنامج و بالنسبة لعمليات البحث في قاعدة بيانات البروتين (blastp و blastx) ، يكون الخيار الافتراضي هو قاعدة بيانات (nonrundant) يتكون هذا من سجلات البروتين المدمجة من (GenBank) وبنك بيانات البروتين (PDB) , (SwissProt) , (PIR) , (PRF) وكل هؤلاء هم قواعد بيانات تحتوي علي جميع البروتينات المتسلسله

بالنسبة إلى عمليات البحث في قاعدة بيانات الحمض النووي ( blastn ،  tblastn ، tblastx) الخيار الافتراضي هو (human or mousegenomic plus transcript) تتضمن الخيارات الأخرى الشائعة الاستخدام قاعدة بيانات (nucleotide nr) أو قاعدة بيانات (EST) ,  يتضمن Nr تسلسلات النيوكليوتيدات من (GenBank) , (EMBL) , (DDBJ) , (PDB) ومع ذلك ، لا تحتوي قاعدة بيانات (nr) على سجلات من قواعد البيانات (EST) أو (STS) أو (GSS) أو تسلسل الجينوم (HTGS)

يتم اشتقاق قواعد البيانات nr عن طريق دمج العديد من قواعد بيانات البروتين أو قواعد البيانات الرئيسية , تحتوي قواعد البيانات هذه غالبًا على تسلسلات متطابقة . بشكل عام ، يتم الاحتفاظ بواحد فقط من هذه التسلسلات بواسطة قاعدة بيانات nr ، إلى جانب أرقام انضمام متعددة , (حتى إذا كان هناك تسلسلان في قاعدة بيانات nr متطابقتان ، فعادة ما يكون لهما بعض الاختلافات الطفيفة على الأقل). وغالبًا ما تكون قواعد بيانات nr هي المواقع المفضلة للبحث في غالبية التسلسلات المتاحة

4- ضبط متطلبات البحث : سنركز اهتمامنا في البداية على بحث بلاست البروتين , بالإضافة إلى تحديد التسلسل إلى الإدخال وأي قاعدة بيانات للبحث ، هناك العديد من المعلمات الاختيارية التي يمكنك ضبطها او المتطلبات البحثيه التي يمكن تغيرها

1- (Query) : بالاضافه الي اضافة التتباع المراد البحث عنه , يمكنك تحديد رقم محدد يبدأ عنده البحث وينتهي عنده , فمثلا لديك تتابع 500 نيوكليوتيد وتريد ان تبحث فقط عن التتابع من 100 الي 300 , يمكنك فعل هذا

2- (Limit by Entrez Query) : هنا يتم تحديد وتقيد عملية البحث فمثلا بدل ما تجعل الخوارزميه تبحث مئات الالف من المرات تجعلها تحدد نقطه معينه تبحث عنها , ومن التحديدات الشائعه هي اختيارك للكائن مثل (Archaea , Fungi,  Bacteria, Metazoa) و يمكن أن تقتصر عمليات البحث بلاست على أي جنس أو نوع أو أي مجموعة تصنيفية أخرى

3- (Short Queries) : إذا قمت بتحديد هذا الخيار ، فسيتم ضبط القيمة المتوقعة وحجم الكلمة تلقائيًا

4- (Expect Threshold) : هي قيمة (E) المتوقعه وهي الرقم المعني بوجود نتائج قد تكون حدثت عن طريق الصدفه و  المبدأ التوجيهي العام المعقول هو أن قاعدة البيانات المطابقة التي تحتوي على قيم E اقل من 0.05 هي ذات دلالة إحصائية مقبوله (سنفهم ذلك اكثر في المقال القادم عندما نأخذ مثال عملي ونقوم بتحليل البيانات)

5- (Word Size) : عند استخدام استعلام للبحث في قاعدة بيانات ، تقوم (BLASTalgorithm) أولاً بتقسيم الاستعلام الخاص بك  إلى سلسلة من التسلسلات الأصغر (الكلمات) بطول معين (حجم الكلمة) , بالنسبة لـ (blastp) ، ينتج عنه (3) او (2) من التتابعات وهذا يبدو حجم كلمة (تتابع) كبير بحث يكون أكثر دقة , يتم بعد ذلك تمديد المطابقات لكل كلمة لإنتاج إخراج بلاست , في الممارسة العملية ، يمكن أن يظل حجم الكلمة عند (3) ويجب أن يخفض إلى (2) فقط عندما يكون استعلامك عبارة عن ببتيد قصير جدًا (على سبيل المثال ، سلسلة قصيرة من الأحماض الأمينية) , وتغير الحجم من 3 الي 2 ليس له اي تأثير علي عملية الـ (alignment) بين (human insulin) مع (nematode homolog) (و النيماتودا نوع من انواع المسببات المرضيه في علي امراض النبات) , اما بالنسبة لعمليات البحث في النوكليوتيدات ، يكون حجم الكلمة الافتراضي هو (11) ويمكن رفعها الي (15) أو خفضها الي (7) , و يؤدي خفض حجم الكلمة إلى إجراء بحث أكثر دقة ولكن أبطأ

اما اذا اردنا زيادة عدد الكلمات اكثر من كل هذا علينا اللجوء الي برنامج اخر توفره (NCBI) يسمي (MegaBLAST) وهنا الحجم الافتراضي هو (28) ويمكن زيادته الي (64) و يُعد هذا مفيدًا للسرعة عند البحث عن استعلامات طويلة (على سبيل المثال ، عدة آلاف من النيوكليوتيدات) بحثًا عن التطابقات تقريبًا في قاعدة البيانات و يتم تطابق أحجام الكلمات الطويلة جدًا بشكل غير منتظم نسبيًا ، مما يشجع على البحث بشكل أسرع بالنسبه لـ (algorithm)

نكتفي في هذا لمقال بتعريف خوارزمية (BLAST) وفي المقالات القادمه نستكمل كيفية الاستخدام وتحليل البيانات

| المصدر :
كتاب (functional genomics and bioinformatics)

Share this post

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.


Justin Pugh Authentic Jersey