ملخص
أصبح تسلسل الحمض النووي والتحليل التالي للتسلسلات الحيوية إجراءً أساسيًا للعديد من المشكلات في الأبحاث البيولوجية، مثل التشخيص الطبي، وتطوير الطب المستهدف، وعلم الفيروسات، وعلوم الطب الشرعي، وما إلى ذلك. تتضمن أمثلة بحث التسلسل الحيوي اكتشاف الطفرات داخل الحمض النووي البشري في دراسات السرطان والبحث عن أنماط مطابقة في الجينومات الميكروبية.
مع تزايد حجم البيانات المطلوب معالجتها، يصبح تطوير خوارزميات بحث فعالة ذا أهمية قصوى.
البذر هو أحد التقنيات المستخدمة على نطاق واسع في مشاكل محاذاة التسلسل الحيوي لتسريع عملية البحث. وقد تم اقتراح عدد قليل من خوارزميات البذر في السنوات الماضية. تمثل البذور الأولى التي تم اقتراحها أنماط مطابقة صغيرة متجاورة وتستكشف نموذج البذور والامتداد. وفي وقت لاحق، تم تطوير الفكرة إلى بذور متباعدة (ثنائية/ثلاثية)، مما يسمح بعدم التطابق.
تقنية أخرى هي k-mers، وهي مجموعة من أنماط المطابقة القصيرة بطول k والتي غالبًا ما تستخدم في الطرق الخالية من المحاذاة.
ومع ذلك، فإن العثور على البذور المثالية، التي تزيد من الكفاءة، لا يزال موضوعًا للدراسة. عادة، يمكن تقييم الكفاءة كحل وسط بين التعقيد الزمني للخوارزمية وحساسيتها (نسبة التسلسلات المحاذاة بشكل صحيح). تقترح الدراسات المختلفة طرقًا مختلفة لزيادة الكفاءة. غالبًا ما يعتمد الاختيار على نموذج احتمالي معين وخصائص محددة مسبقًا للبذور.
في هذا المشروع، سوف يبحث الطالب في مشكلة توليد البذور المثالية لتحسين كفاءة خوارزميات البحث عن التسلسل الحيوي. سيتم التركيز على تطوير إطار رياضي للتحقيق وإظهار كفاءة هياكل البذور المقترحة.
لقد تبين في [1] أن البذور المتباعدة قد تكون أكثر كفاءة من البذور المتجاورة. وقد تم اقتراح تصميمات أخرى لاستراتيجية البذر، مثل البذور التكيفية والمصغرات لتسريع البحث على حساب تقليل الحساسية.
تم اقتراح مولدات البذور التي تنتج بذورًا ذات بنية معينة لتلبية معايير معينة في [2] و[3]. تمت دراسة خصائص البذور المثالية في [4] وتم اقتراح قائمة بالبذور المثالية للخصائص الهيكلية المحددة مسبقًا.
يمكن العثور على مثال للتحقق من المعلمة المثالية لـ k-mers في أدوات تصحيح الأخطاء في [5].
[1] كيش أوري، لي مينج، ما بين، ترومب جون، حول البذور المتباعدة للبحث عن التشابه. الرياضيات التطبيقية المنفصلة. https://doi.org/10.1016/S0166-218X(03)00382-2
[2] بريجوفا، ب.، براون، د.ج.، وفينار، ت. (2004). بذور متباعدة الأمثل لمناطق الترميز المتجانسة. مجلة المعلوماتية الحيوية والبيولوجيا الحسابية, 1(4), 595-610. https://doi.org/10.1142/s0219720004000326
[3] كوتشيروف، ج.، نوي، إل.، & رويتبيرج، م. (2006). إطار موحد لحساسية البذور وتطبيقه على البذور الفرعية. مجلة المعلوماتية الحيوية والبيولوجيا الحسابية، 4(2)، 553-569. https://doi.org/10.1142/s0219720006001977
[4] فاليري تيتارينكو، صوفيا تيتارينكو. PerFSeeB: تصميم بذور متباعدة طويلة عالية الوزن لتحقيق محاذاة كاملة الحساسية مع عدد معين من حالات عدم التطابق، 15 تشرين الثاني (نوفمبر) 2021، الطباعة المسبقة (الإصدار 1) متاحة في Research Square [https://doi.org/10.21203/rs.3.rs-1051543/v1]
[5] شارما، أ.، جاين، ب.، محجوب، أ. وآخرون. ليرنا: بنيات المحولات لتكوين أدوات تصحيح الأخطاء لتسلسل الجينوم القصير والطويل. بي إم سي للمعلوماتية الحيوية 23، 25 (2022). https://doi.org/10.1186/s12859-021-04547-0
