ملخص
في عصر تحليلات البيانات الضخمة، يتم استخدام الأدوات الإحصائية وأدوات التعلم الآلي (ML) على نطاق واسع لدراسة العلاقات والأنماط في البيانات.
تشكل مجموعات البيانات العامة الكبيرة موردًا فريدًا لتطوير أساليب إحصائية جديدة تعتمد على التعلم الآلي مع إمكانية دعم التطبيقات السريرية المهمة.
كان لجائحة كوفيد-19 الناجمة عن فيروس SARS-CoV-2 تأثير اجتماعي واقتصادي كبير على البلدان في جميع أنحاء العالم. ومع ذلك، لا يوجد حتى الآن فهم كامل للمساهمين الرئيسيين في خطورة كوفيد-19 وترابطهم. من بين أصعب الأمور التي يجب إدراجها هي الأمراض المصاحبة، والحالة الاجتماعية والديموغرافية، وعوامل نمط الحياة، والبيانات الجزيئية، مثل درجة المخاطر الجينية (PRS). تحدد استراتيجية الحد من الفقر التأثير المشترك للمتغيرات الجينية الشائعة المتعددة ذات التأثير المعتدل.
تُستخدم أدوات تعلم الآلة على نطاق واسع في المعلوماتية الحيوية الصحية لتحديد عوامل الخطر المهمة في البيانات والمساهمة في التشخيص/الطب الدقيق. ومع ذلك، فإن الأساليب تعتمد بشكل كبير على البيانات ولا تعمل بشكل جيد لجميع الحالات. على سبيل المثال، تفترض العديد من نماذج تعلم الآلة وجود علاقات خطية بين المتغيرات. في حين أن هذا الافتراض صحيح بالنسبة لبعض مجموعات البيانات، فإن العديد من البيانات المعقدة تتضمن عدم الخطية، وهو أمر يصعب للغاية التقاطه. يمكن أن تكون البيانات أيضًا ذات أبعاد عالية (بما في ذلك العديد من المتغيرات)، مما يجعل النمذجة أكثر صعوبة.
يركز هذا المشروع على تطوير أساليب جديدة تعتمد على تعلم الآلة لالتقاط العلاقات المعقدة وغير الخطية بين المتغيرات. بالإضافة إلى ذلك، سيبحث الطالب عن أنماط جديدة من نمط الحياة والعوامل الوراثية المرتبطة بالسجلات السريرية المرتبطة بخطورة فيروس كورونا (COVID-19).
سيعمل الطالب في فريق متعدد التخصصات، ويتعاون بقوة مع كلية الطب. سيحصل الطالب على فرصة مثيرة للعمل مع البيانات الواقعية (بيانات البنك الحيوي في المملكة المتحدة)، والتي تعد غنية بالمعلومات الديموغرافية والسجلات السريرية، بما في ذلك تاريخ الأدوية والبيانات الجينية للمرضى.
