ملخص
يهدف المشروع إلى تطوير نماذج قابلة للتعميم في إطار التعلم الموحد الموزع من خلال استكشاف طرق جديدة لتعزيز أداء النموذج، وتحسين قابلية التعميم، ومعالجة عدم التوازن الطبقي، ومعالجة التحيزات المحتملة في البيانات في مواقع العملاء. من المتوقع أن يعمل المرشح المختار في فريق متعدد التخصصات، على سبيل المثال، مع المتعاونين السريريين الحاليين.
الوصف الكاملالخلفية
أظهر التقدم في تقنيات التعلم الآلي المبني على البيانات (ML) إمكانات هائلة في مختلف القطاعات، بما في ذلك الرعاية الصحية. ومع ذلك، لا يزال تدريب نموذج التعلم الآلي ونشره بحاجة إلى التحسين لأنه يمثل تحديًا في مجال الرعاية الصحية بسبب عدم تجانس البيانات الكبير وعدم الوصول إلى البيانات الضخمة. تعد مشاركة البيانات بين المواقع المختلفة أمرًا صعبًا بسبب مخاوف الخصوصية والتحديات التنظيمية. معظم تقنيات تعلم الآلة نهمة في البيانات وتتطلب مجموعات بيانات كبيرة للتعميم على مجموعة سكانية معينة أو توزيع مركز البيانات. ليس من الممكن في كثير من الأحيان الحصول على مجموعات كبيرة من البيانات المصنفة غير المتجانسة لأن الحصول على تسميات الحقيقة الأرضية أمر شاق ويستغرق وقتًا طويلاً، ويتطلب وقت الخبراء، وهو أمر مكلف. ونتيجة لذلك، فإن معظم المراكز عادة ما يكون لديها مجموعات بيانات محلية صغيرة غير كافية لتدريب نموذج بدقة عالية وقابلية تعميم جيدة. علاوة على ذلك، لا يمكن أن تكون البيانات الواردة من مركز معين متحيزة إلا لمجموعة سكانية معينة.
يسمح التعلم الموحد (FL) بتدريب نموذج عبر الأجهزة اللامركزية أو الخوادم التي تحتفظ بالبيانات محليًا مما يحمي الخصوصية وأمن البيانات في نفس الوقت بهدف الاستفادة من البيانات من المراكز الأخرى بطريقة موزعة. يؤدي ذلك إلى زيادة حجم مجموعة بيانات التدريب وبالتالي معالجة القيود المذكورة أعلاه في المجال الطبي. على الرغم من أن العديد من التقنيات في لغة البرمجة قد تم اقتراحها في الماضي، فإن استخدام البيانات متعددة الوسائط (كل من الصور ذات الطرائق المختلفة والنص) للتعلم متعدد المهام (على سبيل المثال، الكشف والتشخيص) كان محدودًا وتم توجيهه على نطاق واسع حول تقنية تجميع/دمج النماذج والضبط الدقيق في مواقع العميل محليًا لتجنب خطر التعرض للبيانات. لا تزال نماذج ML المدربة على إعداد FL تعاني من فجوة الأداء بين إعدادات المريض المرئية وغير المرئية والاختلافات في الطريقة [1-2].
الأهداف
يهدف المشروع إلى تطوير نماذج قابلة للتعميم في إطار عمل FL الموزع من خلال استكشاف طرق جديدة لتعزيز أداء النموذج، وتحسين قابلية التعميم، ومعالجة عدم التوازن الطبقي، ومعالجة التحيزات المحتملة في البيانات في مواقع العملاء.
سيتم توفير عدد قليل من مجموعات البيانات متعددة الوسائط في بداية المشروع. مهام المشروع هي عبارة عن بحث بحت يعتمد على سؤالين أساسيين - 1) هل يمكننا الاستفادة من البيانات متعددة الوسائط من مختلف المراكز لتعزيز أداء لغة الأجنبية وقابليتها للتعميم؟ و2) هل يمكننا ابتكار تقنية لرفع مستوى الأداء المحلي، ومعالجة عدم التوازن الطبقي المحلي، وتوفير معلومات بشأن التحيزات من البيانات الموزعة المقدمة أثناء التدريب؟
المراجع
#{26[1] Q. Liu, C. Chen, J. Qin, Q. Dou and P. Heng, "FedDG: تعميم المجال الموحد على تجزئة الصور الطبية عبر التعلم العرضي في مساحة التردد المستمر،" في مؤتمر IEEE/CVF لعام 2021 حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR)، ناشفيل، تينيسي، الولايات المتحدة الأمريكية، 2021 ص. 1013-1023. https://doi.org/10.1109/CVPR46437.2021.0010y[2] سوبيدي، آر، جير، آر. آر.، علي، إس.، نغوين، أ.، ستويانوف، د.، بهاتاراي، ب. (2023). التعلم الموحد العميق بين العميل والخادم لتجزئة الصور الجراحية عبر المجالات. هندسة البيانات في التصوير الطبي. DEMI 2023. ملاحظات محاضرة في علوم الكمبيوتر، المجلد 14314. سبرينغر، شام. https://doi.org/10.1007/978-3-031-44992-5_3
[3] S. Ali, D. Jha, N. Ghatwary, S. Realdon, R. Cannizzaro, O.E. سالم، د. لامارك، سي. داول، إم إيه ريجلر، ك.ف. أنونسن، أ. بيتلوند. مجموعة بيانات متعددة المراكز للكشف عن السلائل وتقسيمها لتقييم قابلية التعميم. البيانات العلمية. 2023;10(1):75. https://doi.org/10.1038/s41597-023-01981-y
