ملخص
الهدف من مشروع الدكتوراه هذا هو النظر في الواجهة بين النمذجة الإحصائية والتعلم الآلي لمحاولة فهم كيفية الجمع بين هذه الأساليب للاستخدامات في مجال القيمة القصوى، وربما لتحقيق قوة تنبؤية أفضل.
الوصف الكامليعتمد أسلوب النمذجة الإحصائية (SM) على اختيار نموذج "مناسب" (مثل الانحدار الخطي، والسلاسل الزمنية، وما إلى ذلك)، وملاءمته مع البيانات ثم استخدامه للتنبؤ بالمستقبل. يعتمد نهج التعلم الآلي (ML) على البحث خوارزميًا عن الأنماط "النموذجية" في البيانات (على سبيل المثال عبر الغابات العشوائية، والشبكات العصبية، والتعلم العميق، وما إلى ذلك) ثم استخدام هذه الأنماط للتنبؤ بالمستقبل. يسمح SM بتفسير أفضل للنتائج ولكن اختيار النموذج قد يكون ذاتيًا ومثيرًا للجدل. من ناحية أخرى، غالبًا ما تتمتع أساليب تعلم الآلة بقدرة تنبؤ أفضل ولكنها تعمل كمربع "أسود" - قد نكون قادرين على إجراء تنبؤ جيد إلى حد ما ولكن لا يمكننا تفسير سبب ذلك.
هناك مناقشات مستمرة عبر هذين المجتمعين حول أي من النهجين هو الأفضل - مع أفكار مبكرة لصالح "التقارب" يعود تاريخها إلى ثمانينيات القرن العشرين ويؤيدها بعض الإحصائيين البارزين مثل ليو بريمان [1]. في الآونة الأخيرة، مع اختراع التعلم المعزز [3،4]، بدأت المفاهيم الاحتمالية تلعب دورًا أكثر أهمية في خوارزميات تعلم الآلة، والتي تركز الآن على التنبؤ بتوزيع متغير باستخدام التحديثات المتكررة للبيانات (ما يسمى بالتدريب). وهذا يذكرنا بالنهج البايزي في الإحصاء، ويستحق المزيد من الاستكشاف. وفي هذا الصدد، يثير تحليل القيم المتطرفة أسئلة منهجية مثيرة للاهتمام. القيم المتطرفة نادرة، ولكن من المهم والصعب محاولة التنبؤ بها بسبب التكلفة العالية المحتملة والتأثير غير المرغوب فيه. في حين أن هناك نظرية إحصائية موثقة جيدًا لهذا الغرض (انظر على سبيل المثال [2])، إلا أنه من غير الواضح ما إذا كان (وكيف) استخدام تقنية تعلم الآلة هناك. الهدف من مشروع الدكتوراه هذا هو إلقاء نظرة على واجهة هذين النهجين لمحاولة فهم كيفية الجمع بينهما وربما تحقيق قوة تنبؤية أفضل.
المراجع
- بريمان، إل. النمذجة الإحصائية: الثقافتان. العلوم الإحصائية, 16 (2001)، 199–231، https://projecteuclid.org/download/pdf_1/euclid.ss/1009213726
- Gyarmati-Szabó, J., Bogachev, L.V., and Chen, H. نمذجة POT غير الثابتة لتركيزات تلوث الهواء: التحليل الإحصائي لحركة المرور وتأثير الأرصاد الجوية. قياس البيئة، 28 (2017)، e2449؛ دوي:10.1002/env.2449
- Ha, D. وSchmidhuber, J. نماذج العالم. زينودو (على الإنترنت)، 2018؛ دوي:10.5281/zenodo.1207631
- كينجما، دي.بي. وWelling، M. التشفير التلقائي بايز المتغير. في: وقائع المؤتمر الدولي الثاني حول تمثيلات التعلم (ICLR، 2014); arXiv:1312.6114 (2013).
