باحثون يطورون برنامجاً جديداً للتعرف على أكثر من 25 لهجة عربية

نجح باحثون من عدة مؤسسات تعليمية بتطوير واجهة إلكترونية عامة جديدة تحت اسم برنامج التعرّف التلقائي على اللهجات العربية (ADIDA)، والذي يملك القدرة على تصنيف اللهجات من 25 مدينة عربية على امتداد العالم العربي، بالإضافة إلى اللغة العربية الفصحى.

وتمّ كشف النقاب عن البرنامج المتطور خلال فعاليات المؤتمر السنوي لفرع جمعية اللسانيات الحاسوبية في أمريكا الشمالية لعام 2019. ويعتبر هذا البرنامج ثمرة تعاون بين فريق من الباحثين في جامعة نيويورك أبوظبي تحت إشراف نزار حبش، الأستاذ المشارك في علوم الحاسوب ومدير مختبر الأساليب الحاسوبية لنمذجة اللغة في جامعة نيويورك أبوظبي(CAMeL Lab)، بالشراكة مع باحثين من مؤسسات تعليمية أخرى ضمن مشروع مصادر وتطبيقات اللهجات العربية المتعددة (MADAR).

ويمكن لمستخدمي البرنامج إدراج نص باللغة العربية في برنامج التعرّف التلقائي على اللهجات العربية، للحصول على نتائج على شكل خريطة نقطية أو حرارية فوق خريطة جغرافية للعالم العربي، استناداً إلى احتمال استخدام النص الذي تم إدخاله في واحدة من 25 مدينة، ثمّ تستعرض الواجهة الإلكترونية المدن الخمس الأولى من حيث احتمال استخدامها للنص المكتوب إلى جانب اللغة العربية الفصحى. وتستثني  آلية التحديد الجغرافي النص المكتوب باللغة العربية الفصحى ، لعدم وجود موقع جغرافي محدد يمكنه تمثيلها.

"يعتبر التعرّف على اللهجات تقنية بالغة الأهمية، قادرة على دعم مجموعة من التطبيقات اللغوية للذكاء الاصطناعي، من خلال تعزيز إمكانية التعرّف على لهجة المستخدم. فعلى سبيل المثال، يمكن للترجمة الآلية أو روبوتات المحادثة الذكية التي تتعرف على اللهجة تحديد ما إذا كانت كلمة ’ماشي‘ تعني ’حسناً‘ في القاهرة وبيروت أو ’لا‘ في صنعاء. وتزداد دقة النظام عموماً مع ازدياد طول الجملة المُدخَلة، حيث يمكن أن تنتمي العديد من الكلمات والعبارات القصيرة إلى لهجات مختلفة".

نزار حبش، الأستاذ المشارك في علوم الحاسوب
 

وتصوّر واجهة البرنامج توزّع الاحتمالات على خريطة جغرافية ثنائية الأبعاد تسمح للمستخدمين مراقبة الارتباطات والأنماط المتعلقة بأوجه التشابه والاختلاف في اللهجات بسهولة. علاوة على إمكانية اكتشاف مجموعات من المدن القريبة المحتملة ما يعطي المستخدم فكرة عامة عن استخدام النص في المنطقة.

لمزيد من المعلومات حول برنامج التعرّف التلقائي على اللهجات العربية، يرجى الاطلاع على البحث الأولي هنا.