معهد الابتكار التكنولوجي يطلق "نور"، أكبر نموذج معالجة طبيعية للغة العربية في العالم

noor

 

• النموذج يعد أقوى نموذج معالجة طبيعية للغة العربية حتى الآن ويشمل 10 مليار عامل متغيّر

• يتميز بتطبيقات في مجالات عديدة منها، التلخيص الآلي وروبوتات المحادثة والمساعدين الافتراضيين باللغة العربية

أعلن معهد الابتكار التكنولوجي، مركز الأبحاث العالمي وذراع الأبحاث التطبيقية التابع لمجلس أبحاث التكنولوجيا المتطورة، اليوم عن إطلاق "نور"، أكبر نموذج معالجة طبيعية للغة العربية في العالم حتى الآن.

ولتنفيذ هذه المبادرة، تعاون فريق المعهد المؤلف من باحثين ومهندسين في التكنولوجيا المتقدمة والمتخصصين في الذكاء الاصطناعي ضمن وحدة الذكاء الاصطناعي مع شركة التكنولوجيا "لايت أون" التي توفر تطبيقات الذكاء الآلي واسع النطاق للشركات، وذلك بهدف إحداث ثورة في مجال نماذج المعالجة الطبيعية للغة العربية. ويقوم نموذج "نور" بتنفيذ مهام ضمن مجالات متعددة بناء على تعليمات اللغة الطبيعية فقط. ولبناء "نور"، قام فريق من الباحثين في معهد الابتكار التكنولوجي بجمع بيانات ضخمة عالية الجودة باللغة العربية والعمل على تنسيقها وتحسينها لتتماشى مع آليات الذكاء الاصطناعي المستخدمة في المعالجة. كما عمل الباحثون على بناء خدمات محسنة للتدريب والتوزيع على نطاق واسع لغايات توفير تطبيقات فعالة ومتخصصة.

قال الدكتور راي أو. جونسون، الرئيس التنفيذي لمعهد الابتكار التكنولوجي وأسباير: "إن هذا التطور يؤكد أننا نمضي في الاتجاه الصحيح نحو تعزيز قدراتنا ومؤهلاتنا البحثية في الذكاء الاصطناعي، إضافة إلى الارتقاء بمكانة أبوظبي والإمارات كمنظومة بحثية رائدة. وقد أثبتت فرق الخبراء لدينا مرة أخرى قدرة هذه المنطقة على تحقيق نتائج بحثية وبناء تقنيات متقدمة تؤثر على العالم ككل".

وقالت الدكتورة ابتسام المزروعي، مدير وحدة الذكاء الاصطناعي لدى المعهد: "أحدثت نماذج اللغات الكبيرة ثورة في عالم معالجة اللغة الطبيعية. ونحن فخورون بأن نعلن اليوم عن نتائج نموذج نور الذي يتضمن 10 مليار عامل متغيّر، وهو أكبر نموذج في العالم للمعالجة الطبيعية للغة العربية. "نور" هو حصيلة للعمل المتواصل والجهود الدؤوبة التي قام بها الفريق في الأشهر الماضية لجمع مجموعة بيانات عربية كبيرة وفريدة لتدريب برنامج. ومن هنا أتوجه بشكر خاص لجميع أعضاء الفريق الذي عمل على هذا المشروع ومكّن "نور" من أن يصبح نموذجاً متقدماً لمعالجة اللغة العربية في كل أنحاء العالم".

وفي معرض حديثه عن الإطلاق المرتقب، قال البروفيسور مروان ديباه، كبير الباحثين في وحدة الذكاء الاصطناعي ومركز بحوث العلوم الرقمية ضمن المعهد: "من خلال "نور"، وسع المعهد نطاق تطبيق معالجة اللغة الطبيعية بشكل قياسي للغة العربية الحديثة عن طريق دمج النماذج اللغوية الكبيرة مع الجيل الجديد من تقنيات الذكاء الاصطناعي لبناء خبرات متطورة و تطبيقات متعددة التخصصات ".

وتعد مجموعة البيانات الضخمة الخاصة بـ "نور" أكبر مجموعة بيانات عربية عالية الجودة في العالم، حيث تجمع بين بيانات الويب والكتب والشعر والمواد الإخبارية والمعلومات التقنية لتوسيع نطاق تطبيق النموذج بشكل واسع .

وقال عبدالعزيز الشامسي، الباحث في الذكاء الاصطناعي في المعهد وطالب الدكتوراه: "بصفتي باحثاً إماراتياً، يشرفني أن أكون جزءاً من معهد الابتكار التكنولوجي. لقد استمتعت بالتعرف على الباحثين والمدربين الشغوفين في وحدة الذكاء الاصطناعي والعمل معهم، فهم يضيفون قيمة بالغة إلى مجال معالجة اللغة العربية والمعالجة الطبيعية للغة. خلال العمل معهم، تعلمت مهارات تكنولوجية متقدمة ستدعم مسيرتي وتمهد الطريق لي كباحث نحو اكتشاف العالم بشكل يتجاوز آفاق معالجة اللغة الطبيعية. كما ساعدت ورش العمل التدريبية على الارتقاء بمهاراتنا والتعرف على مفاهيم جديدة وزودتنا بالأدوات المناسبة لتنفيذ مشروع نور".

وقالت الدكتورة ابتسام المزروعي إن نموذج "نور" يعتمد على هندسة المحولات الشهيرة “Transformer” التي تشبه في هيكليتها GPT-3 وتستخدم نموذج لوحدة فك الترميز “ Decoder” فقط. تم برمجة نموذج "نور" لمعالجة المهام المتقدمة بما يعكس أحدث التطورات في عالم تعلم الآلة، ويشمل ذلك عدد كبير من التحسينات مثل رفع كفاءة الترميز الذي يشير إلى موضع الكلمات. ولضمان تعزيز جودة بيانات "نور" على نطاق واسع، صمم فريق المعهد أدوات فلترة آلية تعتمد على تقنيات تعلم الآلة وتحدد مراجع لكفاءة وجودة النموذج وتحميه من المحتوى العشوائي غير المرغوب به.

وبالاستفادة من نهج التوازي ثلاثي الأبعاد المتطور، تم تدريب "نور" على حاسوب عالي الأداء يحتوي على 128 وحدة معالجة الرسوميات من طراز A100، مما يسمح بتوزيع العمليات الحسابية وضمان الاستخدام الفعال للموارد.

وأشارت الدكتورة ابتسام المزروعي أن هذه ليست سوى الخطوة الأولى فقط ضمن جهود المعهد للمساهمة في استراتيجية الإمارات للذكاء الاصطناعي، وذلك من خلال دعم عملية دمج الذكاء الاصطناعي في القطاعات الاقتصادية الرئيسية.

تم اختيار اسم "نور" للمشروع لترسيخ الارتباط بين نموذج اللغة العربية وتنوير العقول، فمشروع "نور" يمثل المساهمة العالمية للإمارات العربية المتحدة في التكنولوجيا المتقدمة و الذكاء الاصطناعي.