مجلة ثقافية منوعة تصدر كل شهرين
يوليو – أغسطس | 2024

من مجلة أرامكو وورلد

وعود وتحديات الذكاء الاصطناعي للغة العربية


الرسوم: الفنان مجاهد المالكي، من خلال مولد الذكاء الاصطناعي وريبيكا آن بروكتور

المصدر: مجلة أرامكو وورلد، مايو/يونيو 2024م


ملاحظة: الصور في هذه القصة أُنشِئت عبر برمجيات توليد الأعمال الفنية بالذكاء الاصطناعي، وكان التدخل البشري ضروريًا لتحسين الصور والنصوص الموجودة فيها.


كيف يمكن لنماذج الذكاء الاصطناعي التوليدي أن تجعل تطبيقاتها في متناول العالم الناطق بالعربية في الشرق الأوسط وخارجه؟

الباحث في مجال الذكاء الاصطناعي في الإمارات العربية المتحدة، محمد منيب خالد، يؤمن بقدرة الذكاء الاصطناعي على تعزيز التواصل بشكل أفضل للعالم الناطق باللغة العربية.

يعتمد خالد في عمله في جامعة الشارقة على برنامج “شات جي بي تي” (ChatGPT) لترجمة التقارير من الإنجليزية إلى العربية الفصحى والعكس. لكن اللغة العربية لها أشكال متعددة. وعلى الرغم من أن “شات جي بي تي” أداة مفيدة، إلا أن خالد عندما يحاول التحدث بلهجة عربية معينة إلى هذا البرنامج، فإن الردود كما يقول “ليست دقيقة”.

يقول خالد إن هناك حاجة إلى تحقيق المزيد لدمج اللغة العربية، ولا سيما اللهجات العربية المتنوعة، في نماذج الذكاء الاصطناعي الحالية، وهذا ما يأمل هو وباحثون آخرون تحقيقه.

عقبة اللهجات

عندما أُطلق “شات جي بي تي”، الذي طوَّرته مؤسسة “أوبن أيه آي” (Open AI) في عام 2022م، أحدث هذا البرنامج ضجة كبيرة في جميع أنحاء العالم لقدرته على تمكين المستخدمين من التواصل بسهولة مع الآلة على مستوى طبيعي يشبه التواصل البشري.

“شات جي بي تي” (ChatGPT) هو نوع من النماذج اللغوية الكبيرة (LLM) المدرّبة على حجم هائل من البيانات. ويمكنه فهم الاستفسارات العربية وترجمتها باستخدام اللغة العربية الفصحى الحديثة. ولكن، كما يقول خالد، فإن ردوده هذه لا تفي بالغرض، فغالبًا ما تبدو الإجابات غير طبيعية، ولا تحمل الترجمات الحرفية المعنى الأصلي نفسه.

وفي حين أن أدوات الذكاء الاصطناعي التحاورية، مثل “شات جي بي تي” أو “غوغل جيمناي” (Google Gemini)، يمكنها أن تعزز الكفاءة ومشاركة العملاء والتواصل معهم، إلا أن العديد من المتخصصين يذكرون أن الذكاء الاصطناعي يتبين ضعفه الشديد تكون هنالك حاجة إلى التحدث بلغات أخرى ذات لهجات متعددة، كما هو الحال مع اللغة العربية. فاللغة العربية هي اللغة الرسمية لحوالي 22 دولة، معظمها في الشرق الأوسط وإفريقيا، ويتحدث بها أكثر من 400 مليون شخص في جميع أنحاء العالم وفقًا للأمم المتحدة. وهي أيضًا إحدى اللغات الرسمية للأمم المتحدة التي تستخدمها في عملها حول العالم، إلى جانب اللغات الصينية والإنجليزية والفرنسية والروسية والإسبانية.

هناك ثلاثة أشكال رئيسة من اللغة العربية: اللغة القرآنية أو الفصحى، والفصحى الحديثة، والعامية، التي تضم 20 لهجة أو أكثر، رغم أن العدد الفعلي للهجات لا يزال محل خلاف. وبعض هذه اللهجات متشابهة، والبعض الآخر يصعب فهمه حتى بالنسبة لمتحدثي اللغة العربية الفصحى. وتشمل المجموعات الأكثر شيوعًا اللهجات الشمال إفريقية (المغربية)، والمشرقية (سوريا ولبنان)، واللهجات المصرية، واللهجات الخليجية. ويتحدث خالد، الذي ينتمي إلى أصول سورية، بثلاثة أشكال من اللغة العربية: الفصحى الحديثة للعمل، واللهجة المشرقية، واللهجة الخليجية في المحادثات اليومية. ولكن من خلال أداة الذكاء الاصطناعي، فإنه يواجه عقبات، ويُظهر بحثه أن هذه مشكلة شائعة.

يقول خالد: “أخبرني العديد من أصحاب الشركات في جميع أنحاء العالم الناطق بالعربية أنهم يفضلون أن تكون نماذج الذكاء الاصطناعي متوفرة بإحدى اللهجات العامية العربية؛ لأن استخدامها أكثر شيوعًا من اللغة العربية الفصحى في إجراء الأعمال التجارية مع عملائهم.فالعملاء يفضلون القيام بالأعمال التجارية بلهجتهم الخاصة”.

ويردف قائلًا: “سألني مدير تنفيذي لإحدى الشركات بالإمارات العربية المتحدة عما إذا كان بإمكان شات جي بي تي أن يكتب باللهجة الإماراتية، لأن ذلك سيكون مفيدًا لعملائه. وقال رجل سوداني آخر إنه سيكون من المفيد جدًا أن يكون هناك نموذج للهجة السودانية. وإلى جانب شات جي بي تي، سيكون من المجدي أيضًا أن يكون لدى العالم العربي أليكسا (Alexa) باللغة العربية”.

ويوضح خالد أن إحدى المشكلات هي هيمنة اللغة الإنجليزية في عالم الذكاء الاصطناعي، مما أدى إلى ندرة استخدام اللغة العربية واللغات الأخرى. ويضيف قائلًا: “في مجال الذكاء الاصطناعي، لا تحظى اللغة العربية باهتمام كبير من الباحثين أو الشركات الكبرى”.

لكن الباحثين والمهندسين في العالم العربي يحاولون تغيير ذلك. يقول خالد مثلًا إنه يعمل على أبحاث ستدرب الذكاء الاصطناعي على دعم لهجات عربية متنوعة وجعل الإجابات أكثر دقة.

ذكاء اصطناعي عربي

تتطلب عديد من الصناعات والقطاعات العامة والخاصة، بطبيعة عملها، اللغة العربية لتنفيذ خدماتها العامة. يقول الأستاذ الدكتور أشرف النجار، نائب عميد كلية الحوسبة والمعلوماتية في جامعة الشارقة، وهو أيضًا أستاذ خالد: “هذا هو السبب في أن تقنيات الذكاء الاصطناعي أصبحت الآن مهمة جدًا وحاسمة في تطوير لغات مثل اللغة العربية”.

ويعمل النجار، مع الطلاب والباحثين مثل خالد، على تطوير نماذج جديدة وتوسيع معرفتهم باستخدام اللغة العربية في الذكاء الاصطناعي. وهو يعتقد أن الذكاء الاصطناعي “مهم للغاية لمعالجة اللغة الطبيعية بشكل عام، واللغة العربية بشكل خاص؛ فهو يستطيع سد الفجوة بين اللغة العربية، وتحديدًا الجزء المتعلق بالتراكيب اللغوية منها، وبين أحدث التقنيات التي ظهرت خلال السنوات الأربع أو الخمس الماضية”.

ويشير النجار إلى أن تطوير نماذج ذكاء اصطناعي متقدمة اليوم يسمح لنا بتحسين أدوات المعالجة اللغوية، الأمر الذي يمكن أن يؤدي إلى تحسين الترجمة ودمج اللغة العربية في العالم الرقمي.

أما روبرت تشيسمان، وهو استشاري في مجال الذكاء الاصطناعي ومخرج أفلام مقيم في سيدني وجاب أنحاء المنطقة على نطاق واسع، فيعتقد أن “تعليم الآلات والترجمة يمكنهما الآن البدء في فهم الطبيعة المتعددة الأوجه للغة العربية”.

يقول تشيسمان إن إحدى طرق استيعاب تعقيدات اللغة العربية تتمثل في توثيق جميع الأفلام والبرامج التلفزيونية العربية، مع الأخذ في الاعتبار أن اللغة العربية لغة ذات تصريفات نحوية وقواعد إعراب ولهجات متعددة ومختلفة. وتتمثل إحدى التطبيقات في استخدام “غوغل جيمناي”، وهو نموذج ذكاء اصطناعي لا تقتصر قدرته على فهم النصوص مثل غيره من النماذج اللغوية الكبيرة الأخرى، بل يفهم أيضًا مقاطع الفيديو والصور.

كما يشير تشيسمان إلى أنه باستخدام هذا النطاق النصي، عرضت غوغل عينة من فيلم “شيرلوك جونيور” من إخراج وتمثيل الكوميدي الأمريكي باستر كيتون، توضح فيه كيف حلل “جيمناي” الفيلم الذي تبلغ مدته 44 دقيقة في ثوانٍ، واستطاع فهم الرؤية والفوارق الدقيقة وبعض الفكاهة.

يقول تشيسمان: “تخيّل لو أن جيمناي انفتح على الأفلام المصرية أو التلفزيون السعودي أو الكتب في المغرب. لا شك أنه سيتمكن من بناء معرفة قوية بالطبيعة متعددة الأوجه وشديدة التباين للغة العربية وثقافات البلدان العربية، ليس فقط لفهم الفروق اللغوية الدقيقة بينها، بل أيضًا لفهم أهمية الفروق الثقافية الدقيقة في الوقت نفسه. وربما ستكون هذه فرصة لمعرفة أن اللغة العربية المتداولة ليست هي، برغم كل شيء، الفصحى الحديثة”.

إتاحة الابتكار للجميع

يعتقد الباحثون في مجال الذكاء الاصطناعي التوليدي أنه من الضروري تطوير نماذج لغوية كبيرة للغات أخرى غير الإنجليزية لضمان إتاحة الابتكار للجميع.

يقول جيف شوباك، المتخصص في التحول الرقمي وخبير الذكاء الاصطناعي المقيم في مدينة سان فرانسيسكو الأمريكية: “كسر الحاجز اللغوي، الذي يحول بين الذكاء الاصطناعي وبين استخدامه من قبل عدد كبير من المستخدمين حول العالم، سوف يهيئ الظروف لانتشاره بوصفه أداة لم يخترع البشر شيئًا يضاهيها في ثوريتها التكنولوجية”.

ويضيف قائلًا: “إن جعل الذكاء الاصطناعي متاحًا بالقواعد النحوية المحلية واللهجات المحلية واللغات المحلية سيمهد الطريق لانتشاره بالفعل”.

ومع ذلك، يوضح تشيسمان أن جودة النماذج اللغوية الكبيرة تعتمد على جودة البيانات المقدمة لها. ويرى أن اللغة العربية المكتوبة ستفقد مع النماذج اللغوية الكبيرة الكثير من المعاني الثقافية الضمنية في الغالب، نظرًا لأن تلك النماذج لا تتضمن لكنات عربية، كما أنها مكتوبة بلغة “فصيحة” لجمهور “فصيح”.

ومن أجل تحسين دقة الذكاء الاصطناعي وإمكانية استخدامه باللغة العربية، يقول تشيسمان إنه من المهم استخدام عينات صوت وفيديو متنوعة للتأكد من أن النموذج يعرف الموقع الجغرافي والثقافي للغة المستخدمة.

وفي شهر أغسطس من العام 2023م، شهدت العاصمة الإماراتية أبو ظبي تقدمًا كبيرًا بإطلاق نموذج “جيس” (JAIS)، وهو نموذج مفتوح المصدر باللغتين العربية والإنجليزية عمل على تطويره مركز الذكاء الاصطناعي “إنسبشن” التابع لمجموعة جي 42 بالتعاون مع جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI) وشركة “سيريبراس سيستمز”، إحدى شركات وادي السيليكون. والنموذج متاحٌ للتنزيل من خلال منصة لتعليم الآلات تُسمى “هاغينغ فيس” (Hugging Face).

وقد صُمم نموذج “جيس” لدعم اللغة العربية وإدخالها غمار مجال الذكاء الاصطناعي، ويُعتبر أكثر نموذج لغوي عربي كبير مفتوح أهمية ودقة في العالم. فاللغة العربية، وفقًا لمطوري “جيس”، لا تمثل حاليًا أكثر من 1% فقط من إجمالي المحتوى العالمي على الإنترنت. وقد مكن تطوير نموذج لغوي عربي كبير المتحدثين بالعربية والمنظمات العربية من استخدام خدمات التحول الرقمي مشابهة لـ شات جي بي تي (ChatGPT) وجيميناي (Gemini).

ويؤكد ذلك رئيس قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي والأستاذ في القسم نفسه، بريسلاف ناكوف قائلًا: “يُتيح جيس لمتحدثي العربية حول العالم استخدام الذكاء الاصطناعي التوليدي”. ويوضح أن اللغة العربية، بعمقها وتراثها ومع كل تفاصيلها وتعقيداتها، تستطيع من خلال جيس أن تتبوأ مكانة في مجال الذكاء الاصطناعي الذي يشهد توسعًا متسارعًا.

ويضيف بريسلاف: “يساعد ذلك في سد الفجوة بين أجهزة الكمبيوتر وقدرتها على فهم تعقيدات اللغة العربية”.

المحافظة على اللغة العربية

وفي عالم يشهد اعتمادًا متزايدًا على الذكاء الاصطناعي في جميع جوانب الحياة، فإن تدريب نماذجه على لغات معينة يُعد أمرًا مهمًا، ليس بغرض الوصول إلى شريحة جماهيرية أكبر وتحسين الأعمال والاتصالات فحسب، وإنما أيضًا للوصول إلى سكان المناطق التي تكون اللغة الإنجليزية فيها محدودة الاستخدام.

ويوضح بريسلاف أن نموذج جيس مصمم لفهم الثقافة والبيئة اللغوية في المنطقة العربية بدقة أكبر، على عكس معظم النماذج الأخرى التي تركز على الولايات المتحدة الأمريكية. ويضيف قائلًا: “يمكن أن يساعد جيس في زيادة حجم المحتوى العربي المتاح على الإنترنت وتنوعه، بما في ذلك الموارد التعليمية حول مواضيع مختلفة، مثل التقنية والثقافة والعلوم وأساليب الحياة والنصوص المترجمة من لغات أخرى، التي تشمل المقالات الإخبارية والمدونات وشرائط ترجمة الشاشات”.

والعمل مستمر في تحسين هذه النماذج، فقد طُورت نسخة محدثة من نموذج جيس، أُطلق عليها “جيس بي 30 ” ، في نوفمبر 2023م وتم إنجازها في يناير 2024م، وهي الأحدث والأكثر كفاءة من النماذج اللغوية العربية الكبيرة مفتوحة المصدر، فهي تضم 30 مليار مؤشر، مقدمة بذلك تجربة ذكاء اصطناعي توليدي غنية وفريدة للمتحدثين بالعربية حول العالم.

وللنماذج اللغوية الكبيرة قدرة على المحافظة على اللغات جميعها وليس العربية فقط، بطرق عديدة منها أن تُعين على الفهم والترجمة، مسهمة بذلك في سد فجوة التواصل بين المتحدثين بالعربية والمتحدثين بغيرها من اللغات. كما يمكنها دعم الجهود المبذولة للمحافظة على اللغة العربية وتوثيقها من خلال تحليل وفهم النصوص التاريخية والأدب وآثار الحضارات.

ويوضح الرئيس التنفيذي للمركز الوطني للذكاء الاصطناعي، ياسر العنيزان، أن أحد الأهداف الإستراتيجية الرئيسة للمركز هي تطوير وتنفيذ حلول الذكاء الاصطناعي لتسريع اعتمادها في المملكة العربية السعودية. ويُعد المركز الوطني للذكاء الاصطناعي ذراع الابتكار في الهيئة السعودية للبيانات والذكاء الاصطناعي “سدايا”.

يقول العنيزان: “يُولي المركز عناية خاصة بجوانب عدة، نذكر منها إنتاج منتجات وخدمات ذكاء اصطناعي وطنية إستراتيجية باللغة العربية، مع ضخ استثمارات كبيرة في بناء نماذج عربية تأسيسية قابلة لإعادة الاستخدام ومدربة مسبقًا على اللغة والكلام، مثل النموذجين “علّام” و “صوتك”. ويضمن تطوير هذه الحلول محليًا المحافظة على الثقافة والهوية والسيادة على البيانات، والنقل الحقيقي للتقنية”.

ورغم التقدم الكبير الذي تحقق في تطوير وتعزيز نماذج الذكاء الاصطناعي باللغة العربية، إلا أن التحديات لا تزال قائمة، وعلى رأسها حجم التعقيد في اللغة العربية. وفي هذا الصدد، يقول أشرف النجار: “اللغة العربية معقدة جدًا مقارنة باللغات الأخرى، ويرجع ذلك باختصار إلى تعدد لهجاتها ولكناتها إضافة إلى تراكيبها اللغوية الواسعة. كما أن عدد الباحثين في هذا المجال ضئيل. وهناك أيضًا عقبة أخرى كبيرة تتمثل في ندرة الموارد الحاسوبية”.

من جانبه يوضح بريسلاف ناكوف أنه مع التوسع في استخدام النماذج اللغوية الكبيرة في معظم القطاعات، قد يتسبب ذلك دون قصد في التعجيل باضمحلال اللغات الأصغر والأقل تمثيلًا. يقول: “إذا لم نلتفت لهذا الأمر، فإن هذا الوضع قد يُفضي إلى سيناريو يستولي فيه الفائز على كل شيء، وهو سيناريو ستخدم فيه نماذج اللغات الكبيرة اللغات واسعة الانتشار بصورة جيدة فيما تتجاهل اللغات الأقل انتشارًا”. ويردف قائلًا: “يمكن أن تمتد أهمية نماذج مثل “جيس” إلى ما هو أبعد من اللغة العربية، وتسهم في المحافظة على لغات أخرى في المنطقة ذات صلة وثيقة باللغة العربية، مثل الآرامية والمهرية والشحرية ولغة هوبيوت والحرسوسية واللغة الأمهرية في إثيوبيا”.

وهناك تحد آخر يتمثل في أن اللغة العربية تتغير باستمرار. يقول ياسر العنيزان: “مع تطور اللغة، تصبح القواعد [النحوية] أكثر تعقيدًا، وأحيانًا تصبح قديمة. لذلك، من المنطقي تطوير القدرة على تعلم هذه القواعد أو أنماط اللغة من البيانات مباشرة”.

ومع أن الذكاء الاصطناعي باللغة العربية لا يزال في مراحله الأولى، فإن التطورات في مختلف أنحاء المنطقة، التي يذكي جذوتها طلاب متحمسون مثل محمد منيب خالد وأساتذة جامعيون مثل أشرف النجار، تحفز هذه الثورة التي نحن في أمس الحاجة إليها.

للاطلاع على المقالة الإنجليزية من مجلة أرامكو وورلد.


مقالات ذات صلة

هل إذا كانت المرأة المثقفة جميلة في الوقت نفسه، تبقى بالدرجة الأولى جميلة، ومن ثَمَّ مثقفة؟ وأي عقبة يمثلِّها جمال المرأة فيما لو قرَّرت أن تُصبح كاتبة أو شاعرة أو روائية؟

المدينة المنورة أوَّلَ مدينة صديقة للتوحُّد في الشرق الأوسط والرابعة عالميًا، هدفها توفير بيئة داعمة للأفراد المصابين باضطراب طيف التوحُّد (ASD)، وتعزيز شمولية المدينة وإمكانية الوصول إليها للأفراد المصابين بالتوحُّد وأسرهم.

لسلطة السرعة سليبات عديدة، ليست أقلها أن تصبح حياتنا سطحية، فعندما نتسرع لا ندرك إلا ظاهر الأمور، ونفشل في إقامة اتصالات حقيقية مع العالم.


0 تعليقات على “الذكاء الاصطناعي واللغة العربية”


اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *