المدونة

الذكاء الاصطناعي ودوره في حياتنا

يتحدث أكثر من 440 مليون شخص في جميع أنحاء العالم اللغة العربية وهي رابع أكثر اللغات المستخدمة شيوعًا على الإنترنت اليوم. مع ذلك، تعاني اللغة العربية من نقص التمثيل بشكل واضح على الإنترنت. يمثل المحتوى الرقمي باللغة العربية ما بين 1 إلى 3 بالمئة فقط من إجمالي المحتوى على الإنترنت، بحسب ورقة بحثية بعنوان “المحتوى الرقمي العربي” صدرت عن الاتحاد الدولي للاتصالات وقُدّمت في قمة أقيمت عام 2012. وجدت دراسة حديثة أجرتها شركة W3Techs للدراسات المسحية أن اللغة العربية كانت لغة أقل من 1 في المئة من المواقع التي شملتها الدراسة. عمل كريم درويش، العالم البارز في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة، في الدوحة، كجزء من فريق يعمل على إعداد أدوات تستخدم الذكاء الاصطناعي لتغيير ذلك. يعتقد درويش أن المشكلة مزدوجة. قال “يمتلك عدد محدود من الناس القدرة الفكرية والوقت والوسائل المالية للاستثمار في توفير محتوى عالي الجودة على أساس تطوعي. من ناحية أخرى، يجعل الافتقار إلى الأدوات التكنولوجية التي تراعي الخصائص المحددة للغة العربية الوصول إلى المحتوى صعبًا في حال توفره.” لا يبدو تطوير أدوات أفضل للمعالجة التلقائية للغة العربية مهمة سهلة. في اللغة العربية، يمكن لـ “الجذر اللغوي”، أو مجموعة من الأصوات المتسقة الصحيحة المتعددة بترتيب معين، توليد العديد من الكلمات ذات المعاني المختلفة. كما يختلف شكل الحرف نفسه حسب موقعه داخل الكلمة. علاوة على ذلك، تغيّر الرموز الموضوعة أعلى أو أسفل الحروف، والتي تسمى علامات التشكيل أو الحركات، النطق والصيغة النحوية وحتى معنى الكلمات في بعض الأحيان. يساهم هذا في إرباك أنظمة البحث ويولّد نتائج بحث سيئة. “عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.” حمدي سليمان مبارك كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة أما التحدي الآخر فيتمثل في أن الحروف العربية لا تحتوي على أحرف كبيرة أو صغيرة، مما يجعل تحديد الأسماء الصحيحة أمرًا صعبًا. مجموعة أدوات مفتوحة المصدر يعتقد حمدي سليمان مبارك، كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة، أن غياب التعاون البحثي المشترك في هذا المجال يجبر الباحثين على البدء دائمًا من نقطة الصفر، مما يؤخر تطوير أدوات معالجة أكثر دقة. قال “عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.” في تحدٍ لهذا الاتجاه، أصدر معهد قطر مؤخرًا “فراسة“، وهي مجموعة أدوات مفتوحة المصدر لمعالجة النصوص العربية. باستخدام الذكاء الاصطناعي، تمكن درويش وزملاؤه من تحسين دقة وسرعة تجزئة الكلمات – أي تقسيم الكلمات إلى وحدات ذات معنى، وهو أمر مهم لتحسين جودة المخرجات في مهام “المعالجة الطبيعية للغة” مثل الترجمة الآلية واسترجاع المعلومات. قال درويش “لقد حققنا طفرة عندما سمحنا للذكاء الاصطناعي بتحليل جميع العناصر الموجودة في النص وعدم تقييدها بعناصر محددة. ساهم هذا في تحسين الدقة من 87 في المئة إلى 95 في المئة.” اليوم، يستطيع معالج “فراسة” معالجة مليار كلمة في أقل من خمس ساعات، مما يجعله أسرع من أدوات المعالجة الأخرى.

يتحدث أكثر من 440 مليون شخص في جميع أنحاء العالم اللغة العربية وهي رابع أكثر اللغات المستخدمة شيوعًا على الإنترنت اليوم. مع ذلك، تعاني اللغة العربية من نقص التمثيل بشكل واضح على الإنترنت. يمثل المحتوى الرقمي باللغة العربية ما بين 1 إلى 3 بالمئة فقط من إجمالي المحتوى على الإنترنت، بحسب ورقة بحثية بعنوان “المحتوى الرقمي العربي” صدرت عن الاتحاد الدولي للاتصالات وقُدّمت في قمة أقيمت عام 2012. وجدت دراسة حديثة أجرتها شركة W3Techs للدراسات المسحية أن اللغة العربية كانت لغة أقل من 1 في المئة من المواقع التي شملتها الدراسة. عمل كريم درويش، العالم البارز في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة، في الدوحة، كجزء من فريق يعمل على إعداد أدوات تستخدم الذكاء الاصطناعي لتغيير ذلك. يعتقد درويش أن المشكلة مزدوجة. قال “يمتلك عدد محدود من الناس القدرة الفكرية والوقت والوسائل المالية للاستثمار في توفير محتوى عالي الجودة على أساس تطوعي. من ناحية أخرى، يجعل الافتقار إلى الأدوات التكنولوجية التي تراعي الخصائص المحددة للغة العربية الوصول إلى المحتوى صعبًا في حال توفره.” لا يبدو تطوير أدوات أفضل للمعالجة التلقائية للغة العربية مهمة سهلة. في اللغة العربية، يمكن لـ “الجذر اللغوي”، أو مجموعة من الأصوات المتسقة الصحيحة المتعددة بترتيب معين، توليد العديد من الكلمات ذات المعاني المختلفة. كما يختلف شكل الحرف نفسه حسب موقعه داخل الكلمة. علاوة على ذلك، تغيّر الرموز الموضوعة أعلى أو أسفل الحروف، والتي تسمى علامات التشكيل أو الحركات، النطق والصيغة النحوية وحتى معنى الكلمات في بعض الأحيان. يساهم هذا في إرباك أنظمة البحث ويولّد نتائج بحث سيئة. “عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.” حمدي سليمان مبارك كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة أما التحدي الآخر فيتمثل في أن الحروف العربية لا تحتوي على أحرف كبيرة أو صغيرة، مما يجعل تحديد الأسماء الصحيحة أمرًا صعبًا. مجموعة أدوات مفتوحة المصدر يعتقد حمدي سليمان مبارك، كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة، أن غياب التعاون البحثي المشترك في هذا المجال يجبر الباحثين على البدء دائمًا من نقطة الصفر، مما يؤخر تطوير أدوات معالجة أكثر دقة. قال “عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.” في تحدٍ لهذا الاتجاه، أصدر معهد قطر مؤخرًا “فراسة“، وهي مجموعة أدوات مفتوحة المصدر لمعالجة النصوص العربية. باستخدام الذكاء الاصطناعي، تمكن درويش وزملاؤه من تحسين دقة وسرعة تجزئة الكلمات – أي تقسيم الكلمات إلى وحدات ذات معنى، وهو أمر مهم لتحسين جودة المخرجات في مهام “المعالجة الطبيعية للغة” مثل الترجمة الآلية واسترجاع المعلومات. قال درويش “لقد حققنا طفرة عندما سمحنا للذكاء الاصطناعي بتحليل جميع العناصر الموجودة في النص وعدم تقييدها بعناصر محددة. ساهم هذا في تحسين الدقة من 87 في المئة إلى 95 في المئة.” اليوم، يستطيع معالج “فراسة” معالجة مليار كلمة في أقل من خمس ساعات، مما يجعله أسرع من أدوات المعالجة الأخرى.

Image placeholder

"ستيف جوبز "

باستخدام الذكاء الاصطناعي، تمكن درويش وزملاؤه من تحسين دقة وسرعة تجزئة الكلمات – أي تقسيم الكلمات إلى وحدات ذات معنى، وهو أمر مهم لتحسين جودة المخرجات في مهام “المعالجة الطبيعية للغة” مثل الترجمة الآلية واسترجاع المعلومات.

6 تعليقات

  • Image placeholder

    احمد نصر

    April 7, 2020 at 10:05pm

    نعم لقد كانت مقالة مفيدة ورائعة سررت بقرائتها

    الرد

  • Image placeholder

    عادل خيرت

    April 7, 2020 at 10:05pm

    فعلا كل المقالة جميلة وتقدل اجوية كافية للاسئلة التي تدور في ذهن

    الرد

    • Image placeholder

      علي صالح

      April 7, 2020 at 10:05pm

      بحسب درويش، معظم المحتوى العربي على الإنترنت متوفر بهذه اللهجات المحلية، مما يطرح مجموعة جديدة كاملة من التحديات.

      الرد

      • Image placeholder

        محمد مجد

        April 7, 2020 at 10:05pm

        وما إلى ذلك في مكان واحد. دعونا نتصور كيف سيكون مجمع الأخبار الأفضل على هذا الكوكب. لا توجد طريقة قياسية لكتابة الكلمات العامية وغالبًا ما تكون الأخطاء الإملائية أكثر شيوعًا في هذا النوع من اللغة العربية

        Reply

        • Image placeholder

          سعيد راضي

          April 7, 2020 at 10:05pm

          وما إلى ذلك في مكان واحد. دعونا نتصور كيف سيكون مجمع الأخبار الأفضل على هذا الكوكب. بهدف تدريب الذكاء الاصطناعي على فهم العلاقة بين الكلمات، ستكون بحاجة إلى كمية هائلة من البيانات المشفرة.

          Reply

  • Image placeholder

    محمد علي

    April 7, 2020 at 10:05pm

    قال درويش “نحن نطور أدوات لفهم هذه اللهجات ومعرفة أصل كلماتها. نحن نحلم بأن نكون قادرين على أخذ نص في أي لهجة محلية وتحويله إلى اللغة العربية الفصحى.”

    Reply

اترك تعليقا