تكنولوجيا
10 كانون الثاني 2022, 09:00

"ميتا" تطوّر أنظمة الذكاء الاصطناعي للتّعرّف على الكلام سمعيًّا وبصريًّا

تيلي لوميار/ نورسات
شركة "ميتا" تطوّر نظام التعرّف على كلام الشفاه "AV-HuBERT"، وتقول إنّه أكثر دقة وبنسبة 75% من أفضل أنظمة التّعرّف على الكلام السمعي-البصري.

ذكر تقرير في موقع "venture beat" التكنولوجي أنّه "في العادة، يدرك الناس الكلام من خلال الاستماع إليه ومراقبة حركات شفاه المتحدثين، ففي الواقع، تُظهر الدراسات أن الإشارات المرئية تلعب دوراً رئيسياً في تعلّم اللغة".

لكن وبحسب التقرير، فإن "أنظمة الذكاء الاصطناعي للتعرف على الكلام  مبنية في الغالب - أو بالكامل - على الصوت، وتتطلب هذه الأنظمة إدخال قدرٍ كبيرٍ من البيانات، يتراوح عادةً في عشرات الآلاف من الساعات من التسجيلات".  

ولاستكشاف ما إذا كانت المرئيات - خاصة لقطات حركة الفم - يمكن أن تحسن أداء أنظمة التعرف على الكلام، قام الباحثون في "Meta" (Facebook سابقاً) بتطوير "audio-Visual Hidden Unit BERT"  أو  "AV-HuBERT"، وهو نظام لفهم الكلام من خلال المشاهدة، وسماع كلام الناس، وفق التقرير.  

وأشار التقرير إلى أنّ شركة "Meta" تؤكّد في هذا الإطار، أنّ "AV-HuBERT" أكثر دقة وبنسبة 75% من أفضل أنظمة التعرف على الكلام السمعي-البصري التي تستخدم عدد النسخ نفسها.

علاوة على ذلك، تقول الشركة، إنّ "AV-HuBERT" يتفوق في الأداء على أفضل نظام للتعرف على الكلام سمعياً وبصرياً سابقاً باستخدام عُشر البيانات المصنفة - مما يجعله مفيداً للغات التي تحتوي على القليل من البيانات الصوتية.

وفي السياق، قال عالم الأبحاث في شركة ميتا، عبد الرحمن محمد، إنّه "في المستقبل، يمكن استخدام أطر عمل الذكاء الاصطناعي مثل "AV-HuBERT" لتحسين أداء تقنية التعرف على الكلام في الظروف اليومية الصاخبة، مثل التفاعلات في حفلة أو في أسواق الشوارع الصاخبة".

وأضاف محمد أنّه "يمكن أيضاً للمساعدين في الهواتف الذكية، ونظارات الواقع المعزز، ومكبرات الصوت الذكية المزودة بكاميرا - على سبيل المثال، "Alexa Echo Show"، الاستفادة من هذه التقنية".

 

المصدر: الميادين نت