طور الباحثون في مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) في معهد ماساتشوستس للتكنولوجيا (MIT) نظامًا جديدًا للذكاء الاصطناعي، يمكن أن يزود الإنسان الآلي بالقدرة على ربط الحواس المتعددة معًا.
ويمكن للنظام الجديد تعلم الرؤية عن طريق اللمس والشعور من خلال الرؤية، مما يعني أن الروبوتات التي يمكنها أن تتعلم الرؤية عن طريق اللمس أصبحت في متناول اليد.
ووصف الباحثون نظام الذكاء الاصطناعي القادر على توليد تمثيل مرئي للكائنات، من خلال إشارات اللمس، والتنبؤ باللمس عبر البيانات البصرية، في ورقة نُشرت حديثًا ستُعرض الأسبوع المقبل، في مؤتمر حول رؤية الحاسب، والتعرف على الأنماط، في لونغ بيتش بولاية كاليفورنيا.
ويمنح إحساس اللمس البشر قدرات على الشعور بالعالم المادي، كما تساعد العيون على فهم الصورة الكاملة لهذه الإشارات اللمسية، لكن لم يكن من الممكن للروبوتات المبرمَجة لغرض الرؤية أو الشعور – استخدام هذه الإشارات بشكل عكسي.
وأصبح بإمكان النظام الجديد القائم على الذكاء الاصطناعي إنشاء إشارات واقعية عن طريق المدخلات البصرية، والتنبؤ بأي جسم، وما الجزء الذي يتم لمسه بشكل مباشر من خلال تلك المدخلات اللمسية.
موضوعات ذات صلة بما تقرأ الآن:
ويمكن للنظام أن يتنبأ بما سيشعرُ بلمس كائنٍ ما بمجرد النظر إليه، كما يمكنه إنشاء تمثيل مرئي لكائن ما من خلال بيانات اللمس فقط.
ويساعد النظام الجديد في وجود علاقة أكثر انسجامًا بين الرؤية والروبوتات، خاصةً بالنسبة للتعرف على الأشياء، واستيعابها، والفهم الأفضل للمشهد، إلى جانب المساعدة في التكامل السلس بين الإنسان والآلة في بيئات التصنيع.
وقال يونزهو لي Yunzhu Li، طالب دكتوراه من مختبر علوم الحاسوب والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا: إن النموذج يمكن أن يساعد الروبوتات في التعامل مع الأشياء الواقعية بشكل أفضل، بحيث يمكن لنموذجنا أن يتخيل الشعور المتعلق بلمس سطح مستو، أو حافة حادة، من خلال النظر إلى المشهد، كما يمكنه أن يتنبأ بالتفاعل مع البيئة من خلال اللمس.
واستخدم الفريق ذراع الروبوت مع جهاز استشعار خاص باللمس يسمى (GelSight) – صممته مجموعة أخرى في معهد ماساتشوستس للتكنولوجيا – لتدريب النموذج، ثم جعلوا الذراع تلامس 200 قطعة منزلية 12 ألف مرة، مثل الأدوات؛ والمنتجات المنزلية؛ والأقمشة.
وسجل الفريق – باستخدام كاميرا ويب بسيطة – البيانات المرئية واللمسية، وحولوا مقاطع الفيديو البالغ عددها 12 ألف مقطع إلى إطارات ثابتة، وقاموا بإيجاد ما يطلق عليه اسم VisGel، وهي عبارة عن مجموعة بيانات تضم أكثر من ثلاثة ملايين صورة مرئية ولمسية.
وقال لي: إن عملية الجمع بين حاستي الرؤية واللمس تقلل البيانات التي قد نحتاجها للقيام بمهام تتضمن التلاعب بالأشياء وإمساكها، وتحتوي مجموعة البيانات الحالية فقط على أمثلة للتفاعلات في بيئة يتم التحكم فيها.
ويمكن استخدام هذا النوع من الذكاء الاصطناعي لمساعدة الروبوتات على العمل بكفاءة وفعالية أكبر في البيئات ذات الإضاءة المنخفضة، دون الحاجة إلى أجهزة استشعار متطورة، أو كمكونات لأنظمة عمومية عند استخدامها مع تقنيات المحاكاة الحسية الأخرى.
ويأمل الفريق في تحسين ذلك من خلال جمع البيانات في مناطق غير منظمة، أو باستخدام قفاز اللمس الجديد المصمم من قبل معهد ماساتشوستس للتكنولوجيا، في سبيل زيادة حجم وتنوع مجموعة البيانات، وتعزيز الطريقة التي يمكنها الترجمة بشكل مقنع بين الإشارات البصرية واللمسية.