كشفت OpenAI عن GPT-4o، وهو نموذج جديد تمامًا للذكاء الاصطناعي تقول الشركة إنه أقرب خطوة إلى التفاعل الطبيعي بين الإنسان والحاسوب.
ويقبل النموذج الجديد أي مجموعة من النصوص والصوت والصور بصفتها مدخلات ويمكنه توليد مخرجات بجميع التنسيقات الثلاثة.
كما أنه قادر على تعرف المشاعر وقراءة تعبيرات وجهك، ويتيح لك مقاطعته في منتصف الكلام، وترجمة اللغة المنطوقة في الوقت الفعلي، ويستجيب بسرعة استجابة الإنسان تقريبًا أثناء المحادثات.
وقالت ميرا موراتي، مديرة التكنولوجيا في OpenAI، خلال عرض تقديمي: “الشيء المميز في GPT-4o هو أنه يوفر مستوى ذكاء GPT-4 للجميع، ويشمل ذلك مستخدمينا المجانيين. تعد هذه المرة الأولى التي نخطو فيها خطوة كبيرة إلى الأمام عندما يتعلق الأمر بسهولة الاستخدام”.
وخلال العرض التقديمي،
واجتمع مهندسو OpenAI ومديرة التكنولوجيا حول الهاتف لإظهار الإمكانات الجديدة. وشجعوا المساعد على زيادة التعبير أثناء تأليف قصة قبل النوم، ومن ثم طالبوه فجأة بالتحول إلى صوت آلي، قبل أن يطالبوه باختتام القصة بصوت غنائي.
وفي وقت لاحق، طالبوا المساعد بالنظر إلى ما تراه كاميرا الهاتف والاستجابة لما يظهر عبر الشاشة. وكان المساعد أيضًا قادرًا على المقاطعة أثناء التحدث والرد دون المطالبة المستمرة أثناء عمله بصفته مترجمًا.
وتعد هذه المزايا ترقية كبيرة للوضع الصوتي الحالي في ChatGPT الذي يمكنه الدردشة مع مستخدم مع أن التفاعل محدود جدًا، ولا يمكن مقاطعة الإصدار الحالي أو الاستجابة لما تراه الكاميرا.
ويشير الحرف o في GPT-4o إلى omni، في إشارة إلى إمكانيات النموذج المتعدد الوسائط.
وقالت OpenAI إنها دربت GPT-4o عبر النص والرؤية والصوت، مما يعني أن الشبكة العصبونية تعالج جميع المدخلات والمخرجات.
ويختلف هذا عن النموذجين السابقين للشركة، GPT-3.5 و GPT-4، اللذين سمحا للمستخدمين بطرح الأسئلة عن طريق التحدث، مع تحويل الكلام بعد ذلك إلى نص. وأدى هذا إلى تجريد اللهجة والعاطفة وجعل التفاعلات أبطأ.
وتعمل OpenAI على إتاحة النموذج الجديد للجميع، ويشمل ذلك مستخدمي ChatGPT المجانيين، خلال الأسابيع القليلة المقبلة، كما تصدر أيضًا إصدار سطح المكتب من ChatGPT.
نسخ الرابط تم نسخ الرابط
أخبار متعلقة :