
يولد كلامًا طبيعيًا أقرب إلى المحادثات البشرية
يتوفر نموذج Nova Sonic عبر منصة أمازون Bedrock المخصصة للمطورين
كشفت شركة أمازون عن نموذجها الصوتي الجديد القائم على الذكاء الاصطناعي التوليدي Nova Sonic، وهو مصمم للتعامل مع الصوت بنحو مباشر وتوليد كلام طبيعي أقرب إلى المحادثات البشرية.
ينافس أبرز النماذج الصوتية المتقدمة من شركتي OpenAI وجوجل
وقالت الشركة إن أداء هذا النموذج ينافس أبرز النماذج الصوتية المتقدمة من شركتي OpenAI وجوجل، وذلك وفقًا لمعايير تقيس السرعة ودقة تعرّف الكلام وجودة المحادثة، مشيرة إلى أنه الأكثر كفاءة من ناحية التكلفة في السوق، فهو أقل تكلفة بنسبة تقارب 80% مقارنةً بنموذج GPT-4o من OpenAI.
ويتوفر نموذج Nova Sonic عبر منصة أمازون Bedrock المخصصة للمطورين لبناء تطبيقات الذكاء الاصطناعي للمؤسسات، وذلك من خلال واجهة برمجة تطبيقات API جديدة تتيح البث الصوتي في الاتجاهين.
ويتميّز Nova Sonic بقدرته على الاستجابة في الوقت المناسب في أثناء الحوارات الثنائية، إذ يراعي مدد الصمت والمقاطعات من الطرف الآخر، كما يولّد نسخة مكتوبة من كلام المستخدم، يمكن للمطورين الاستفادة منها في تطبيقات مختلفة.
ويأتي Nova Sonic استجابة من أمازون للنماذج الصوتية الحديثة، مثل النموذج الذي يدعم وضع الصوت في ChatGPT، الذي بات أكثر سلاسة مقارنةً بالنماذج السابقة، مثل الإصدارات الأولى من أليكسا وسيري.
وأكد روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء الذكاء الاصطناعي العام (AGI) في الشركة، أن مكونات Nova Sonic تُستخدم بالفعل في تشغيل أليكسا بلس، المساعد الصوتي المحسّن الذي أطلقته الشركة حديثًا، مشيرًا إلى أن النموذج الجديد أقل عرضة لأخطاء تعرّف الكلام، ويتمكن من فهم ما يقصده المستخدم حتى في حال تمتمته أو حديثه وسط ضوضاء.