اوپن ای‌آی قابلیت صوتی پیشرفته را برای شماری از کاربران خود فعال کرد

شرکت اوپن‌ ای‌آی، پیشگام در عرصه هوش مصنوعی، سه‌شنبه ۹ مرداد، نسخه آلفای قابلیت صوتی پیشرفته خود را برای شماری از کاربرانش فعال کرد و اعلام کرد در پائیز سال جاری، این امکان را به تدریج برای همه کاربران چت‌جی‌بی‌تی پلاس فعال خواهد کرد.

اوپن ای‌آی، این قابلیت تازه را در ماه می معرفی کرد و همان زمان به خاطر پاسخ‌های سریع و شباهت زیادی صدای آن با صدای یک انسان واقعی، توجهات زیادی را به خود جلب کرد.

در آن زمان، شباهت این صدا که نام آن را اسکای گذاشته بودند به صدای اسکارلت جوهانسون، که صداپیشه‌ی کاراکتر دستیار مصنوعی در فیلم «Her» بود، خبرساز شد.

جوهانسون، پس از معرفی این قابلیت، اعلام کرد که او چندین درخواست از سوی سم آلتمن، مدیرعامل این شرکت را برای استفاده از صدایش رد کرده است و پس از دیدن رونمایی از قابلیت صوتی پیشرفته، وکیل استخدام کرد تا از اوپن ای‌آی برای کپی برداری از صدایش شکایت کند.

اوپن ای‌آی در واکنش، استفاده از صدای جوهانسون را رد کرد، اما بعدا صدایی که در رونمایی از این قابلیت، از آن استفاده شده بود را حذف کرد و آن را با صداهای دیگر جایگزین کرد.

در ماه ژوئن هم اوپن ای‌آیاعلام کرد ارائه عمومی قابلیت صوتی پیشرفته را به تاخیر می‌اندازد تا اقدامات ایمنی را بهبود بخشد و اکنون با فعال‌سازی محدود روز سه‌شنبه به نظر می‌رسد مشکلات امنیتی مدنظر این شرکت حل شده است.

با این همه این نسخه‌ آلفا که سه‌شنبه به شماری از کاربران ارائه شد، قابلیت‌های ویدئو و به اشتراک‌گذاری صفحه نمایش که در رونمایی بهار نمایش داده شدند، را نخواهد داشت و گفته شده در «تاریخی دیگر» ارائه خواهند شد.

چت‌جی‌بی‌تی اکنون می‌تواند گوش دهد و صحبت کند

اوپن ای‌آی می‌گوید قابلیت صوتی پیشرفته با قابلیت صوتی که در حال حاضر در چت‌جی‌بی‌تی موجود است به کلی متفاوت است. بنا بر اعلام اوپن ای‌آی، در قابلیت صوتی ابتدایی در چت‌جی‌بی‌تی، این سرویس برای دادن پاسخ سه مرحله را با کمک سه مدل متفاوت طی می‌کند: ابتدا صدای کاربر را به متن تبدیل می‌کند، سپس چت‌جی‌بی‌تی۴ این پرسش را پردازش می‌کند و در مرحله سوم متن پاسخ را به صدا تبدیل می‌کند.

اما قابلیت صوتی پیشرفته در جی‌بی‌تی-۴او، این مراحل را بدون کمک مدل‌های دیگر پردازش و انجام می‌دهد و برای همین ‌مکالمات با تاخیر بسیار کمتر انجام می‌شود و جی‌بی‌تی-۴او همچنین می‌تواند زیر و بم احساسی در صدای کاربر از جمله غم، هیجان یا آواز خواندن را بفهمد و به آن واکنش نشان دهد.

اوپن ای‌آی می‌گوید این قابلیت را به صورت تدریجی ارائه می‌کند تا بر استفاده از آن به دقت نظارت داشته باشد و ایرادهای احتمالی آن را رفع کند.

کاربرانی که نسخه آلفا برای آن‌ها فعال شده، در اپلیکیشن چت‌جی‌بی‌تی خود پیامی دریافت خواهند کرد و سپس یک ایمیل با دستورالعمل‌های استفاده از آن، برای آن‌ها ارسال می‌شود.

اوپن ای‌آی می‌گوید در چند ماهی که از رونمایی اولیه قابلیت صوتی پیشرفته گذشته، این قابلیت را با بیش از ۱۰۰تیم خارجی که به ۴۵زبان مختلف صحبت می‌کنند، آزمایش کرده است و در اویل ماه اگوست گزارشی از اقدامات ایمنی مرتبط را به افکار عمومی ارائه خواهد داد.

این شرکت می‌گوید قابلیت صوتی پیشرفته تنها با چهار صدای پیش‌فرض متعلق به این شرکت با نام‌های جونیپر، بریزی، کووی و امبر ارائه خواهد شد که صداهایی متعلق به آدم‌های واقعی صداپیشه است که با این شرکت همکاری کرده‌اند و صدای اسکای که در رونمایی اولیه این قابلیت در ماه می استفاه شده بود دیگر در چت‌جی‌بی‌تی در دسترس نیست.

لیندسی مک‌کالوم، سخنگوی اوپن ای‌آی می‌گوید چت‌جی‌بی‌تینمی‌تواند صدای افراد دیگر، چه افراد عادی و چه شخصیت‌های شناخته‌شده را تقلید کند و خروجی‌هایی که با صداهای پیش‌فرض متفاوت باشد را مسدود خواهد کرد.»

به نظر می‌رسد اوپن ای‌آی در تلاش است تا از جنجال‌های مرتبط با دستکاری پیچیده (دیپ‌فیک) اجتناب کند. در ماه ژانویه سال جاری، از فن‌آوری تقلید صدای استارتاپ هوش مصنوعی AI ElevenLabs برای تقلید صدای جو بایدن استفاده شد که باعث فریب رای‌دهندگان درون حزبی در ایالت نیوهمپشایر شد.