
گوگل از Gemini 3.5 Live Translate رونمایی کرد؛ ترجمه زنده گفتار در بیش از ۷۰ زبان با حفظ لحن و صدای گوینده
گوگل از Gemini 3.5 Live Translate بهعنوان جدیدترین مدل هوش مصنوعی خود برای ترجمه زنده گفتار به گفتار رونمایی کرده؛ این فناوری که ادامه مسیر طولانی گوگل در حوزه ترجمه ماشینی محسوب میشود، امکان ترجمه تقریباً آنی مکالمات را در بیش از ۷۰ زبان فراهم میکند. گوگل اعلام کرده این مدل علاوه بر انتقال محتوای صحبتها، میتواند ویژگیهای صوتی گوینده از جمله لحن، آهنگ گفتار، سرعت بیان و زیر و بم صدا را نیز در خروجی ترجمه حفظ کند.
به گفته گوگل ترجمه ماشینی این شرکت نزدیک به دو دهه پیش بهعنوان یکی از نخستین پروژههای مبتنی بر یادگیری ماشین آغاز شد و اکنون به مرحلهای رسیده که ماهانه بیش از یک تریلیون کلمه برای میلیاردها کاربر در محصولات مختلف گوگل ترجمه میشود. معرفی Gemini 3.5 Live Translate بخشی از برنامه این شرکت برای توسعه ابزارهای ارتباطی مبتنی بر هوش مصنوعی و کاهش موانع زبانی میان کاربران در نقاط مختلف جهان به شمار میرود.
این مدل بهصورت خودکار زبانهای مختلف را شناسایی میکند و کاربران برای استفاده از آن نیازی به انتخاب یا پیکربندی دستی زبان مبدأ و مقصد ندارند. گوگل توضیح داده است که برخلاف بسیاری از سامانههای ترجمه زنده که تا پایان صحبت فرد منتظر میمانند، Gemini 3.5 Live Translate به شکل پیوسته ترجمه را تولید میکند و میان دریافت اطلاعات بیشتر برای افزایش دقت و ارائه پاسخ سریع برای حفظ هماهنگی با گوینده تعادل برقرار میسازد.
بر اساس اطلاعات منتشرشده، خروجی این مدل تنها چند ثانیه از گوینده اصلی عقبتر است و همین موضوع باعث میشود مکالمات طبیعیتر از گذشته دنبال شوند. گوگل میگوید فناوری جدید از ایجاد وقفههای طولانی و مکثهای نامعمول جلوگیری میکند و در نتیجه کاربران میتوانند تجربهای نزدیکتر به یک گفتوگوی واقعی داشته باشند. این ویژگی بهویژه در تماسهای زنده و جلسات چندزبانه اهمیت قابل توجهی خواهد داشت.
یکی دیگر از قابلیتهای کلیدی Gemini 3.5 Live Translate پردازش گفتار همزمان با استریم شدن آن است. این مدل برای کار در محیطهای شلوغ و پر سر و صدا نیز بهینهسازی شده و میتواند در شرایطی که نویز محیطی بالا است عملکرد پایداری ارائه دهد. گوگل معتقد است چنین ویژگیهایی امکان استفاده از این فناوری را در جلسات کاری، کلاسهای آموزشی، تماسهای چندزبانه، برنامههای زنده و رویدادهای مختلف فراهم میکند.
عرضه Gemini 3.5 Live Translate از امروز در چند بخش مختلف آغاز شده است و توسعهدهندگان میتوانند از طریق Gemini Live API و همچنین Google AI Studio به نسخه پیشنمایش عمومی این مدل دسترسی پیدا کنند. در بخش سازمانی نیز گوگل اعلام کرده که پیشنمایش خصوصی این قابلیت از ماه جاری در Google Meet برای برخی مشتریان تجاری آغاز میشود و برنامه گسترش دسترسی به آن در مراحل بعدی دنبال خواهد شد.
گوگل همچنین از همکاری با تعدادی از شرکتهای فعال در حوزه توسعه نرمافزار خبر داده است؛ پلتفرمهایی مانند Agora، Fishjam، LiveKit، Pipecat و Vision Agents اکنون از Gemini Live API پشتیبانی میکنند و زیرساخت مورد نیاز برای توسعه برنامههای ترجمه صوتی را در اختیار توسعهدهندگان قرار میدهند. به گفته گوگل، این همکاریها باعث میشود سازندگان نرمافزار بدون درگیر شدن با پیچیدگیهای فنی استریم بلادرنگ رسانه، روی طراحی تجربه کاربری تمرکز کنند.
در میان شرکتهایی که آزمایش این فناوری را آغاز کردهاند، نام حمل و نقل Grab نیز دیده میشود. این شرکت در حال بررسی استفاده از Gemini 3.5 Live Translate برای برقراری ارتباط چندزبانه میان رانندگان و مسافران در زمان سوار شدن است. طبق آمار ارائهشده توسط گوگل، کاربران Grab ماهانه بیش از ۱۰ میلیون تماس صوتی از طریق این پلتفرم برقرار میکنند و فناوری جدید میتواند بخشی از چالشهای زبانی موجود در این ارتباطات را برطرف کند.
علاوه بر Grab، شرکتهایی از جمله CJ ENM و LiveKit نیز بازخوردهای اولیه خود را درباره این مدل منتشر کردهاند. گوگل میگوید ارزیابیهای انجامشده نشان میدهد کیفیت ترجمه، دقت بالا و تأخیر کم از مهمترین ویژگیهای Gemini 3.5 Live Translate محسوب میشوند. این موارد از جمله معیارهای کلیدی برای استفاده عملی از ترجمه همزمان در تماسها و مکالمات زنده به شمار میروند.
گوگل همزمان برنامههای خود برای استفاده از این فناوری در Google Meet و Google Translate را نیز تشریح کرده است. در Google Meet تعداد زبانهای پشتیبانیشده از پنج زبان به بیش از ۷۰ زبان افزایش مییابد و امکان ترجمه در بیش از ۲۰۰۰ ترکیب زبانی مختلف فراهم خواهد شد. همچنین کاربران Google Translate در اندروید و iOS میتوانند با اتصال هدفون از ترجمه زنده مبتنی بر این مدل استفاده کنند. گوگل برای کاربران اندروید قابلیت جدید Listening Mode را نیز در نظر گرفته است؛ قابلیتی که امکان شنیدن ترجمهها را مستقیماً از طریق بلندگوی مکالمه گوشی و بدون نیاز به هدفون فراهم میکند.
پیشنهاد سردبیر
یک پاسخ به “گوگل از Gemini 3.5 Live Translate رونمایی کرد؛ ترجمه زنده گفتار در بیش از ۷۰ زبان با حفظ لحن و صدای گوینده”
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.





فوق العاده مطالب جذاب و آسان فهمه. ممنون و خسته نباشیدخدمت تیم پرقدرت کورتک.عشقیددد