CoreTech

گوگل از Gemini 3.5 Live Translate رونمایی کرد؛ ترجمه زنده گفتار در بیش از ۷۰ زبان با حفظ لحن و صدای گوینده

ابوالفضل | ۱ هفته پیش

گوگل از Gemini 3.5 Live Translate به‌عنوان جدیدترین مدل هوش مصنوعی خود برای ترجمه زنده گفتار به گفتار رونمایی کرده؛ این فناوری که ادامه مسیر طولانی گوگل در حوزه ترجمه ماشینی محسوب می‌شود، امکان ترجمه تقریباً آنی مکالمات را در بیش از ۷۰ زبان فراهم می‌کند. گوگل اعلام کرده این مدل علاوه بر انتقال محتوای صحبت‌ها، می‌تواند ویژگی‌های صوتی گوینده از جمله لحن، آهنگ گفتار، سرعت بیان و زیر و بم صدا را نیز در خروجی ترجمه حفظ کند.

به گفته گوگل ترجمه ماشینی این شرکت نزدیک به دو دهه پیش به‌عنوان یکی از نخستین پروژه‌های مبتنی بر یادگیری ماشین آغاز شد و اکنون به مرحله‌ای رسیده که ماهانه بیش از یک تریلیون کلمه برای میلیاردها کاربر در محصولات مختلف گوگل ترجمه می‌شود. معرفی Gemini 3.5 Live Translate بخشی از برنامه این شرکت برای توسعه ابزارهای ارتباطی مبتنی بر هوش مصنوعی و کاهش موانع زبانی میان کاربران در نقاط مختلف جهان به شمار می‌رود.

این مدل به‌صورت خودکار زبان‌های مختلف را شناسایی می‌کند و کاربران برای استفاده از آن نیازی به انتخاب یا پیکربندی دستی زبان مبدأ و مقصد ندارند. گوگل توضیح داده است که برخلاف بسیاری از سامانه‌های ترجمه زنده که تا پایان صحبت فرد منتظر می‌مانند، Gemini 3.5 Live Translate به شکل پیوسته ترجمه را تولید می‌کند و میان دریافت اطلاعات بیشتر برای افزایش دقت و ارائه پاسخ سریع برای حفظ هماهنگی با گوینده تعادل برقرار می‌سازد.

بر اساس اطلاعات منتشرشده، خروجی این مدل تنها چند ثانیه از گوینده اصلی عقب‌تر است و همین موضوع باعث می‌شود مکالمات طبیعی‌تر از گذشته دنبال شوند. گوگل می‌گوید فناوری جدید از ایجاد وقفه‌های طولانی و مکث‌های نامعمول جلوگیری می‌کند و در نتیجه کاربران می‌توانند تجربه‌ای نزدیک‌تر به یک گفت‌وگوی واقعی داشته باشند. این ویژگی به‌ویژه در تماس‌های زنده و جلسات چندزبانه اهمیت قابل توجهی خواهد داشت.

یکی دیگر از قابلیت‌های کلیدی Gemini 3.5 Live Translate پردازش گفتار همزمان با استریم شدن آن است. این مدل برای کار در محیط‌های شلوغ و پر سر و صدا نیز بهینه‌سازی شده و می‌تواند در شرایطی که نویز محیطی بالا است عملکرد پایداری ارائه دهد. گوگل معتقد است چنین ویژگی‌هایی امکان استفاده از این فناوری را در جلسات کاری، کلاس‌های آموزشی، تماس‌های چندزبانه، برنامه‌های زنده و رویدادهای مختلف فراهم می‌کند.

عرضه Gemini 3.5 Live Translate از امروز در چند بخش مختلف آغاز شده است و توسعه‌دهندگان می‌توانند از طریق Gemini Live API و همچنین Google AI Studio به نسخه پیش‌نمایش عمومی این مدل دسترسی پیدا کنند. در بخش سازمانی نیز گوگل اعلام کرده که پیش‌نمایش خصوصی این قابلیت از ماه جاری در Google Meet برای برخی مشتریان تجاری آغاز می‌شود و برنامه گسترش دسترسی به آن در مراحل بعدی دنبال خواهد شد.

گوگل همچنین از همکاری با تعدادی از شرکت‌های فعال در حوزه توسعه نرم‌افزار خبر داده است؛ پلتفرم‌هایی مانند Agora، Fishjam، LiveKit، Pipecat و Vision Agents اکنون از Gemini Live API پشتیبانی می‌کنند و زیرساخت مورد نیاز برای توسعه برنامه‌های ترجمه صوتی را در اختیار توسعه‌دهندگان قرار می‌دهند. به گفته گوگل، این همکاری‌ها باعث می‌شود سازندگان نرم‌افزار بدون درگیر شدن با پیچیدگی‌های فنی استریم بلادرنگ رسانه، روی طراحی تجربه کاربری تمرکز کنند.

در میان شرکت‌هایی که آزمایش این فناوری را آغاز کرده‌اند، نام حمل و نقل Grab نیز دیده می‌شود. این شرکت در حال بررسی استفاده از Gemini 3.5 Live Translate برای برقراری ارتباط چندزبانه میان رانندگان و مسافران در زمان سوار شدن است. طبق آمار ارائه‌شده توسط گوگل، کاربران Grab ماهانه بیش از ۱۰ میلیون تماس صوتی از طریق این پلتفرم برقرار می‌کنند و فناوری جدید می‌تواند بخشی از چالش‌های زبانی موجود در این ارتباطات را برطرف کند.

علاوه بر Grab، شرکت‌هایی از جمله CJ ENM و LiveKit نیز بازخوردهای اولیه خود را درباره این مدل منتشر کرده‌اند. گوگل می‌گوید ارزیابی‌های انجام‌شده نشان می‌دهد کیفیت ترجمه، دقت بالا و تأخیر کم از مهم‌ترین ویژگی‌های Gemini 3.5 Live Translate محسوب می‌شوند. این موارد از جمله معیارهای کلیدی برای استفاده عملی از ترجمه همزمان در تماس‌ها و مکالمات زنده به شمار می‌روند.

گوگل همزمان برنامه‌های خود برای استفاده از این فناوری در Google Meet و Google Translate را نیز تشریح کرده است. در Google Meet تعداد زبان‌های پشتیبانی‌شده از پنج زبان به بیش از ۷۰ زبان افزایش می‌یابد و امکان ترجمه در بیش از ۲۰۰۰ ترکیب زبانی مختلف فراهم خواهد شد. همچنین کاربران Google Translate در اندروید و iOS می‌توانند با اتصال هدفون از ترجمه زنده مبتنی بر این مدل استفاده کنند. گوگل برای کاربران اندروید قابلیت جدید Listening Mode را نیز در نظر گرفته است؛ قابلیتی که امکان شنیدن ترجمه‌ها را مستقیماً از طریق بلندگوی مکالمه گوشی و بدون نیاز به هدفون فراهم می‌کند.

منبع

ابوالفضل | ۱ هفته پیش

یک پاسخ به “گوگل از Gemini 3.5 Live Translate رونمایی کرد؛ ترجمه زنده گفتار در بیش از ۷۰ زبان با حفظ لحن و صدای گوینده”

  1. a.saberi1368 گفت:

    فوق العاده مطالب جذاب و آسان فهمه. ممنون و خسته نباشیدخدمت تیم پرقدرت کورتک.عشقیددد

دیدگاهتان را بنویسید