بایدو مدل فشرده PP OCRv5 را معرفی کرد؛ دقیق‌تر از رقبای بزرگ در آزمون‌های OCR

ابوالفضل | ۸ ماه پیش

بایدو اخیراً بعد از معرفی مدل Ernie X1.1، دست به انتشار مدل جدیدی در حوزه تشخیص متن زده است. این مدل که PP OCRv5 نام دارد و روی Hugging Face در دسترس قرار گرفته، برای شناسایی متن طراحی شده و در عین حال بسیار سبک و کارآمد است.

مدل‌های عظیم بینایی زبانی که این روزها زیاد درباره‌شان می‌شنویم، اگرچه قدرتمند هستند، اما در کارهای دقیق مانند تشخیص درست متن‌های ساختاریافته عملکرد ضعیف‌تری دارند. PP OCRv5 دقیقاً برای رفع همین مشکل ساخته شده است.

این مدل در دو مرحله کار می‌کند، ابتدا محل دقیق متن را در تصویر پیدا کرده و خطوط دقیق دور آن می‌کشد، سپس متن شناسایی‌شده را می‌خواند. همین ساختار باعث می‌شود در پردازش اسناد یا فرم‌ها بسیار دقیق عمل کند.

از نظر بازدهی هم تنها ۰.۰۷ میلیارد پارامتر دارد، درحالی‌که مدل‌های بزرگ صدها برابر بیشتر هستند. آزمایش‌ها نشان داده‌اند که روی یک پردازنده Intel Xeon می‌تواند بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند. یعنی به راحتی روی رایانه‌های معمولی اجرا می‌شود، بدون نیاز به سرورهای و ارتباطات با شبکه خارجی.

در تست‌های مقایسه‌ای، PP OCRv5 در برابر مدل‌های بزرگی مثل GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL عملکرد بهتری داشته است. این مدل علاوه بر متن چاپی، در خواندن دست‌نوشته‌ها هم موفق بوده و بیش از ۴۰ زبان شامل انگلیسی، چینی ساده و سنتی، ژاپنی و پین‌یین را پشتیبانی می‌کند.

از نظر فنی PP OCRv5 ابتدا تصویر را بهبود می‌دهد (اصلاح چرخش، کاهش اعوجاج و …)، سپس خطوط متن و جهت آن‌ها را شناسایی کرده و در نهایت کاراکترها را به متن قابل خواندن تبدیل می‌کند. این فرآیند مختصات دقیق هر متن را هم ارائه می‌دهد؛ قابلیتی کلیدی برای کاربردهایی مثل اسکن فاکتورها یا پردازش فرم‌ها.

بایدو این مدل را آزادانه روی Hugging Face عرضه کرده است. بنابراین برای توسعه‌دهندگان و کسب‌وکارهایی که با اسناد چندزبانه سروکار دارند یا به یک OCR سبک و دقیق نیازمندند، PP OCRv5 یک گزینه‌ی عملی و کارآمد محسوب می‌شود.

ابوالفضل | ۸ ماه پیش

پیشنهاد سردبیر

سری گلکسی بادز۴ با طراحی پریمیوم، پشتیبانی کامل از Ai و مشخصات بهبود یافته رونمایی شد

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

بایدو مدل فشرده PP OCRv5 را معرفی کرد؛ دقیق‌تر از رقبای بزرگ در آزمون‌های OCR

پیشنهاد سردبیر

سری گلکسی بادز۴ با طراحی پریمیوم، پشتیبانی کامل از Ai و مشخصات بهبود یافته رونمایی شد

مور تردز از لپ‌تاپ‌ جدید MTT AIBook با شباهت زیاد ظاهری و ساختاری به مک‌بوک اپل رونمایی کرد

گزارش جامع از پلی‌استیشن ۶؛ زمان عرضه، مشخصات فنی و قیمت احتمالی زیر ذره‌بین

تحول بزرگ در ایکس‌باکس؛ بازنشستگی فیل اسپنسر و انتصاب آشا شارما به عنوان مدیرعامل بخش گیمینگ

دیدگاهتان را بنویسید لغو پاسخ

آیفون فولد بدون مشکل رايج نسل قبل گوشی‌های تاشوی کتابی و با قیمت محافظه‌کارانه رونمایی می‌شود

سری گلکسی بادز۴ با طراحی پریمیوم، پشتیبانی کامل از Ai و مشخصات بهبود یافته رونمایی شد

این آنتن شبکه‌ی P2P مانند فیبر نوری عمل می‌کند، Taara Beam با پهنای باند ۲۵ گیگابیت‌ بر ثانیه رونمایی شد

قابلیت نمایشگر حریم خصوصی گلکسی S26 اولترا در دنیا واقعی با عملکرد کاربردی تست شد

گزارش جامع از پلی‌استیشن ۶؛ زمان عرضه، مشخصات فنی و قیمت احتمالی زیر ذره‌بین

آئودی RS5 2026 با موتو V6 هیبریدی اما با افزایش چشمگیر وزن خودرو رونمایی شد

گوگل از Gemini 3.1 Pro با توانایی استدلال پیشرفته و ساخت فایل SVG رونمایی کرد

پیکسل 10a رونمایی شد، میان ‌رده ۴۹۹ دلاری گوگل با هوش مصنوعی و پشتیبانی هفت‌ساله

تبلیغات گلکسی S26 سامسونگ زیر ذره‌بین؛ استفاده گسترده از ویدیوهای تولیدشده با هوش مصنوعی

حذف برخی قابلیت‌های RDNA 5 از پلی‌استیشن ۶، سونی از معماری گرافیکی دستکاری شده استفاده می‌کند

درباره ما: