بایدو مدل فشرده PP OCRv5 را معرفی کرد؛ دقیقتر از رقبای بزرگ در آزمونهای OCR

بایدو اخیراً بعد از معرفی مدل Ernie X1.1، دست به انتشار مدل جدیدی در حوزه تشخیص متن زده است. این مدل که PP OCRv5 نام دارد و روی Hugging Face در دسترس قرار گرفته، برای شناسایی متن طراحی شده و در عین حال بسیار سبک و کارآمد است.
مدلهای عظیم بینایی زبانی که این روزها زیاد دربارهشان میشنویم، اگرچه قدرتمند هستند، اما در کارهای دقیق مانند تشخیص درست متنهای ساختاریافته عملکرد ضعیفتری دارند. PP OCRv5 دقیقاً برای رفع همین مشکل ساخته شده است.
این مدل در دو مرحله کار میکند، ابتدا محل دقیق متن را در تصویر پیدا کرده و خطوط دقیق دور آن میکشد، سپس متن شناساییشده را میخواند. همین ساختار باعث میشود در پردازش اسناد یا فرمها بسیار دقیق عمل کند.
از نظر بازدهی هم تنها ۰.۰۷ میلیارد پارامتر دارد، درحالیکه مدلهای بزرگ صدها برابر بیشتر هستند. آزمایشها نشان دادهاند که روی یک پردازنده Intel Xeon میتواند بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند. یعنی به راحتی روی رایانههای معمولی اجرا میشود، بدون نیاز به سرورهای و ارتباطات با شبکه خارجی.
در تستهای مقایسهای، PP OCRv5 در برابر مدلهای بزرگی مثل GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL عملکرد بهتری داشته است. این مدل علاوه بر متن چاپی، در خواندن دستنوشتهها هم موفق بوده و بیش از ۴۰ زبان شامل انگلیسی، چینی ساده و سنتی، ژاپنی و پینیین را پشتیبانی میکند.
از نظر فنی PP OCRv5 ابتدا تصویر را بهبود میدهد (اصلاح چرخش، کاهش اعوجاج و …)، سپس خطوط متن و جهت آنها را شناسایی کرده و در نهایت کاراکترها را به متن قابل خواندن تبدیل میکند. این فرآیند مختصات دقیق هر متن را هم ارائه میدهد؛ قابلیتی کلیدی برای کاربردهایی مثل اسکن فاکتورها یا پردازش فرمها.
بایدو این مدل را آزادانه روی Hugging Face عرضه کرده است. بنابراین برای توسعهدهندگان و کسبوکارهایی که با اسناد چندزبانه سروکار دارند یا به یک OCR سبک و دقیق نیازمندند، PP OCRv5 یک گزینهی عملی و کارآمد محسوب میشود.



