بایدو مدل فشرده PP OCRv5 را معرفی کرد؛ دقیق‌تر از رقبای بزرگ در آزمون‌های OCR

بایدو اخیراً بعد از معرفی مدل Ernie X1.1، دست به انتشار مدل جدیدی در حوزه تشخیص متن زده است. این مدل که PP OCRv5 نام دارد و روی Hugging Face در دسترس قرار گرفته، برای شناسایی متن طراحی شده و در عین حال بسیار سبک و کارآمد است.

مدل‌های عظیم بینایی زبانی که این روزها زیاد درباره‌شان می‌شنویم، اگرچه قدرتمند هستند، اما در کارهای دقیق مانند تشخیص درست متن‌های ساختاریافته عملکرد ضعیف‌تری دارند. PP OCRv5 دقیقاً برای رفع همین مشکل ساخته شده است.

این مدل در دو مرحله کار می‌کند، ابتدا محل دقیق متن را در تصویر پیدا کرده و خطوط دقیق دور آن می‌کشد، سپس متن شناسایی‌شده را می‌خواند. همین ساختار باعث می‌شود در پردازش اسناد یا فرم‌ها بسیار دقیق عمل کند.

از نظر بازدهی هم تنها ۰.۰۷ میلیارد پارامتر دارد، درحالی‌که مدل‌های بزرگ صدها برابر بیشتر هستند. آزمایش‌ها نشان داده‌اند که روی یک پردازنده Intel Xeon می‌تواند بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند. یعنی به راحتی روی رایانه‌های معمولی اجرا می‌شود، بدون نیاز به سرورهای و ارتباطات با شبکه خارجی.

در تست‌های مقایسه‌ای، PP OCRv5 در برابر مدل‌های بزرگی مثل GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL عملکرد بهتری داشته است. این مدل علاوه بر متن چاپی، در خواندن دست‌نوشته‌ها هم موفق بوده و بیش از ۴۰ زبان شامل انگلیسی، چینی ساده و سنتی، ژاپنی و پین‌یین را پشتیبانی می‌کند.

از نظر فنی PP OCRv5 ابتدا تصویر را بهبود می‌دهد (اصلاح چرخش، کاهش اعوجاج و …)، سپس خطوط متن و جهت آن‌ها را شناسایی کرده و در نهایت کاراکترها را به متن قابل خواندن تبدیل می‌کند. این فرآیند مختصات دقیق هر متن را هم ارائه می‌دهد؛ قابلیتی کلیدی برای کاربردهایی مثل اسکن فاکتورها یا پردازش فرم‌ها.

بایدو این مدل را آزادانه روی Hugging Face عرضه کرده است. بنابراین برای توسعه‌دهندگان و کسب‌وکارهایی که با اسناد چندزبانه سروکار دارند یا به یک OCR سبک و دقیق نیازمندند، PP OCRv5 یک گزینه‌ی عملی و کارآمد محسوب می‌شود.

ابوالفضل | ۲ ماه پیش

دیدگاهتان را بنویسید