متن را از فایل های PDF و تصویر استخراج کنید
یک سند PDF(PDF document) دارید که می خواهید تمام متن را از آن استخراج کنید؟ فایل های تصویری یک سند اسکن شده که می خواهید به متن قابل ویرایش تبدیل کنید چطور؟ اینها برخی از رایج ترین مشکلاتی است که من در محل کار هنگام کار با فایل ها دیده ام.
در این مقاله، من در مورد چندین روش مختلف صحبت خواهم کرد که می توانید برای استخراج متن از یک PDF یا از یک تصویر استفاده کنید. نتایج استخراج شما بسته به نوع و کیفیت(type and quality) متن در PDF یا تصویر(PDF or image) متفاوت خواهد بود. همچنین، نتایج شما بسته به ابزاری که استفاده می کنید متفاوت خواهد بود، بنابراین بهتر است تا حد امکان گزینه های زیر را امتحان کنید تا بهترین نتیجه را بگیرید.
متن را از تصویر یا PDF استخراج کنید
ساده ترین و سریع ترین راه برای شروع این است که یک سرویس آنلاین استخراج (extractor service)متن PDF(PDF text) را امتحان کنید . اینها معمولاً رایگان هستند و می توانند دقیقاً همان چیزی را که به دنبال آن هستید بدون نیاز به نصب چیزی بر روی رایانه خود به شما ارائه دهند. در اینجا دو مورد از آنها با نتایج بسیار خوب تا عالی استفاده شده است:
استخراج PDF
ExtractPDF یک ابزار رایگان برای گرفتن تصاویر، متن و فونت(text and fonts) ها از یک فایل PDF است(PDF file) . تنها محدودیت این است که حداکثر حجم(max size) فایل PDF(PDF file) 10 مگابایت است. این کمی کوچک است. بنابراین اگر فایل بزرگتری دارید، برخی از روش های زیر را امتحان کنید. فایل خود را انتخاب کنید و سپس روی دکمه ارسال فایل(Send file) کلیک کنید. نتایج معمولاً بسیار سریع هستند و وقتی روی زبانه Text(Text tab) کلیک می کنید باید پیش نمایشی از متن را مشاهده کنید .
همچنین یک مزیت اضافه شده خوب است که تصاویر را از فایل PDF(PDF file) نیز استخراج می کند، فقط در صورتی که به آنها نیاز داشته باشید! به طور کلی، ابزار آنلاین عالی کار می کند، اما من با چند سند PDF(PDF docs) مواجه شده ام که خروجی خنده دار به من می دهد. متن به خوبی استخراج می شود، اما به دلایلی بعد از هر کلمه یک خط شکسته می شود! (line break)مشکل بزرگی برای یک فایل PDF(PDF file) کوتاه نیست، اما مطمئناً مشکلی برای فایلهایی با متن زیاد است. اگر این اتفاق برای شما افتاد، ابزار بعدی را امتحان کنید.
OCR آنلاین
OCR آنلاین(Online OCR) معمولاً برای اسنادی کار می کند که به درستی با ExtractPDF تبدیل نمی شوند ، بنابراین ایده خوبی است که هر دو سرویس را امتحان کنید تا ببینید کدام یک خروجی بهتری به شما می دهند. OCR آنلاین(Online OCR) همچنین دارای برخی ویژگیهای زیباتر است که میتواند برای هر کسی با یک فایل PDF(PDF file) بزرگ که تنها به تبدیل متن در چند صفحه به جای کل سند نیاز دارد، مفید باشد.
اولین کاری که می خواهید انجام دهید این است که ادامه دهید و یک حساب کاربری رایگان ایجاد کنید. این کمی آزاردهنده است، اما اگر حساب رایگان ایجاد نکنید، فقط تا حدی PDF شما را به جای کل سند تبدیل می کند. همچنین، به جای اینکه فقط بتوانید فقط یک سند 5 مگابایتی(MB document) را آپلود کنید، می توانید تا 100 مگابایت در هر فایل با یک حساب کاربری آپلود کنید.
ابتدا یک زبان را انتخاب کنید و سپس نوع فرمت های خروجی مورد نظر خود را برای فایل تبدیل شده انتخاب کنید. شما چند گزینه دارید و در صورت تمایل می توانید بیش از یکی را انتخاب کنید. در سند(Multipage document) چند صفحه ای ، می توانید شماره صفحه(Page numbers) را انتخاب کنید و سپس فقط صفحاتی را که می خواهید تبدیل کنید انتخاب کنید. سپس فایل را انتخاب کرده و روی (file and click) Convert کلیک کنید !
پس از تبدیل، به بخش Documents (اگر وارد سیستم شده باشید) وارد خواهید شد، جایی که می توانید تعداد صفحات رایگان موجود و لینک های دانلود فایل های تبدیل شده خود را ببینید. به نظر می رسد که شما فقط 25 صفحه به صورت رایگان در روز دارید، بنابراین اگر به بیش از آن نیاز دارید، باید یا کمی صبر کنید یا صفحات بیشتری بخرید.
OCR آنلاین(Online OCR) کار بسیار خوبی را در تبدیل فایل های PDF من انجام داد زیرا می توانست طرح بندی واقعی متن را حفظ کند. در آزمایشم، یک سند Word(Word doc) گرفتم که از گلوله ها، اندازه های مختلف فونت و غیره استفاده می کرد و آن را به PDF تبدیل کردم . سپس از Online OCR برای تبدیل آن به فرمت ورد استفاده(Word format) کردم و تقریباً 95٪ مشابه نسخه اصلی بود. این برای من بسیار چشمگیر است.
به علاوه، اگر به دنبال تبدیل یک تصویر به متن هستید، OCR آنلاین(Online OCR) می تواند این کار را به همان راحتی استخراج متن از فایل های PDF انجام دهد.
OCR آنلاین رایگان
از آنجایی که در مورد OCR تصویر به متن صحبت می شد ، اجازه دهید یک وب سایت خوب دیگر را ذکر کنم که واقعاً روی تصاویر کار می کند. OCR آنلاین رایگان(Free Online OCR) هنگام استخراج متن از تصاویر آزمایشی من بسیار خوب و بسیار دقیق بود. من از آیفون خود چند عکس از صفحات کتاب، جزوه و غیره گرفتم و از اینکه چقدر خوب می تواند متن را تبدیل کند شگفت زده شدم.
فایل خود را انتخاب کنید و سپس روی دکمه آپلود کلیک کنید(Upload button) . در صفحه بعدی، چند گزینه و پیش نمایش تصویر وجود دارد. اگر نمیخواهید همه چیز را OCR کنید، میتوانید آن را برش دهید. سپس فقط روی دکمه OCR کلیک کنید(OCR button) و متن تبدیل شده شما در زیر پیش نمایش تصویر(image preview) ظاهر می شود . همچنین هیچ محدودیتی ندارد، که واقعا خوب است.
علاوه بر خدمات آنلاین، دو مبدل PDF رایگان وجود دارد که میخواهم در صورتی که برای انجام تبدیلها نیاز به نرمافزاری دارید که به صورت محلی روی رایانه شما اجرا میشود، اشاره کنم. با خدمات آنلاین، همیشه به اتصال به اینترنت(Internet connection) نیاز دارید و این ممکن است برای همه امکان پذیر نباشد. با این حال، متوجه شدم که کیفیت تبدیل های برنامه های رایگان به طور قابل توجهی بدتر از وب سایت ها بود.
استخراج متن A-PDF
A-PDF Text Extractor نرم افزار رایگانی است که کار نسبتا خوبی در استخراج متن از فایل PDF(PDF file) انجام می دهد. پس از(Once) دانلود و نصب آن، روی دکمه Open کلیک کنید تا (Open button)فایل PDF(PDF file) خود را انتخاب کنید . سپس بر روی Extract text کلیک کنید تا فرآیند شروع شود.
از شما مکانی برای ذخیره فایل خروجی متن(text output file) می خواهد و سپس استخراج شروع می شود. همچنین می توانید روی دکمه Option کلیک کنید، که به شما امکان می دهد فقط صفحات خاصی را برای استخراج و نوع استخراج(extraction type) را انتخاب کنید . گزینه دوم جالب است زیرا متن را در چیدمان های مختلف استخراج می کند و ارزش آن را دارد که هر سه مورد را امتحان کنید تا ببینید کدام یک بهترین خروجی را به شما می دهد.
PDF2Text Pilot
PDF2Text Pilot کار خوبی در استخراج متن انجام می دهد. هیچ گزینه ای ندارد. شما فقط فایل ها یا پوشه ها را اضافه کنید، تبدیل کنید و(convert and hope) به بهترین ها امیدوار باشید. روی برخی از PDF(PDFs) ها به خوبی کار می کرد ، اما برای اکثر آنها، مشکلات متعددی وجود داشت.
فقط روی Add Files کلیک کنید و سپس روی Convert کلیک کنید . پس از تکمیل تبدیل، روی Browse کلیک کنید تا فایل باز شود. مسافت پیموده شده شما با استفاده از این برنامه متفاوت خواهد بود، بنابراین انتظار زیادی نداشته باشید.
همچنین، شایان ذکر است که اگر در یک محیط شرکتی هستید یا می توانید یک نسخه از Adobe Acrobat را از محل کار به دست آورید، واقعاً می توانید نتایج بسیار بهتری بگیرید. واضح است که Acrobat(Acrobat) رایگان نیست، اما گزینه هایی برای تبدیل PDF به فرمت های Word ، Excel و HTML(Excel and HTML format) دارد. همچنین بهترین کار را برای حفظ ساختار سند اصلی و تبدیل متن پیچیده انجام می دهد.
Related posts
نحوه ترکیب یا ادغام چندین فایل متنی
بهترین نمایشگر رایگان PDF جایگزین برای Adobe Reader
با استفاده از Hyper-V یک کامپیوتر ویندوزی را به ماشین مجازی تبدیل کنید
نحوه تغییر رنگ آیکون پوشه در ویندوز
بهترین ابزار Defrag رایگان برای ویندوز خودش است
5 برنامه VR که بازی نیستند
مشاهده سریع تاریخچه جستجو در همه مرورگرهای ویندوز
گرفتن اسکرین شات در فواصل زمانی مشخص به صورت خودکار در ویندوز
ImBatch Batch Image Processing Software رایگان برای Windows PC است
یک کارت SD را به روش آسان فرمت کنید
10 بهترین ابزار برای برچسب گذاری MP3 و ویرایش متادیتا
بهترین پاک کننده رجیستری رایگان ویندوز
با راه اندازی یک سرور فایل خانگی، فایل های بزرگ را به اشتراک بگذارید
بهترین نرم افزار متن باز که باید استفاده کنید
بهترین منابع برای موسیقی رایگان برای استفاده در ویدیوهای YouTube
ابزارهای رایگان برای سفارشی کردن منوی زمینه کلیک راست
کد HTML برای قرار دادن متن در اطراف تصویر
Image Editing Software and Editors رایگان برای Windows 11/10
8 سایت دانلود رایگان نرم افزار ایمن برای ویندوز
نحوه همگام سازی دو پوشه در زمان واقعی در ویندوز