متن را از فایل های PDF و تصویر استخراج کنید

یک سند PDF(PDF document) دارید که می خواهید تمام متن را از آن استخراج کنید؟ فایل های تصویری یک سند اسکن شده که می خواهید به متن قابل ویرایش تبدیل کنید چطور؟ اینها برخی از رایج ترین مشکلاتی است که من در محل کار هنگام کار با فایل ها دیده ام.

در این مقاله، من در مورد چندین روش مختلف صحبت خواهم کرد که می توانید برای استخراج متن از یک PDF یا از یک تصویر استفاده کنید. نتایج استخراج شما بسته به نوع و کیفیت(type and quality) متن در PDF یا تصویر(PDF or image) متفاوت خواهد بود. همچنین، نتایج شما بسته به ابزاری که استفاده می کنید متفاوت خواهد بود، بنابراین بهتر است تا حد امکان گزینه های زیر را امتحان کنید تا بهترین نتیجه را بگیرید.

متن را از تصویر یا PDF استخراج کنید

ساده ترین و سریع ترین راه برای شروع این است که یک سرویس آنلاین استخراج (extractor service)متن PDF(PDF text) را امتحان کنید . اینها معمولاً رایگان هستند و می توانند دقیقاً همان چیزی را که به دنبال آن هستید بدون نیاز به نصب چیزی بر روی رایانه خود به شما ارائه دهند. در اینجا دو مورد از آنها با نتایج بسیار خوب تا عالی استفاده شده است:

استخراج PDF

استخراج پی دی اف

ExtractPDF یک ابزار رایگان برای گرفتن تصاویر، متن و فونت(text and fonts) ها از یک فایل PDF است(PDF file) . تنها محدودیت این است که حداکثر حجم(max size) فایل PDF(PDF file) 10 مگابایت است. این کمی کوچک است. بنابراین اگر فایل بزرگتری دارید، برخی از روش های زیر را امتحان کنید. فایل خود را انتخاب کنید و سپس روی دکمه ارسال فایل(Send file) کلیک کنید. نتایج معمولاً بسیار سریع هستند و وقتی روی زبانه Text(Text tab) کلیک می کنید باید پیش نمایشی از متن را مشاهده کنید .

دانلود متن

همچنین یک مزیت اضافه شده خوب است که تصاویر را از فایل PDF(PDF file) نیز استخراج می کند، فقط در صورتی که به آنها نیاز داشته باشید! به طور کلی، ابزار آنلاین عالی کار می کند، اما من با چند سند PDF(PDF docs) مواجه شده ام که خروجی خنده دار به من می دهد. متن به خوبی استخراج می شود، اما به دلایلی بعد از هر کلمه یک خط شکسته می شود! (line break)مشکل بزرگی برای یک فایل PDF(PDF file) کوتاه نیست، اما مطمئناً مشکلی برای فایل‌هایی با متن زیاد است. اگر این اتفاق برای شما افتاد، ابزار بعدی را امتحان کنید.

OCR آنلاین

OCR آنلاین(Online OCR) معمولاً برای اسنادی کار می کند که به درستی با ExtractPDF تبدیل نمی شوند ، بنابراین ایده خوبی است که هر دو سرویس را امتحان کنید تا ببینید کدام یک خروجی بهتری به شما می دهند. OCR آنلاین(Online OCR) همچنین دارای برخی ویژگی‌های زیباتر است که می‌تواند برای هر کسی با یک فایل PDF(PDF file) بزرگ که تنها به تبدیل متن در چند صفحه به جای کل سند نیاز دارد، مفید باشد.

اولین کاری که می خواهید انجام دهید این است که ادامه دهید و یک حساب کاربری رایگان ایجاد کنید. این کمی آزاردهنده است، اما اگر حساب رایگان ایجاد نکنید، فقط تا حدی PDF شما را به جای کل سند تبدیل می کند. همچنین، به جای اینکه فقط بتوانید فقط یک سند 5 مگابایتی(MB document) را آپلود کنید، می توانید تا 100 مگابایت در هر فایل با یک حساب کاربری آپلود کنید.

ocr آنلاین

ابتدا یک زبان را انتخاب کنید و سپس نوع فرمت های خروجی مورد نظر خود را برای فایل تبدیل شده انتخاب کنید. شما چند گزینه دارید و در صورت تمایل می توانید بیش از یکی را انتخاب کنید. در سند(Multipage document) چند صفحه ای ، می توانید شماره صفحه(Page numbers) را انتخاب کنید و سپس فقط صفحاتی را که می خواهید تبدیل کنید انتخاب کنید. سپس فایل را انتخاب کرده و روی (file and click) Convert کلیک کنید !

اسناد ocr آنلاین

پس از تبدیل، به بخش Documents (اگر وارد سیستم شده باشید) وارد خواهید شد، جایی که می توانید تعداد صفحات رایگان موجود و لینک های دانلود فایل های تبدیل شده خود را ببینید. به نظر می رسد که شما فقط 25 صفحه به صورت رایگان در روز دارید، بنابراین اگر به بیش از آن نیاز دارید، باید یا کمی صبر کنید یا صفحات بیشتری بخرید.

OCR آنلاین(Online OCR) کار بسیار خوبی را در تبدیل فایل های PDF من انجام داد زیرا می توانست طرح بندی واقعی متن را حفظ کند. در آزمایشم، یک سند Word(Word doc) گرفتم که از گلوله ها، اندازه های مختلف فونت و غیره استفاده می کرد و آن را به PDF تبدیل کردم . سپس از Online OCR برای تبدیل آن به فرمت ورد استفاده(Word format) کردم و تقریباً 95٪ مشابه نسخه اصلی بود. این برای من بسیار چشمگیر است.

به علاوه، اگر به دنبال تبدیل یک تصویر به متن هستید، OCR آنلاین(Online OCR) می تواند این کار را به همان راحتی استخراج متن از فایل های PDF انجام دهد.

OCR آنلاین رایگان

از آنجایی که در مورد OCR تصویر به متن صحبت می شد ، اجازه دهید یک وب سایت خوب دیگر را ذکر کنم که واقعاً روی تصاویر کار می کند. OCR آنلاین رایگان(Free Online OCR) هنگام استخراج متن از تصاویر آزمایشی من بسیار خوب و بسیار دقیق بود. من از آیفون خود چند عکس از صفحات کتاب، جزوه و غیره گرفتم و از اینکه چقدر خوب می تواند متن را تبدیل کند شگفت زده شدم.

رایگان آنلاین ocr

فایل خود را انتخاب کنید و سپس روی دکمه آپلود کلیک کنید(Upload button) . در صفحه بعدی، چند گزینه و پیش نمایش تصویر وجود دارد. اگر نمی‌خواهید همه چیز را OCR کنید، می‌توانید آن را برش دهید. سپس فقط روی دکمه OCR کلیک کنید(OCR button) و متن تبدیل شده شما در زیر پیش نمایش تصویر(image preview) ظاهر می شود . همچنین هیچ محدودیتی ندارد، که واقعا خوب است.

علاوه بر خدمات آنلاین، دو مبدل PDF رایگان وجود دارد که می‌خواهم در صورتی که برای انجام تبدیل‌ها نیاز به نرم‌افزاری دارید که به صورت محلی روی رایانه شما اجرا می‌شود، اشاره کنم. با خدمات آنلاین، همیشه به اتصال به اینترنت(Internet connection) نیاز دارید و این ممکن است برای همه امکان پذیر نباشد. با این حال، متوجه شدم که کیفیت تبدیل های برنامه های رایگان به طور قابل توجهی بدتر از وب سایت ها بود.

استخراج متن A-PDF

A-PDF Text Extractor نرم افزار رایگانی است که کار نسبتا خوبی در استخراج متن از فایل PDF(PDF file) انجام می دهد. پس از(Once) دانلود و نصب آن، روی دکمه Open کلیک کنید تا (Open button)فایل PDF(PDF file) خود را انتخاب کنید . سپس بر روی Extract text کلیک کنید تا فرآیند شروع شود.

استخراج کننده apdf

از شما مکانی برای ذخیره فایل خروجی متن(text output file) می خواهد و سپس استخراج شروع می شود. همچنین می توانید روی دکمه Option کلیک کنید، که به شما امکان می دهد فقط صفحات خاصی را برای استخراج و نوع استخراج(extraction type) را انتخاب کنید . گزینه دوم جالب است زیرا متن را در چیدمان های مختلف استخراج می کند و ارزش آن را دارد که هر سه مورد را امتحان کنید تا ببینید کدام یک بهترین خروجی را به شما می دهد.

PDF2Text Pilot

PDF2Text Pilot  کار خوبی در استخراج متن انجام می دهد. هیچ گزینه ای ندارد. شما فقط فایل ها یا پوشه ها را اضافه کنید، تبدیل کنید و(convert and hope) به بهترین ها امیدوار باشید. روی برخی از PDF(PDFs) ها به خوبی کار می کرد ، اما برای اکثر آنها، مشکلات متعددی وجود داشت.

pdf2 متن

فقط روی Add Files کلیک کنید و سپس روی Convert کلیک کنید . پس از تکمیل تبدیل، روی Browse کلیک کنید تا فایل باز شود. مسافت پیموده شده شما با استفاده از این برنامه متفاوت خواهد بود، بنابراین انتظار زیادی نداشته باشید.

همچنین، شایان ذکر است که اگر در یک محیط شرکتی هستید یا می توانید یک نسخه از Adobe Acrobat را از محل کار به دست آورید، واقعاً می توانید نتایج بسیار بهتری بگیرید. واضح است که Acrobat(Acrobat) رایگان نیست، اما گزینه هایی برای تبدیل PDF به فرمت های Word ، Excel و HTML(Excel and HTML format) دارد. همچنین بهترین کار را برای حفظ ساختار سند اصلی و تبدیل متن پیچیده انجام می دهد.



About the author

وقتی صحبت از تکنولوژی می شود، هیچ چیز مهمتر از دقت و کیفیت نیست. در مایکروسافت، ما به توانایی خود در ارائه بهترین تجربه ممکن برای مشتریان خود افتخار می کنیم. محصولات ویندوز و iOS ما برخی از نوآورانه‌ترین محصولات در این صنعت هستند و ما دائماً در حال تلاش برای بهبود آنها هستیم. پی دی اف های بدون خطا دلیل دیگری برای موفقیت محصولات ما است. ما می دانیم که کنترل کیفیت در مورد گردش کار و ارتباطات ضروری است، بنابراین ما در حصول اطمینان از اینکه تمام PDF های ما بدون خطا هستند بسیار مراقب هستیم. و در نهایت، به عنوان یک عاشق ابزار، می‌دانیم که آسان‌تر کردن زندگی همیشه یک اولویت کلیدی است. ما مطمئن می شویم که همه دستگاه های Lumia ما دارای ویژگی هایی مانند NFC و CarPlay هستند تا بتوانید به راحتی فایل ها را با دوستان و خانواده به اشتراک بگذارید. با این مهارت ها،



Related posts