چگونه متن هایلایت شده را از PDF به عنوان فایل متنی استخراج کنیم؟

برجسته کردن متن در یک سند PDF برای علامت‌گذاری قسمت‌های مهمی که بعداً می‌توانید به سرعت به آنها دسترسی پیدا کنید، مفید است. می توانید از Microsoft Edge برای برجسته کردن PDF(Microsoft Edge to highlight PDF)  یا هر نرم افزار دیگری که دارای ویژگی برجسته سازی PDF است استفاده کنید. (PDF)گاهی اوقات، ممکن است نیاز داشته باشید که فقط متن هایلایت شده را داشته باشید تا بتوانید خلاصه PDF حاوی تمام متن ضروری را داشته باشید. اگر به دنبال راه هایی برای ذخیره فقط متن هایلایت شده از PDF به عنوان یک فایل TXT هستید ، این پست می تواند مفید باشد.

متن هایلایت شده را از PDF استخراج کنید

نرم افزار رایگان و سرویسی برای استخراج متن هایلایت شده از یک فایل PDF و ذخیره آن به عنوان یک فایل متنی وجود دارد:

  • استخراج کننده هایلایت PDF
  • فاکسیت ریدر
  • Sumnotes.net
  • DyAnnotationExtractor.

بیایید این نرم افزار PDF Highlight Extractor را یکی یکی بررسی کنیم.

1] PDF Highlight Extractor

نرم افزار PDF Highlight Extractor

PDF Highlight Extractor یکی از ساده ترین گزینه ها برای استخراج متن هایلایت شده از یک فایل PDF است. این استخراج کننده برجسته متن PDF (PDF text highlight extractor)منبع باز(open-source) دارای دو ویژگی است که توجه را به خود جلب می کند. می توانید پیش نمایش متن هایلایت شده(preview highlighted text) PDF را در رابط نرم افزار مشاهده کنید.

ویژگی دوم این است که می توانید صفحه شروع یا پایان یا محدوده صفحه را برای استخراج متن تنظیم کنید(set start or end page or page range to extract the text) . بنابراین، به جای اسکن کل PDF ، می توانید شماره صفحه را برای دریافت متن هایلایت شده تعریف کنید.

یکی دیگر از ویژگی های خوب این است که شما می توانید متن را به صورت متن ساده(save text as plain text) یا فایل اکسل ذخیره کنید(Excel file) .

در رابط آن، فایل PDF خود را با استفاده از گزینه داده شده اضافه کنید و سپس دکمه Extract را فشار دهید. اگر می خواهید محدوده صفحه را تنظیم کنید یا آن را همانطور که هست رها کنید، تیک گزینه All Pages را بردارید. (All Pages)هنگامی که متن واکشی شد، می توانید پیش نمایش آن را مشاهده کنید. در نهایت دکمه Text یا Excel را فشار دهید تا متن هایلایت شده ذخیره شود.

این نرم افزار را می توانید از اینجا(here) دانلود کنید . برای استفاده از این نرم افزار به جاوا(Java) نیز نیاز است. بنابراین، جاوا(Java) را نصب کنید (اگر قبلا نبوده است) و این نرم افزار را برای استفاده اجرا کنید.

2] Foxit Reader

متن هایلایت شده را از PDF استخراج کنید

Foxit Reader یکی از بهترین پی دی اف خوان های رایگان است. می‌توانید چندین فایل PDF را در برگه‌های جداگانه باز کنید، PDF را برجسته کنید، یادداشت اضافه کنید، نظرات را صادر(export comments) کنید ، امضا اضافه کنید(add signatures) و موارد دیگر. در میان لیست عظیمی از ویژگی ها، استخراج متن هایلایت شده از PDF نیز وجود دارد. بهترین بخش این ویژگی این است که شماره صفحات را به همراه متن استخراج شده ذخیره می کند(saves page numbers along with the extracted text) .

برای واکشی متن هایلایت شده از PDF ، فایل PDF را در رابط آن باز کنید و به تب Comment دسترسی پیدا کنید. (Comment)در آن تب بر روی گزینه Export موجود در قسمت Manage Comments کلیک کنید . گزینه Highlighted Text(Highlighted Text) را خواهید دید . از آن گزینه استفاده کنید و سپس می توانید تمام متن هایلایت شده را به عنوان یک فایل متنی ذخیره کنید.

اینم(Here) لینک دانلود این نرم افزار در حین نصب، باید نصب سفارشی(custom installation) را انتخاب کنید تا فقط اجزای مورد نیاز این نرم افزار را شامل شود.

3] Sumnotes.net

یادداشت های جمع

Sumnotes.net یک سرویس رایگان است که به شما امکان می دهد PDF را حاشیه نویسی کنید و متن هایلایت شده را استخراج کنید. تمام متن هایلایت شده به طور جداگانه در نوار کناری سمت چپ قابل مشاهده است. با استفاده از آن نوار کناری، می توانید متن هایلایت شده را که نیازی ندارید حذف کنید(remove highlighted text that you don’t need) و سپس بقیه متن هایلایت شده را دانلود کنید.

قبل از دانلود متن هایلایت شده، می توانید شماره صفحه را نیز اضافه کنید و متن هایلایت شده با رنگ خاص (highlighted text of specific color)را حذف(exclude) کنید .

شما همچنین می توانید متن هایلایت شده را از PDF به عنوان فایل Excel(save highlighted text from PDF as Excel) یا Word ذخیره کنید. بنابراین، ویژگی ها خوب است. می توانید با یک طرح رایگان ثبت نام کنید و سپس 50 نکته برجسته(extract 50 highlights) یا حاشیه نویسی را در هر بار دانلود(per download) استخراج کنید که در بیشتر موارد کافی است.

اینجا(Here) لینک صفحه اصلی آن است. برای استخراج متن هایلایت شده از PDF ، یک PDF از رایانه شخصی یا Google Drive اضافه کنید. هنگامی که PDF آپلود می شود، حاشیه نویسی و متن هایلایت شده در سمت چپ قابل مشاهده است. از گزینه Download Annotations استفاده کنید و سپس می توانید متن هایلایت شده را در فایل فرمت TXT ، XLSX یا DOC ذخیره کنید.(DOC)

4] DyAnnotationExtractor

نرم افزار خط فرمان DyAnnotationExtractor

نرم افزار DyAnnotationExtractor(DyAnnotationExtractor) می تواند به شما کمک کند متن هایلایت شده و نظرات را(comments) از یک سند PDF استخراج کنید. این یک نرم افزار خط فرمان است(command-line) ، اما استفاده از آن بسیار ساده است. فقط یک فرمان متنی را که در فایل PDF ورودی برجسته شده است واکشی می کند .

با استفاده از این لینک(this link) می توانید این نرم افزار را دریافت کنید . فایل ZIP(ZIP) آن را دانلود(Download) کنید و سپس آن را استخراج کنید. برای سهولت در اجرای دستور باید PDF را نیز در همان پوشه ای که این نرم افزار را استخراج کرده اید قرار دهید. پس از آن، پنجره Command Prompt را در آن پوشه باز کنید. می توانید این کار را با تایپ cmd در کادر آدرس آن پوشه و سپس فشار دادن کلید Enter انجام دهید .

وقتی پنجره CMD باز شد، فایل (CMD)BAT این نرم افزار، دستور ورودی شامل مسیر PDF ورودی ، دستور خروجی و نام فایل خروجی را به همراه پسوند 'txt' اضافه کنید. دستور کامل این خواهد بود -

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

دستور را اجرا کنید. چند ثانیه صبر کنید(Wait) و فایل متنی ساده حاوی تمام متن هایلایت شده و نظرات واکشی شده از آن PDF آماده خواهد شد . فایل خروجی در همان پوشه ورودی ذخیره می شود.

بنابراین، اینها چند گزینه هستند که می توانید برای استخراج متن هایلایت شده از PDF و سپس ذخیره خروجی به عنوان یک فایل متنی استفاده کنید. امیدوارم(Hope) این کمک کند.



About the author

وقتی صحبت از تکنولوژی می شود، هیچ چیز مهمتر از دقت و کیفیت نیست. در مایکروسافت، ما به توانایی خود در ارائه بهترین تجربه ممکن برای مشتریان خود افتخار می کنیم. محصولات ویندوز و iOS ما برخی از نوآورانه‌ترین محصولات در این صنعت هستند و ما دائماً در حال تلاش برای بهبود آنها هستیم. پی دی اف های بدون خطا دلیل دیگری برای موفقیت محصولات ما است. ما می دانیم که کنترل کیفیت در مورد گردش کار و ارتباطات ضروری است، بنابراین ما در حصول اطمینان از اینکه تمام PDF های ما بدون خطا هستند بسیار مراقب هستیم. و در نهایت، به عنوان یک عاشق ابزار، می‌دانیم که آسان‌تر کردن زندگی همیشه یک اولویت کلیدی است. ما مطمئن می شویم که همه دستگاه های Lumia ما دارای ویژگی هایی مانند NFC و CarPlay هستند تا بتوانید به راحتی فایل ها را با دوستان و خانواده به اشتراک بگذارید. با این مهارت ها،



Related posts