چگونه متن هایلایت شده را از PDF به عنوان فایل متنی استخراج کنیم؟
برجسته کردن متن در یک سند PDF برای علامتگذاری قسمتهای مهمی که بعداً میتوانید به سرعت به آنها دسترسی پیدا کنید، مفید است. می توانید از Microsoft Edge برای برجسته کردن PDF(Microsoft Edge to highlight PDF) یا هر نرم افزار دیگری که دارای ویژگی برجسته سازی PDF است استفاده کنید. (PDF)گاهی اوقات، ممکن است نیاز داشته باشید که فقط متن هایلایت شده را داشته باشید تا بتوانید خلاصه PDF حاوی تمام متن ضروری را داشته باشید. اگر به دنبال راه هایی برای ذخیره فقط متن هایلایت شده از PDF به عنوان یک فایل TXT هستید ، این پست می تواند مفید باشد.
متن هایلایت شده را از PDF استخراج کنید
نرم افزار رایگان و سرویسی برای استخراج متن هایلایت شده از یک فایل PDF و ذخیره آن به عنوان یک فایل متنی وجود دارد:
- استخراج کننده هایلایت PDF
- فاکسیت ریدر
- Sumnotes.net
- DyAnnotationExtractor.
بیایید این نرم افزار PDF Highlight Extractor را یکی یکی بررسی کنیم.
1] PDF Highlight Extractor
PDF Highlight Extractor یکی از ساده ترین گزینه ها برای استخراج متن هایلایت شده از یک فایل PDF است. این استخراج کننده برجسته متن PDF (PDF text highlight extractor)منبع باز(open-source) دارای دو ویژگی است که توجه را به خود جلب می کند. می توانید پیش نمایش متن هایلایت شده(preview highlighted text) PDF را در رابط نرم افزار مشاهده کنید.
ویژگی دوم این است که می توانید صفحه شروع یا پایان یا محدوده صفحه را برای استخراج متن تنظیم کنید(set start or end page or page range to extract the text) . بنابراین، به جای اسکن کل PDF ، می توانید شماره صفحه را برای دریافت متن هایلایت شده تعریف کنید.
یکی دیگر از ویژگی های خوب این است که شما می توانید متن را به صورت متن ساده(save text as plain text) یا فایل اکسل ذخیره کنید(Excel file) .
در رابط آن، فایل PDF خود را با استفاده از گزینه داده شده اضافه کنید و سپس دکمه Extract را فشار دهید. اگر می خواهید محدوده صفحه را تنظیم کنید یا آن را همانطور که هست رها کنید، تیک گزینه All Pages را بردارید. (All Pages)هنگامی که متن واکشی شد، می توانید پیش نمایش آن را مشاهده کنید. در نهایت دکمه Text یا Excel را فشار دهید تا متن هایلایت شده ذخیره شود.
این نرم افزار را می توانید از اینجا(here) دانلود کنید . برای استفاده از این نرم افزار به جاوا(Java) نیز نیاز است. بنابراین، جاوا(Java) را نصب کنید (اگر قبلا نبوده است) و این نرم افزار را برای استفاده اجرا کنید.
2] Foxit Reader
Foxit Reader یکی از بهترین پی دی اف خوان های رایگان است. میتوانید چندین فایل PDF را در برگههای جداگانه باز کنید، PDF را برجسته کنید، یادداشت اضافه کنید، نظرات را صادر(export comments) کنید ، امضا اضافه کنید(add signatures) و موارد دیگر. در میان لیست عظیمی از ویژگی ها، استخراج متن هایلایت شده از PDF نیز وجود دارد. بهترین بخش این ویژگی این است که شماره صفحات را به همراه متن استخراج شده ذخیره می کند(saves page numbers along with the extracted text) .
برای واکشی متن هایلایت شده از PDF ، فایل PDF را در رابط آن باز کنید و به تب Comment دسترسی پیدا کنید. (Comment)در آن تب بر روی گزینه Export موجود در قسمت Manage Comments کلیک کنید . گزینه Highlighted Text(Highlighted Text) را خواهید دید . از آن گزینه استفاده کنید و سپس می توانید تمام متن هایلایت شده را به عنوان یک فایل متنی ذخیره کنید.
اینم(Here) لینک دانلود این نرم افزار در حین نصب، باید نصب سفارشی(custom installation) را انتخاب کنید تا فقط اجزای مورد نیاز این نرم افزار را شامل شود.
3] Sumnotes.net
Sumnotes.net یک سرویس رایگان است که به شما امکان می دهد PDF را حاشیه نویسی کنید و متن هایلایت شده را استخراج کنید. تمام متن هایلایت شده به طور جداگانه در نوار کناری سمت چپ قابل مشاهده است. با استفاده از آن نوار کناری، می توانید متن هایلایت شده را که نیازی ندارید حذف کنید(remove highlighted text that you don’t need) و سپس بقیه متن هایلایت شده را دانلود کنید.
قبل از دانلود متن هایلایت شده، می توانید شماره صفحه را نیز اضافه کنید و متن هایلایت شده با رنگ خاص (highlighted text of specific color)را حذف(exclude) کنید .
شما همچنین می توانید متن هایلایت شده را از PDF به عنوان فایل Excel(save highlighted text from PDF as Excel) یا Word ذخیره کنید. بنابراین، ویژگی ها خوب است. می توانید با یک طرح رایگان ثبت نام کنید و سپس 50 نکته برجسته(extract 50 highlights) یا حاشیه نویسی را در هر بار دانلود(per download) استخراج کنید که در بیشتر موارد کافی است.
اینجا(Here) لینک صفحه اصلی آن است. برای استخراج متن هایلایت شده از PDF ، یک PDF از رایانه شخصی یا Google Drive اضافه کنید. هنگامی که PDF آپلود می شود، حاشیه نویسی و متن هایلایت شده در سمت چپ قابل مشاهده است. از گزینه Download Annotations استفاده کنید و سپس می توانید متن هایلایت شده را در فایل فرمت TXT ، XLSX یا DOC ذخیره کنید.(DOC)
4] DyAnnotationExtractor
نرم افزار DyAnnotationExtractor(DyAnnotationExtractor) می تواند به شما کمک کند متن هایلایت شده و نظرات را(comments) از یک سند PDF استخراج کنید. این یک نرم افزار خط فرمان است(command-line) ، اما استفاده از آن بسیار ساده است. فقط یک فرمان متنی را که در فایل PDF ورودی برجسته شده است واکشی می کند .
با استفاده از این لینک(this link) می توانید این نرم افزار را دریافت کنید . فایل ZIP(ZIP) آن را دانلود(Download) کنید و سپس آن را استخراج کنید. برای سهولت در اجرای دستور باید PDF را نیز در همان پوشه ای که این نرم افزار را استخراج کرده اید قرار دهید. پس از آن، پنجره Command Prompt را در آن پوشه باز کنید. می توانید این کار را با تایپ cmd در کادر آدرس آن پوشه و سپس فشار دادن کلید Enter انجام دهید .
وقتی پنجره CMD باز شد، فایل (CMD)BAT این نرم افزار، دستور ورودی شامل مسیر PDF ورودی ، دستور خروجی و نام فایل خروجی را به همراه پسوند 'txt' اضافه کنید. دستور کامل این خواهد بود -
DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt
دستور را اجرا کنید. چند ثانیه صبر کنید(Wait) و فایل متنی ساده حاوی تمام متن هایلایت شده و نظرات واکشی شده از آن PDF آماده خواهد شد . فایل خروجی در همان پوشه ورودی ذخیره می شود.
بنابراین، اینها چند گزینه هستند که می توانید برای استخراج متن هایلایت شده از PDF و سپس ذخیره خروجی به عنوان یک فایل متنی استفاده کنید. امیدوارم(Hope) این کمک کند.
Related posts
نحوه کپی کردن متن از یک فایل PDF
نحوه ایجاد یک فایل متنی در مک
فهرستی از فرآیندهای در حال اجرا را در یک فایل متنی در ویندوز ذخیره کنید
نحوه رمزگذاری و رمزگشایی یک فایل متنی در ویندوز 10
چگونه برای تبدیل Plain Text به Musical Notation PDF در Windows 10
نحوه نوشتن یا کشیدن روی یک فایل PDF در مک و ویندوز
نحوه ذخیره صفحات وب به عنوان PDF در Chrome or Firefox
Text Highlighter در Microsoft Edge کار نمی کند
PDF text هنگام ویرایش یا ذخیره فایل در Windows 10 ناپدید می شود
متن را از فایل های PDF و تصویر استخراج کنید
Download Adobe Reader app برای Windows 10 از Microsoft Store
نحوه ذخیره ایمیل به صورت فایل PDF
چگونه Delete Individual Pages از PDF File
چگونه اندازه فایل PDF را کوچک کنیم
7 Best Ways برای تبدیل یک PDF File به Word Format
نحوه تبدیل Text به PDF با Drag and Drop در Windows 10
Convert PDF به PPT (PowerPoint) با استفاده از این software & online tools رایگان
Download Windows Command Reference PDF Guide از Microsoft
نحوه ارسال فایل PDF به کیندل
Document Converter: Convert DOC، PDF، DOCX، RTF، TXT، HTML فایل