पीडीएफ से हाईलाइटेड टेक्स्ट को टेक्स्ट फाइल के रूप में कैसे निकालें?

पीडीएफ(PDF) दस्तावेज़ में टेक्स्ट को हाइलाइट करना उन महत्वपूर्ण क्षेत्रों को चिह्नित करने के लिए आसान है, जिन्हें आप बाद में जल्दी से एक्सेस कर सकते हैं। आप पीडीएफ  या किसी अन्य सॉफ्टवेयर को हाइलाइट करने के लिए माइक्रोसॉफ्ट एज का उपयोग कर सकते हैं जो (Microsoft Edge to highlight PDF)पीडीएफ(PDF) हाइलाइटिंग फीचर के साथ आता है। कभी-कभी, आपने भी केवल हाइलाइट किए गए टेक्स्ट की आवश्यकता महसूस की होगी ताकि आपके पास सभी आवश्यक टेक्स्ट वाले पीडीएफ का सारांश हो। (PDF)यदि आप पीडीएफ से केवल हाइलाइट किए गए टेक्स्ट को (PDF)TXT फ़ाइल के रूप में सहेजने के कुछ तरीकों की तलाश कर रहे हैं , तो यह पोस्ट सहायक हो सकती है।

पीडीएफ से हाइलाइट किया गया टेक्स्ट निकालें

पीडीएफ(PDF) फाइल से हाइलाइट किए गए टेक्स्ट को निकालने और इसे टेक्स्ट फाइल के रूप में सहेजने के लिए कुछ मुफ्त सॉफ्टवेयर और एक सेवा है :

  • पीडीएफ हाइलाइट एक्सट्रैक्टर
  • फॉक्सइट रीडर
  • Sumnotes.net
  • डायएनोटेशन एक्सट्रैक्टर।

आइए इन पीडीएफ हाइलाइट एक्सट्रैक्टर(PDF Highlight Extractor) सॉफ्टवेयर को एक-एक करके देखें।

1] पीडीएफ हाइलाइट एक्सट्रैक्टर

पीडीएफ हाइलाइट एक्सट्रैक्टर सॉफ्टवेयर

(PDF Highlight Extractor)पीडीएफ(PDF) फाइल से हाइलाइट किए गए टेक्स्ट को निकालने के लिए पीडीएफ हाइलाइट एक्सट्रैक्टर सबसे आसान विकल्पों में से एक है। इस ओपन-सोर्स (open-source) पीडीएफ टेक्स्ट हाइलाइट एक्सट्रैक्टर(PDF text highlight extractor) में दो विशेषताएं हैं जो ध्यान आकर्षित करती हैं। आप सॉफ्टवेयर इंटरफेस पर पीडीएफ के हाइलाइट किए गए टेक्स्ट का पूर्वावलोकन कर सकते हैं।(preview highlighted text)

दूसरी विशेषता यह है कि आप टेक्स्ट निकालने के लिए प्रारंभ या समाप्ति पृष्ठ या पृष्ठ श्रेणी सेट(set start or end page or page range to extract the text) कर सकते हैं । इसलिए, संपूर्ण PDF(PDF) को स्कैन करने के बजाय , आप हाइलाइट किए गए टेक्स्ट को प्राप्त करने के लिए पृष्ठ संख्या निर्धारित कर सकते हैं।

एक और अच्छी विशेषता यह है कि आपके पास टेक्स्ट को प्लेन टेक्स्ट(save text as plain text) या एक्सेल फाइल(Excel file) के रूप में सेव करने का विकल्प है ।

इसके इंटरफेस पर, दिए गए विकल्प का उपयोग करके अपनी पीडीएफ(PDF) फाइल जोड़ें, और फिर एक्सट्रैक्ट(Extract) बटन दबाएं। यदि आप पेज रेंज सेट करना चाहते हैं या इसे वैसे ही छोड़ देना चाहते हैं तो सभी पेज(All Pages) विकल्प को अनचेक करें । एक बार पाठ प्राप्त हो जाने के बाद, आप उसका पूर्वावलोकन कर सकते हैं। अंत में, हाइलाइट किए गए टेक्स्ट को सहेजने के लिए टेक्स्ट(Text) या एक्सेल(Excel) बटन दबाएं।

आप इस सॉफ्टवेयर को यहां(here) से डाउनलोड कर सकते हैं । इस सॉफ़्टवेयर का उपयोग करने के लिए Java(Java) की भी आवश्यकता होती है। तो, जावा(Java) स्थापित करें (यदि पहले से नहीं है) और उपयोग करने के लिए इस सॉफ़्टवेयर को निष्पादित करें।

2] फॉक्सिट रीडर

पीडीएफ से हाइलाइट किया गया टेक्स्ट निकालें

फॉक्सिट रीडर सर्वश्रेष्ठ मुफ्त पीडीएफ पाठकों में से एक है । आप अलग-अलग टैब में कई पीडीएफ(PDF) फाइलें खोल सकते हैं , पीडीएफ(PDF) को हाइलाइट कर सकते हैं , एक नोट जोड़ सकते हैं, टिप्पणियां निर्यात(export comments) कर सकते हैं , हस्ताक्षर जोड़ सकते हैं(add signatures) , और बहुत कुछ कर सकते हैं। सुविधाओं की विशाल सूची में, पीडीएफ(PDF) से हाइलाइट किए गए टेक्स्ट को निकालना भी है। इस फीचर की सबसे अच्छी बात यह है कि यह एक्सट्रैक्टेड टेक्स्ट के साथ पेज नंबर भी सेव करता है(saves page numbers along with the extracted text)

पीडीएफ(PDF) से हाइलाइट किए गए टेक्स्ट को लाने के लिए , इसके इंटरफेस पर पीडीएफ(PDF) फाइल खोलें , और टिप्पणी(Comment) टैब तक पहुंचें। उस टैब में मैनेज कमेंट(Manage Comments) सेक्शन में उपलब्ध एक्सपोर्ट(Export) ऑप्शन पर क्लिक करें। आपको हाईलाइटेड टेक्स्ट(Highlighted Text) का विकल्प दिखाई देगा। उस विकल्प का उपयोग करें और फिर आप सभी हाइलाइट किए गए टेक्स्ट को टेक्स्ट फ़ाइल के रूप में सहेज सकते हैं।

(Here)इस सॉफ्टवेयर के लिए डाउनलोड लिंक यहां दिया गया है। स्थापना के दौरान, आपको इस सॉफ़्टवेयर के केवल आवश्यक घटकों को शामिल करने के लिए कस्टम स्थापना(custom installation) का चयन करना चाहिए ।

3] Sumnotes.net

समनोट

Sumnotes.net एक निःशुल्क सेवा है जो आपको PDF को एनोटेट करने के साथ-साथ हाइलाइट किए गए टेक्स्ट को निकालने देती है। सभी हाइलाइट किए गए टेक्स्ट बाएं साइडबार पर अलग-अलग दिखाई देते हैं। उस साइडबार का उपयोग करके, आप ऐसे हाइलाइट किए गए टेक्स्ट को भी हटा सकते हैं जिनकी आपको आवश्यकता नहीं है(remove highlighted text that you don’t need) और फिर बाकी हाइलाइट किए गए टेक्स्ट को डाउनलोड कर सकते हैं।

हाइलाइट किए गए टेक्स्ट को डाउनलोड करने से पहले, आप पेज नंबर भी शामिल कर सकते हैं और विशिष्ट रंग(highlighted text of specific color) के हाइलाइट किए गए टेक्स्ट को बाहर(exclude) कर सकते हैं ।

आपके पास हाइलाइट किए गए टेक्स्ट को पीडीएफ से एक्सेल(save highlighted text from PDF as Excel) या वर्ड(Word) फाइल के रूप में सहेजने का विकल्प भी है । तो, सुविधाएँ अच्छी हैं। आप एक मुफ्त योजना के साथ साइन अप कर सकते हैं और फिर प्रति डाउनलोड (per download)50 हाइलाइट(extract 50 highlights) या एनोटेशन निकाल सकते हैं , जो कि ज्यादातर मामलों में पर्याप्त है।

यहां(Here) इसके होमपेज का लिंक दिया गया है। PDF से हाइलाइट किए गए टेक्स्ट को निकालने के लिए , PC या Google डिस्क से (Google Drive)PDF जोड़ें । जब पीडीएफ(PDF) अपलोड किया जाता है, तो बाईं ओर एनोटेशन और हाइलाइट किया गया टेक्स्ट दिखाई देता है। एनोटेशन डाउनलोड(Download Annotations) करें विकल्प का उपयोग करें और फिर आप हाइलाइट किए गए टेक्स्ट को TXT , XLSX , या DOC प्रारूप फ़ाइल में सहेज सकते हैं।

4] DyAnnotationExtractor

DyAnnotationExtractor कमांड लाइन सॉफ्टवेयर

DyAnnotationExtractor सॉफ़्टवेयर आपको PDF दस्तावेज़ से हाइलाइट किए गए टेक्स्ट और टिप्पणियों को निकालने में मदद कर सकता है। (comments)यह एक कमांड लाइन(command-line) सॉफ्टवेयर है, लेकिन इसका उपयोग करना बहुत आसान है। केवल एक कमांड इनपुट पीडीएफ(PDF) फाइल में हाइलाइट किए गए टेक्स्ट को लाएगा।

आप इस लिंक(this link) का उपयोग करके यह सॉफ्टवेयर प्राप्त कर सकते हैं । इसकी ज़िप फ़ाइल (ZIP)डाउनलोड करें(Download) और फिर इसे निकालें। कमांड को चलाना आसान बनाने के लिए, आपको पीडीएफ(PDF) को भी उसी फोल्डर में रखना चाहिए जहां आपने यह सॉफ्टवेयर निकाला था। उसके बाद उस फोल्डर में कमांड प्रॉम्प्ट(Command Prompt) विंडो ओपन करें। आप उस फोल्डर के एड्रेस बॉक्स में cmd ​​टाइप करके और फिर (cmd)एंटर(Enter) की दबाकर ऐसा कर सकते हैं ।

जब सीएमडी(CMD) विंडो खोली जाती है, तो इस सॉफ्टवेयर की बैट फाइल, इनपुट (BAT)पीडीएफ(PDF) के पथ सहित इनपुट कमांड , आउटपुट कमांड और '.txt' एक्सटेंशन के साथ आउटपुट फाइल का नाम जोड़ें। पूरी कमान होगी-

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

आदेश निष्पादित करें। कुछ सेकंड के लिए प्रतीक्षा करें और सादा पाठ फ़ाइल तैयार हो जाएगी जिसमें उस (Wait)पीडीएफ(PDF) से प्राप्त सभी हाइलाइट किए गए टेक्स्ट और टिप्पणियां शामिल होंगी । आउटपुट फ़ाइल उसी इनपुट फ़ोल्डर में सहेजी जाती है।

तो, ये कुछ विकल्प हैं जिनका उपयोग आप पीडीएफ(PDF) से हाइलाइट किए गए टेक्स्ट को निकालने के लिए कर सकते हैं और फिर आउटपुट को टेक्स्ट फ़ाइल के रूप में सहेज सकते हैं। आशा(Hope) है कि ये मदद करते हैं।



About the author

व्यवसाय में, सही कौशल होना हमेशा महत्वपूर्ण होता है। वे न केवल आपको अधिक उत्पादक और कुशल बनाते हैं, बल्कि वे आपको बाकियों से अलग दिखने में भी मदद कर सकते हैं। इसलिए मैं उन लोगों के लिए अपनी नवीनतम उत्पादकता युक्तियाँ और गैजेट पेश करता हूं जो अपने काम को अगले स्तर पर ले जाना चाहते हैं।



Related posts