पीडीएफ और छवि फाइलों से टेक्स्ट निकालें

क्या आपके पास एक PDF दस्तावेज़ है जिसमें से आप सभी टेक्स्ट निकालना चाहते हैं? स्कैन किए गए दस्तावेज़ की छवि फ़ाइलों के बारे में क्या जिन्हें आप संपादन योग्य टेक्स्ट में बदलना चाहते हैं? फाइलों के साथ काम करते समय ये कुछ सबसे आम मुद्दे हैं जो मैंने कार्यस्थल पर देखे हैं।

इस लेख में, मैं कई अलग-अलग तरीकों के बारे में बात करूंगा, जिनके बारे में आप पीडीएफ(PDF) से या किसी छवि से टेक्स्ट निकालने का प्रयास कर सकते हैं । पीडीएफ(PDF) या छवि में टेक्स्ट के प्रकार और गुणवत्ता के आधार पर आपके निष्कर्षण के परिणाम अलग-अलग होंगे । साथ ही, आपके द्वारा उपयोग किए जाने वाले टूल के आधार पर आपके परिणाम अलग-अलग होंगे, इसलिए सर्वोत्तम परिणाम प्राप्त करने के लिए नीचे दिए गए विकल्पों में से अधिक से अधिक प्रयास करना सबसे अच्छा है।

छवि या पीडीएफ से टेक्स्ट निकालें

शुरू करने का सबसे सरल और तेज़ तरीका ऑनलाइन पीडीएफ(PDF) टेक्स्ट एक्सट्रैक्टर सेवा का प्रयास करना है। ये आम तौर पर मुफ़्त होते हैं और आपके कंप्यूटर पर कुछ भी इंस्टॉल किए बिना आपको वही दे सकते हैं जो आप खोज रहे हैं। यहाँ दो हैं जिनका मैंने बहुत अच्छे से उत्कृष्ट परिणामों के साथ उपयोग किया है:

एक्सट्रैक्टपीडीएफ

एक्सट्रेक्टपीडीएफ

एक्स्ट्रेक्टपीडीएफ(ExtractPDF) एक पीडीएफ(PDF) फाइल से छवियों, टेक्स्ट और फोंट को हथियाने के लिए एक नि: शुल्क उपकरण है। एकमात्र सीमा यह है कि पीडीएफ(PDF) फाइल का अधिकतम आकार 10 एमबी है। वह थोड़ा छोटा है; इसलिए यदि आपके पास एक बड़ी फ़ाइल है, तो नीचे दी गई कुछ अन्य विधियों का प्रयास करें। अपनी फ़ाइल चुनें और फिर फ़ाइल भेजें(Send file) बटन पर क्लिक करें। परिणाम सामान्य रूप से बहुत तेज़ होते हैं और जब आप टेक्स्ट(Text) टैब पर क्लिक करते हैं तो आपको टेक्स्ट का पूर्वावलोकन देखना चाहिए ।

पाठ डाउनलोड करें

यह एक अच्छा अतिरिक्त लाभ भी है कि यह पीडीएफ(PDF) फाइल से छवियों को भी निकालता है, बस जरूरत पड़ने पर! कुल मिलाकर, ऑनलाइन टूल बहुत अच्छा काम करता है, लेकिन मैंने कुछ पीडीएफ(PDF) दस्तावेज़ों में भाग लिया है जो मुझे मज़ेदार आउटपुट देते हैं। पाठ ठीक निकाला गया है, लेकिन किसी कारण से प्रत्येक शब्द के बाद एक पंक्ति विराम होगा! एक छोटी पीडीएफ(PDF) फाइल के लिए कोई बड़ी समस्या नहीं है, लेकिन निश्चित रूप से बहुत सारे टेक्स्ट वाली फाइलों के लिए एक समस्या है। अगर आपके साथ ऐसा होता है, तो अगला टूल आज़माएं.

ऑनलाइन ओसीआर

ऑनलाइन OCR(Online OCR) आमतौर पर उन दस्तावेज़ों के लिए काम करता है जो ExtractPDF के साथ ठीक से परिवर्तित नहीं होते हैं , इसलिए यह देखने के लिए दोनों सेवाओं को आज़माना एक अच्छा विचार है कि कौन सी आपको बेहतर आउटपुट देती है। ऑनलाइन ओसीआर में कुछ अच्छी विशेषताएं भी हैं जो बड़ी (Online OCR)पीडीएफ(PDF) फाइल वाले किसी भी व्यक्ति के लिए उपयोगी साबित हो सकती हैं, जिसे पूरे दस्तावेज़ के बजाय केवल कुछ पृष्ठों पर टेक्स्ट को कनवर्ट करने की आवश्यकता होती है।

पहली चीज जो आप करना चाहते हैं वह है आगे बढ़ें और एक मुफ्त खाता बनाएं। यह थोड़ा कष्टप्रद है, लेकिन यदि आप मुफ़्त खाता नहीं बनाते हैं, तो यह पूरे दस्तावेज़ के बजाय केवल आंशिक रूप से आपकी PDF को रूपांतरित करेगा। (PDF)साथ ही, केवल 5 एमबी दस्तावेज़ अपलोड करने में सक्षम होने के बजाय, आप एक खाते के साथ प्रति फ़ाइल 100 एमबी तक अपलोड कर सकते हैं।

ऑनलाइन ओसीआर

सबसे पहले, एक भाषा चुनें और फिर कनवर्ट की गई फ़ाइल के लिए इच्छित आउटपुट स्वरूपों का प्रकार चुनें। आपके पास कुछ विकल्प हैं और आप चाहें तो एक से अधिक विकल्प चुन सकते हैं। मल्टीपेज दस्तावेज़(Multipage document) के तहत , आप पेज नंबर(Page numbers) चुन सकते हैं और फिर केवल उन्हीं पेजों को चुन सकते हैं जिन्हें आप कनवर्ट करना चाहते हैं। फिर आप फ़ाइल का चयन करें और कनवर्ट(Convert) करें पर क्लिक करें !

ऑनलाइन ओसीआर डॉक्स

रूपांतरण के बाद, आपको दस्तावेज़(Documents) अनुभाग में लाया जाएगा (यदि आप लॉग इन हैं) जहां आप देख सकते हैं कि आपके पास कितने उपलब्ध निःशुल्क पृष्ठ हैं और आपकी कनवर्ट की गई फ़ाइलों को डाउनलोड करने के लिए लिंक हैं। ऐसा लगता है कि आपके पास एक दिन में केवल 25 पृष्ठ निःशुल्क हैं, इसलिए यदि आपको इससे अधिक की आवश्यकता है, तो आपको या तो थोड़ा इंतजार करना होगा या अधिक पृष्ठ खरीदना होगा।

ऑनलाइन ओसीआर ने मेरे (Online OCR)पीडीएफ़(PDF) को परिवर्तित करने का उत्कृष्ट कार्य किया क्योंकि यह टेक्स्ट के वास्तविक लेआउट को बनाए रखने में सक्षम था। अपने परीक्षण में, मैंने एक वर्ड(Word) डॉक लिया जिसमें बुलेट, विभिन्न फ़ॉन्ट आकार आदि का उपयोग किया गया और इसे एक पीडीएफ(PDF) में बदल दिया गया । फिर मैंने इसे वापस वर्ड(Word) फॉर्मेट में बदलने के लिए ऑनलाइन ओसीआर का उपयोग किया और यह मूल के समान लगभग 95% था। (Online OCR)यह मेरे लिए काफी प्रभावशाली है।

साथ ही, अगर आप किसी इमेज को टेक्स्ट में बदलना चाहते हैं, तो ऑनलाइन ओसीआर (Online OCR)पीडीएफ(PDF) फाइलों से टेक्स्ट निकालने की तरह ही आसानी से कर सकता है ।

मुफ्त ऑनलाइन ओसीआर

चूंकि इमेज टू टेक्स्ट ओसीआर(OCR) के बारे में बात कर रहे थे , मुझे एक और अच्छी वेबसाइट का उल्लेख करना चाहिए जो छवियों पर वास्तव में अच्छी तरह से काम करती है। मेरी परीक्षण छवियों से पाठ निकालते समय नि: शुल्क ऑनलाइन ओसीआर बहुत अच्छा और बहुत सटीक था। (Free Online OCR)मैंने अपने आईफोन से किताबों, पैम्फलेट आदि के पन्नों की कुछ तस्वीरें लीं और मुझे आश्चर्य हुआ कि यह टेक्स्ट को कितनी अच्छी तरह से रूपांतरित करने में सक्षम था।

मुफ्त ऑनलाइन ओसीआर

अपनी फ़ाइल चुनें और फिर अपलोड(Upload) बटन पर क्लिक करें। अगली स्क्रीन पर, कुछ विकल्प हैं और छवि का पूर्वावलोकन है। यदि आप पूरी बात ओसीआर(OCR) नहीं करना चाहते हैं तो आप इसे क्रॉप कर सकते हैं । फिर बस ओसीआर(OCR) बटन पर क्लिक करें और आपका परिवर्तित टेक्स्ट छवि पूर्वावलोकन के नीचे दिखाई देगा। इसकी भी कोई सीमा नहीं है, जो वास्तव में अच्छा है।

ऑनलाइन सेवाओं के अलावा, दो फ्रीवेयर पीडीएफ(PDF) कन्वर्टर हैं जिनका मैं उल्लेख करना चाहता हूं यदि आपको रूपांतरण करने के लिए अपने कंप्यूटर पर स्थानीय रूप से चलने वाले सॉफ़्टवेयर की आवश्यकता है। ऑनलाइन सेवाओं के साथ, आपको हमेशा एक इंटरनेट(Internet) कनेक्शन की आवश्यकता होगी और यह सभी के लिए संभव नहीं हो सकता है। हालांकि, मैंने देखा कि फ्रीवेयर कार्यक्रमों से रूपांतरणों की गुणवत्ता वेबसाइटों की तुलना में काफी खराब थी।

ए-पीडीएफ टेक्स्ट एक्सट्रैक्टर

ए-पीडीएफ टेक्स्ट एक्सट्रैक्टर फ्रीवेयर है जो (A-PDF Text Extractor)पीडीएफ(PDF) फाइलों से टेक्स्ट निकालने का काफी अच्छा काम करता है । एक बार जब आप इसे डाउनलोड और इंस्टॉल कर लेते हैं, तो अपनी पीडीएफ(PDF) फाइल चुनने के लिए ओपन(Open) बटन पर क्लिक करें। फिर प्रक्रिया शुरू करने के लिए टेक्स्ट निकालें(Extract) पर क्लिक करें ।

एपीडीएफ एक्सट्रैक्टर

यह आपसे टेक्स्ट आउटपुट फाइल को स्टोर करने के लिए एक लोकेशन पूछेगा और फिर यह एक्सट्रेक्ट करना शुरू कर देगा। आप विकल्प(Option) बटन पर भी क्लिक कर सकते हैं , जो आपको निकालने के लिए केवल कुछ पृष्ठों और निष्कर्षण प्रकार को चुनने देता है। दूसरा विकल्प दिलचस्प है क्योंकि यह अलग-अलग लेआउट में टेक्स्ट को एक्सट्रेक्ट करता है और तीनों को यह देखने की कोशिश करने लायक है कि कौन सा आपको सबसे अच्छा आउटपुट देता है।

PDF2पाठ्य पायलट

PDF2Text पायलट(PDF2Text Pilot)  टेक्स्ट निकालने का अच्छा काम करता है। इसका कोई विकल्प नहीं है; आप बस फ़ाइलें या फ़ोल्डर जोड़ते हैं, कनवर्ट करते हैं और सर्वश्रेष्ठ के लिए आशा करते हैं। इसने कुछ PDF(PDFs) पर अच्छा काम किया , लेकिन उनमें से अधिकांश के लिए, कई समस्याएँ थीं।

पीडीएफ2पाठ

बस फ़ाइलें जोड़ें(Add Files) पर क्लिक करें और फिर कनवर्ट(Convert) करें पर क्लिक करें । रूपांतरण पूरा होने के बाद, फ़ाइल खोलने के लिए ब्राउज़ करें पर क्लिक करें। (Browse)इस प्रोग्राम के इस्तेमाल से आपकी माइलेज अलग-अलग होगी, इसलिए ज्यादा उम्मीद न करें।

साथ ही, यह ध्यान देने योग्य है कि यदि आप एक कॉर्पोरेट वातावरण में हैं या काम से Adobe Acrobat की एक प्रति प्राप्त कर सकते हैं, तो आप वास्तव में बहुत बेहतर परिणाम प्राप्त कर सकते हैं। एक्रोबैट(Acrobat) स्पष्ट रूप से मुफ्त नहीं है, लेकिन इसमें पीडीएफ(PDF) को वर्ड(Word) , एक्सेल(Excel) और एचटीएमएल(HTML) प्रारूप में बदलने के विकल्प हैं। यह मूल दस्तावेज़ की संरचना को बनाए रखने और जटिल पाठ को परिवर्तित करने का सबसे अच्छा काम भी करता है।



About the author

व्यवसाय में, सही कौशल होना हमेशा महत्वपूर्ण होता है। वे न केवल आपको अधिक उत्पादक और कुशल बनाते हैं, बल्कि वे आपको बाकियों से अलग दिखने में भी मदद कर सकते हैं। इसलिए मैं उन लोगों के लिए अपनी नवीनतम उत्पादकता युक्तियाँ और गैजेट पेश करता हूं जो अपने काम को अगले स्तर पर ले जाना चाहते हैं।



Related posts