PDF दस्तावेज़ों से तालिकाएँ कैसे निकालें

यह लेख आपको दिखाएगा कि पीडीएफ दस्तावेजों से टेबल कैसे निकालें(extract tables from PDF documents) । आपके पास कई पीडीएफ(PDF) फाइलें हो सकती हैं जिनमें कई टेबल हैं जिन्हें आप अलग से उपयोग करना चाहते हैं। उन तालिकाओं को कॉपी और पेस्ट करना एक अच्छा विकल्प नहीं है क्योंकि यह अपेक्षित आउटपुट नहीं दे सकता है, इसलिए आपको कुछ अन्य सरल विकल्पों की आवश्यकता है जो (Copying)पीडीएफ(PDF) फाइल से टेबल निकाल सकते हैं और उन टेबल को अलग फाइलों के रूप में सहेज सकते हैं।

यदि पीडीएफ(PDF) टेबल को स्कैन किया जाता है तो इनमें से अधिकतर पीडीएफ टेबल एक्सट्रैक्टर टूल मदद नहीं कर सकते हैं। (PDF table extractor tools)ऐसे में आपको पहले पीडीएफ को सर्च करने योग्य बनाना(make the PDF searchable) चाहिए  और फिर इन विकल्पों को आजमाना चाहिए।

PDF दस्तावेज़ों से तालिकाएँ निकालें

इस पोस्ट में, हमने पीडीएफ(PDF) फाइल से टेबल निकालने के लिए 2 मुफ्त ऑनलाइन सेवाएं और 3 मुफ्त सॉफ्टवेयर जोड़े हैं:

  1. पीडीएफ से एक्सएलएस
  2. PDFtoExcel.com
  3. ताबुला
  4. बाइटस्काउट पीडीएफ मल्टीटूल
  5. सेजदा पीडीएफ डेस्कटॉप।

1] पीडीएफ से एक्सएलएस

पीडीएफ से एक्सएलएस सेवा

पीडीएफ(PDF) से एक्सएलएस , (XLS)पीडीएफ(PDF) से टेबल निकालने के लिए सबसे अच्छे विकल्पों में से एक है । इसमें दो विशेषताएं हैं जो इसे आसान बनाती हैं। आप एक साथ 20 PDF(20 PDF) दस्तावेज़ों से तालिकाएँ प्राप्त कर सकते हैं। साथ ही, PDF तालिका निष्कर्षण स्वचालित है। यह आउटपुट को XLSX फ़ाइल के रूप में जेनरेट करता है। यदि एक पीडीएफ(PDF) में कई टेबल हैं, तो प्रत्येक टेबल को आउटपुट एक्सएलएसएक्स(XLSX) फाइल की अलग-अलग शीट में अलग से स्टोर किया जाता है।

इस सेवा का होमपेज खोलें(Open the homepage)उसके बाद, पीडीएफ(PDF) फाइलों को ड्रैग एन ड्रॉप करें या फाइल अपलोड करें(UPLOAD FILES) बटन का उपयोग करें। प्रत्येक अपलोड की गई पीडीएफ(PDF) स्वचालित रूप से एक्सएलएसएक्स प्रारूप फ़ाइल में परिवर्तित हो जाती है। जब आउटपुट फ़ाइलें तैयार हो जाती हैं, तो आप उन्हें एक-एक करके डाउनलोड कर सकते हैं या एक ज़िप(ZIP) फ़ाइल डाउनलोड कर सकते हैं जिसमें सभी आउटपुट फ़ाइलें होंगी।

2] PDFtoExcel.com

PDF दस्तावेज़ों से तालिकाएँ निकालें

PDFtoExcel.com सेवा एक बार में एक (PDFtoExcel.com)पीडीएफ(PDF) से टेबल निकाल सकती है लेकिन यह पीडीएफ(PDF) अपलोड करने के लिए कई प्लेटफॉर्म का समर्थन करती है । यह पीडीएफ अपलोड करने के लिए (PDF)वनड्राइव(OneDrive) , डेस्कटॉप(desktop) , गूगल ड्राइव(Google Drive) और ड्रॉपबॉक्स(Dropbox) प्लेटफॉर्म का समर्थन करता है । साथ ही, रूपांतरण प्रक्रिया स्वचालित है।

यह सेवा होमपेज यहां है(here)वहां, पीडीएफ(PDF) जोड़ने के लिए एक अपलोड विकल्प चुनें । उसके बाद, यह स्वचालित रूप से पीडीएफ(PDF) को एक्सेल(Excel) ( एक्सएलएसएक्स(XLSX) ) फाइल में अपलोड और कनवर्ट करता है। जब आउटपुट तैयार हो जाता है, तो आपको पीडीएफ(PDF) टेबल वाली आउटपुट फाइल को सेव करने के लिए डाउनलोड लिंक मिलेगा ।

नोट: हालांकि इस सेवा का उल्लेख है कि यह स्कैन की गई (Note: )पीडीएफ(PDF) फाइलों से भी टेबल निकाल सकता है , यह मेरे लिए काम नहीं करता है। आप इसे अभी भी स्कैन की गई PDF के लिए आज़मा सकते हैं ।

3] तबला

Tabula PDF एक्सट्रैक्टर सॉफ्टवेयर

Tabula एक शक्तिशाली सॉफ़्टवेयर है जो स्वचालित रूप से PDF में मौजूद तालिकाओं का पता लगा सकता है और फिर आपको उन तालिकाओं को TSV , JSON या CSV फ़ाइल के रूप में सहेजने देता है। आप प्रत्येक PDF तालिका के लिए अलग (PDF)CSV फ़ाइलों को सहेजने या सभी तालिकाओं को एक CSV फ़ाइल में सहेजने के विकल्प का चयन कर सकते हैं ।

इस ओपन-सोर्स(open-source) पीडीएफ टेबल एक्सट्रैक्टर को डाउनलोड करने के लिए, यहां क्लिक करें(click here) । इसे चलाने और इसे सफलतापूर्वक उपयोग करने के लिए जावा(requires Java) की भी आवश्यकता होती है।

आपके द्वारा डाउनलोड की गई ज़िप(ZIP) फ़ाइल को निकालें और tabula.exe फ़ाइल चलाएँ। यह आपके डिफ़ॉल्ट ब्राउज़र में एक पेज खोलेगा। यदि पेज नहीं खुला है, तो अपने ब्राउज़र में http://localhost:8080 जोड़ें और एंटर दबाएं(Enter)

अब आपको इसका इंटरफ़ेस दिखाई देगा जहाँ आप PDF जोड़ने के लिए ब्राउज(Browse) विकल्प का उपयोग कर सकते हैं । उसके बाद, आयात(Import) बटन दबाएं। जब पीडीएफ(PDF) जोड़ा जाता है, तो आप इसके इंटरफेस पर पीडीएफ पेज देख सकते हैं।(PDF)

ऑटोडेटेक्ट टेबल्स(Autodetect Tables) बटन का उपयोग करें और यह उस पीडीएफ(PDF) में मौजूद सभी तालिकाओं को स्वचालित रूप से हाइलाइट कर देगा। आप किसी विशेष तालिका का चयन करके किसी तालिका को मैन्युअल रूप से हाइलाइट भी कर सकते हैं। आप चाहें तो अपनी पसंद के चुने हुए टेबल को हटा(remove selected tables) भी सकते हैं ।

यह आपको केवल उन तालिकाओं को सहेजने में मदद करेगा जो आप चाहते हैं। जब पीडीएफ(PDF) टेबल हाइलाइट हो जाएं, तो प्रीव्यू एंड एक्सपोर्ट एक्सट्रैक्टेड डेटा(Preview & Export Extracted Data) बटन पर क्लिक करें।

अंत में, आउटपुट स्वरूप का चयन करने के लिए शीर्ष भाग पर उपलब्ध ड्रॉप-डाउन मेनू का उपयोग करें, और निर्यात(Export) बटन दबाएं। यह पीडीएफ(PDF) टेबल को आपके द्वारा चुनी गई आउटपुट फॉर्मेट फाइल में सेव कर देगा।

4] बाइटस्काउट पीडीएफ मल्टीटूल

बाइटस्काउट पीडीएफ मल्टीटूल- पीडीएफ जोड़ें और टेबल का पता लगाएं

जैसा कि नाम से पता चलता है, यह सॉफ्टवेयर कई टूल के साथ आता है। इसमें पीडीएफ को मल्टीपेज टीआईएफएफ में कनवर्ट करने(convert PDF to multipage TIFF) , पीडीएफ दस्तावेज़ को घुमाने(rotate PDF document) , पीडीएफ को खोजने योग्य बनाने(make PDF unsearchable) , पीडीएफ को अनुकूलित करने, पीडीएफ(optimize PDF) में एक छवि जोड़ने(add an image to PDF) , और बहुत कुछ जैसे टूल हैं । पीडीएफ(PDF) टेबल डिटेक्टर फीचर भी है जो बहुत बढ़िया है। इस टूल का लाभ यह है कि आप स्कैन की गई पीडीएफ से भी टेबल निकाल(extract tables from scanned PDF) सकते हैं। आप एकाधिक पृष्ठों में तालिकाओं का पता लगा सकते हैं और फिर उन तालिकाओं को CSV , XLS , XML , TXT , या JSON प्रारूप फ़ाइल के रूप में निकाल सकते हैं। निष्कर्षण से पहले, यह आपको एक पृष्ठ श्रेणी भी सेट करने देता है(page range)केवल निर्दिष्ट पृष्ठों से तालिकाएँ निकालने के लिए।

आप इस सॉफ्टवेयर को यहां(here) ले सकते हैं । यह केवल गैर-व्यावसायिक उपयोग के लिए निःशुल्क है(free for non-commercial use) । स्थापना के बाद, इस सॉफ़्टवेयर को चलाएँ और PDF जोड़ने के लिए Open Document विकल्प का उपयोग करें । उसके बाद, डिटेक्ट टेबल्स(Detect tables) टूल पर क्लिक करें जैसा कि ऊपर इमेज में हाइलाइट किया गया है। यह टूल डेटा एक्सट्रैक्शन(Data Extraction) श्रेणी के अंतर्गत मौजूद है ।

यह एक बॉक्स खोलेगा जहाँ आप तालिकाओं का पता लगाने के लिए शर्तें निर्धारित कर सकते हैं। उदाहरण के लिए, आप न्यूनतम संख्या में कॉलम, पंक्तियाँ, तालिकाओं के बीच न्यूनतम लाइन ब्रेक, टेबल डिटेक्शन मोड को बॉर्डर या बॉर्डरलेस टेबल आदि पर सेट कर सकते हैं। विकल्पों का उपयोग करें या डिफ़ॉल्ट सेटिंग्स रखें।

उसके बाद उस बॉक्स में डिटेक्ट नेक्स्ट टेबल(Detect next table) बटन दबाएं। यह वर्तमान पृष्ठ पर एक तालिका की पहचान करेगा और उसका चयन करेगा। इस तरह, आप दूसरे पृष्ठ पर जा सकते हैं और अधिक तालिकाओं का पता लगा सकते हैं।

टेबल का पता लगाएं और चयनित आउटपुट के साथ पीडीएफ टेबल को सेव करें

जब आप कर लें, तो प्रोसीड टू एक्सट्रैक्शन(Proceed to extraction) बटन का उपयोग करें, और आउटपुट स्वरूप का चयन करें। अंत में, आप मौजूदा पेज से टेबल्स को सेव करने या पेज रेंज को परिभाषित करने और आउटपुट को सेव करने के लिए विकल्पों का उपयोग कर सकते हैं।

उपकरण एक संतोषजनक आउटपुट देता है। लेकिन कभी-कभी, यह PDF में अन्य सामग्री का पता लगा सकता है , और हो सकता है कि एकाधिक पृष्ठों से तालिकाओं को निकालने में सक्षम न हो। उस स्थिति में, आपको इसका उपयोग एक-एक करके तालिकाओं को लाने और सहेजने के लिए करना चाहिए।

5] सेजदा पीडीएफ डेस्कटॉप

सेजदा पीडीएफ डेस्कटॉप पीडीएफ के साथ एक्सेल कनवर्टर करने के लिए

सेजदा पीडीएफ डेस्कटॉप(Sejda PDF Desktop) भी एक बहुउद्देशीय सॉफ्टवेयर है। यह पीडीएफ को अनुकूलित या संपीड़ित कर सकता है, पीडीएफ(compress PDF) में वॉटरमार्क जोड़ सकता है, पीडीएफ से प्रतिबंध हटा सकता है, (remove restrictions from PDF)पीडीएफ(PDF) दस्तावेज़ संपादित कर सकता है, आदि। हालांकि, इसकी मुफ्त योजना की सीमाएं हैं। फ्री प्लान में रोजाना सिर्फ 3 टास्क ही किए जा सकते हैं। साथ ही, पीडीएफ(PDF) आकार की सीमा 50 एमबी(50 MB) या 10 पेज है(10 pages)

आप पीडीएफ(PDF) टेबल निकालने के लिए इसके पीडीएफ से एक्सेल रूपांतरण टूल का उपयोग कर सकते हैं। (PDF to Excel)यह स्वचालित रूप से पीडीएफ(PDF) पृष्ठों में तालिकाओं का पता लगाता है और आपको उन तालिकाओं को XLSX या CSV के रूप में सहेजने देता है ।

इसका डाउनलोड लिंक यहां है(here) । इंस्टालेशन के बाद, इसके मुख्य इंटरफेस से पीडीएफ(PDF) टू एक्सेल टूल का उपयोग करें। (Excel)उस टूल का चयन करने के बाद, PDF फ़ाइलें चुनें(Choose PDF files) बटन का उपयोग करें। फ्री प्लान में केवल एक पीडीएफ(PDF) जोड़ा जा सकता है।

जब पीडीएफ(PDF) जोड़ा जाता है, तो यह पीडीएफ को सीएसवी में कनवर्ट(Convert PDF to CSV) करेगा और पीडीएफ को एक्सेल(Convert PDF to Excel) बटन में कनवर्ट करेगा। एक बटन का उपयोग करें और फिर आप आउटपुट को अपने पीसी पर वांछित स्थान पर सहेज सकते हैं।

पीडीएफ टेबल को एक्सेल या सीएसवी में बदलें

इसका पीडीएफ(PDF) टेबल डिटेक्शन टूल अच्छा है। आपको तालिकाओं का मैन्युअल रूप से पता लगाने की आवश्यकता नहीं है। फिर भी, कभी-कभी इसमें अन्य पाठ्य सामग्री को PDF तालिका के रूप में शामिल किया जा सकता है और इसे आउटपुट में संग्रहीत किया जा सकता है। लेकिन कुल मिलाकर परिणाम अच्छे हैं।

बस इतना ही।

पीडीएफ(PDF) से टेबल निकालने के लिए ये कुछ अच्छे टूल हैं । Tabula Software अन्य टूल्स की तुलना में अधिक प्रभावी है। फिर भी, आप सभी टूल्स को आजमा सकते हैं और जांच सकते हैं कि कौन सा मदद करता है।

इसी तरह पढ़ता है:(Similar reads:)



About the author

व्यवसाय में, सही कौशल होना हमेशा महत्वपूर्ण होता है। वे न केवल आपको अधिक उत्पादक और कुशल बनाते हैं, बल्कि वे आपको बाकियों से अलग दिखने में भी मदद कर सकते हैं। इसलिए मैं उन लोगों के लिए अपनी नवीनतम उत्पादकता युक्तियाँ और गैजेट पेश करता हूं जो अपने काम को अगले स्तर पर ले जाना चाहते हैं।



Related posts