PDF दस्तावेज़ों से तालिकाएँ कैसे निकालें
यह लेख आपको दिखाएगा कि पीडीएफ दस्तावेजों से टेबल कैसे निकालें(extract tables from PDF documents) । आपके पास कई पीडीएफ(PDF) फाइलें हो सकती हैं जिनमें कई टेबल हैं जिन्हें आप अलग से उपयोग करना चाहते हैं। उन तालिकाओं को कॉपी और पेस्ट करना एक अच्छा विकल्प नहीं है क्योंकि यह अपेक्षित आउटपुट नहीं दे सकता है, इसलिए आपको कुछ अन्य सरल विकल्पों की आवश्यकता है जो (Copying)पीडीएफ(PDF) फाइल से टेबल निकाल सकते हैं और उन टेबल को अलग फाइलों के रूप में सहेज सकते हैं।
यदि पीडीएफ(PDF) टेबल को स्कैन किया जाता है तो इनमें से अधिकतर पीडीएफ टेबल एक्सट्रैक्टर टूल मदद नहीं कर सकते हैं। (PDF table extractor tools)ऐसे में आपको पहले पीडीएफ को सर्च करने योग्य बनाना(make the PDF searchable) चाहिए और फिर इन विकल्पों को आजमाना चाहिए।
PDF दस्तावेज़ों से तालिकाएँ निकालें
इस पोस्ट में, हमने पीडीएफ(PDF) फाइल से टेबल निकालने के लिए 2 मुफ्त ऑनलाइन सेवाएं और 3 मुफ्त सॉफ्टवेयर जोड़े हैं:
- पीडीएफ से एक्सएलएस
- PDFtoExcel.com
- ताबुला
- बाइटस्काउट पीडीएफ मल्टीटूल
- सेजदा पीडीएफ डेस्कटॉप।
1] पीडीएफ से एक्सएलएस
पीडीएफ(PDF) से एक्सएलएस , (XLS)पीडीएफ(PDF) से टेबल निकालने के लिए सबसे अच्छे विकल्पों में से एक है । इसमें दो विशेषताएं हैं जो इसे आसान बनाती हैं। आप एक साथ 20 PDF(20 PDF) दस्तावेज़ों से तालिकाएँ प्राप्त कर सकते हैं। साथ ही, PDF तालिका निष्कर्षण स्वचालित है। यह आउटपुट को XLSX फ़ाइल के रूप में जेनरेट करता है। यदि एक पीडीएफ(PDF) में कई टेबल हैं, तो प्रत्येक टेबल को आउटपुट एक्सएलएसएक्स(XLSX) फाइल की अलग-अलग शीट में अलग से स्टोर किया जाता है।
इस सेवा का होमपेज खोलें(Open the homepage) । उसके बाद, पीडीएफ(PDF) फाइलों को ड्रैग एन ड्रॉप करें या फाइल अपलोड करें(UPLOAD FILES) बटन का उपयोग करें। प्रत्येक अपलोड की गई पीडीएफ(PDF) स्वचालित रूप से एक्सएलएसएक्स प्रारूप फ़ाइल में परिवर्तित हो जाती है। जब आउटपुट फ़ाइलें तैयार हो जाती हैं, तो आप उन्हें एक-एक करके डाउनलोड कर सकते हैं या एक ज़िप(ZIP) फ़ाइल डाउनलोड कर सकते हैं जिसमें सभी आउटपुट फ़ाइलें होंगी।
2] PDFtoExcel.com
PDFtoExcel.com सेवा एक बार में एक (PDFtoExcel.com)पीडीएफ(PDF) से टेबल निकाल सकती है लेकिन यह पीडीएफ(PDF) अपलोड करने के लिए कई प्लेटफॉर्म का समर्थन करती है । यह पीडीएफ अपलोड करने के लिए (PDF)वनड्राइव(OneDrive) , डेस्कटॉप(desktop) , गूगल ड्राइव(Google Drive) और ड्रॉपबॉक्स(Dropbox) प्लेटफॉर्म का समर्थन करता है । साथ ही, रूपांतरण प्रक्रिया स्वचालित है।
यह सेवा होमपेज यहां है(here) । वहां, पीडीएफ(PDF) जोड़ने के लिए एक अपलोड विकल्प चुनें । उसके बाद, यह स्वचालित रूप से पीडीएफ(PDF) को एक्सेल(Excel) ( एक्सएलएसएक्स(XLSX) ) फाइल में अपलोड और कनवर्ट करता है। जब आउटपुट तैयार हो जाता है, तो आपको पीडीएफ(PDF) टेबल वाली आउटपुट फाइल को सेव करने के लिए डाउनलोड लिंक मिलेगा ।
नोट: हालांकि इस सेवा का उल्लेख है कि यह स्कैन की गई (Note: )पीडीएफ(PDF) फाइलों से भी टेबल निकाल सकता है , यह मेरे लिए काम नहीं करता है। आप इसे अभी भी स्कैन की गई PDF के लिए आज़मा सकते हैं ।
3] तबला
Tabula एक शक्तिशाली सॉफ़्टवेयर है जो स्वचालित रूप से PDF में मौजूद तालिकाओं का पता लगा सकता है और फिर आपको उन तालिकाओं को TSV , JSON या CSV फ़ाइल के रूप में सहेजने देता है। आप प्रत्येक PDF तालिका के लिए अलग (PDF)CSV फ़ाइलों को सहेजने या सभी तालिकाओं को एक CSV फ़ाइल में सहेजने के विकल्प का चयन कर सकते हैं ।
इस ओपन-सोर्स(open-source) पीडीएफ टेबल एक्सट्रैक्टर को डाउनलोड करने के लिए, यहां क्लिक करें(click here) । इसे चलाने और इसे सफलतापूर्वक उपयोग करने के लिए जावा(requires Java) की भी आवश्यकता होती है।
आपके द्वारा डाउनलोड की गई ज़िप(ZIP) फ़ाइल को निकालें और tabula.exe फ़ाइल चलाएँ। यह आपके डिफ़ॉल्ट ब्राउज़र में एक पेज खोलेगा। यदि पेज नहीं खुला है, तो अपने ब्राउज़र में http://localhost:8080 जोड़ें और एंटर दबाएं(Enter) ।
अब आपको इसका इंटरफ़ेस दिखाई देगा जहाँ आप PDF जोड़ने के लिए ब्राउज(Browse) विकल्प का उपयोग कर सकते हैं । उसके बाद, आयात(Import) बटन दबाएं। जब पीडीएफ(PDF) जोड़ा जाता है, तो आप इसके इंटरफेस पर पीडीएफ पेज देख सकते हैं।(PDF)
ऑटोडेटेक्ट टेबल्स(Autodetect Tables) बटन का उपयोग करें और यह उस पीडीएफ(PDF) में मौजूद सभी तालिकाओं को स्वचालित रूप से हाइलाइट कर देगा। आप किसी विशेष तालिका का चयन करके किसी तालिका को मैन्युअल रूप से हाइलाइट भी कर सकते हैं। आप चाहें तो अपनी पसंद के चुने हुए टेबल को हटा(remove selected tables) भी सकते हैं ।
यह आपको केवल उन तालिकाओं को सहेजने में मदद करेगा जो आप चाहते हैं। जब पीडीएफ(PDF) टेबल हाइलाइट हो जाएं, तो प्रीव्यू एंड एक्सपोर्ट एक्सट्रैक्टेड डेटा(Preview & Export Extracted Data) बटन पर क्लिक करें।
अंत में, आउटपुट स्वरूप का चयन करने के लिए शीर्ष भाग पर उपलब्ध ड्रॉप-डाउन मेनू का उपयोग करें, और निर्यात(Export) बटन दबाएं। यह पीडीएफ(PDF) टेबल को आपके द्वारा चुनी गई आउटपुट फॉर्मेट फाइल में सेव कर देगा।
4] बाइटस्काउट पीडीएफ मल्टीटूल
जैसा कि नाम से पता चलता है, यह सॉफ्टवेयर कई टूल के साथ आता है। इसमें पीडीएफ को मल्टीपेज टीआईएफएफ में कनवर्ट करने(convert PDF to multipage TIFF) , पीडीएफ दस्तावेज़ को घुमाने(rotate PDF document) , पीडीएफ को खोजने योग्य बनाने(make PDF unsearchable) , पीडीएफ को अनुकूलित करने, पीडीएफ(optimize PDF) में एक छवि जोड़ने(add an image to PDF) , और बहुत कुछ जैसे टूल हैं । पीडीएफ(PDF) टेबल डिटेक्टर फीचर भी है जो बहुत बढ़िया है। इस टूल का लाभ यह है कि आप स्कैन की गई पीडीएफ से भी टेबल निकाल(extract tables from scanned PDF) सकते हैं। आप एकाधिक पृष्ठों में तालिकाओं का पता लगा सकते हैं और फिर उन तालिकाओं को CSV , XLS , XML , TXT , या JSON प्रारूप फ़ाइल के रूप में निकाल सकते हैं। निष्कर्षण से पहले, यह आपको एक पृष्ठ श्रेणी भी सेट करने देता है(page range)केवल निर्दिष्ट पृष्ठों से तालिकाएँ निकालने के लिए।
आप इस सॉफ्टवेयर को यहां(here) ले सकते हैं । यह केवल गैर-व्यावसायिक उपयोग के लिए निःशुल्क है(free for non-commercial use) । स्थापना के बाद, इस सॉफ़्टवेयर को चलाएँ और PDF जोड़ने के लिए Open Document विकल्प का उपयोग करें । उसके बाद, डिटेक्ट टेबल्स(Detect tables) टूल पर क्लिक करें जैसा कि ऊपर इमेज में हाइलाइट किया गया है। यह टूल डेटा एक्सट्रैक्शन(Data Extraction) श्रेणी के अंतर्गत मौजूद है ।
यह एक बॉक्स खोलेगा जहाँ आप तालिकाओं का पता लगाने के लिए शर्तें निर्धारित कर सकते हैं। उदाहरण के लिए, आप न्यूनतम संख्या में कॉलम, पंक्तियाँ, तालिकाओं के बीच न्यूनतम लाइन ब्रेक, टेबल डिटेक्शन मोड को बॉर्डर या बॉर्डरलेस टेबल आदि पर सेट कर सकते हैं। विकल्पों का उपयोग करें या डिफ़ॉल्ट सेटिंग्स रखें।
उसके बाद उस बॉक्स में डिटेक्ट नेक्स्ट टेबल(Detect next table) बटन दबाएं। यह वर्तमान पृष्ठ पर एक तालिका की पहचान करेगा और उसका चयन करेगा। इस तरह, आप दूसरे पृष्ठ पर जा सकते हैं और अधिक तालिकाओं का पता लगा सकते हैं।
जब आप कर लें, तो प्रोसीड टू एक्सट्रैक्शन(Proceed to extraction) बटन का उपयोग करें, और आउटपुट स्वरूप का चयन करें। अंत में, आप मौजूदा पेज से टेबल्स को सेव करने या पेज रेंज को परिभाषित करने और आउटपुट को सेव करने के लिए विकल्पों का उपयोग कर सकते हैं।
उपकरण एक संतोषजनक आउटपुट देता है। लेकिन कभी-कभी, यह PDF में अन्य सामग्री का पता लगा सकता है , और हो सकता है कि एकाधिक पृष्ठों से तालिकाओं को निकालने में सक्षम न हो। उस स्थिति में, आपको इसका उपयोग एक-एक करके तालिकाओं को लाने और सहेजने के लिए करना चाहिए।
5] सेजदा पीडीएफ डेस्कटॉप
सेजदा पीडीएफ डेस्कटॉप(Sejda PDF Desktop) भी एक बहुउद्देशीय सॉफ्टवेयर है। यह पीडीएफ को अनुकूलित या संपीड़ित कर सकता है, पीडीएफ(compress PDF) में वॉटरमार्क जोड़ सकता है, पीडीएफ से प्रतिबंध हटा सकता है, (remove restrictions from PDF)पीडीएफ(PDF) दस्तावेज़ संपादित कर सकता है, आदि। हालांकि, इसकी मुफ्त योजना की सीमाएं हैं। फ्री प्लान में रोजाना सिर्फ 3 टास्क ही किए जा सकते हैं। साथ ही, पीडीएफ(PDF) आकार की सीमा 50 एमबी(50 MB) या 10 पेज है(10 pages) ।
आप पीडीएफ(PDF) टेबल निकालने के लिए इसके पीडीएफ से एक्सेल रूपांतरण टूल का उपयोग कर सकते हैं। (PDF to Excel)यह स्वचालित रूप से पीडीएफ(PDF) पृष्ठों में तालिकाओं का पता लगाता है और आपको उन तालिकाओं को XLSX या CSV के रूप में सहेजने देता है ।
इसका डाउनलोड लिंक यहां है(here) । इंस्टालेशन के बाद, इसके मुख्य इंटरफेस से पीडीएफ(PDF) टू एक्सेल टूल का उपयोग करें। (Excel)उस टूल का चयन करने के बाद, PDF फ़ाइलें चुनें(Choose PDF files) बटन का उपयोग करें। फ्री प्लान में केवल एक पीडीएफ(PDF) जोड़ा जा सकता है।
जब पीडीएफ(PDF) जोड़ा जाता है, तो यह पीडीएफ को सीएसवी में कनवर्ट(Convert PDF to CSV) करेगा और पीडीएफ को एक्सेल(Convert PDF to Excel) बटन में कनवर्ट करेगा। एक बटन का उपयोग करें और फिर आप आउटपुट को अपने पीसी पर वांछित स्थान पर सहेज सकते हैं।
इसका पीडीएफ(PDF) टेबल डिटेक्शन टूल अच्छा है। आपको तालिकाओं का मैन्युअल रूप से पता लगाने की आवश्यकता नहीं है। फिर भी, कभी-कभी इसमें अन्य पाठ्य सामग्री को PDF तालिका के रूप में शामिल किया जा सकता है और इसे आउटपुट में संग्रहीत किया जा सकता है। लेकिन कुल मिलाकर परिणाम अच्छे हैं।
बस इतना ही।
पीडीएफ(PDF) से टेबल निकालने के लिए ये कुछ अच्छे टूल हैं । Tabula Software अन्य टूल्स की तुलना में अधिक प्रभावी है। फिर भी, आप सभी टूल्स को आजमा सकते हैं और जांच सकते हैं कि कौन सा मदद करता है।
इसी तरह पढ़ता है:(Similar reads:)
- पीडीएफ से अटैचमेंट निकालें(Extract attachments from PDF)
- पीडीएफ से हाइलाइट किया गया टेक्स्ट निकालें(Extract highlighted text from PDF) ।
Related posts
दस्तावेज़ कनवर्टर: DOC, PDF, DOCX, RTF, TXT, HTML फ़ाइलों को कनवर्ट करें
पीपीएस फाइल क्या है? विंडोज 11/10 में पीपीएस को पीडीएफ में कैसे बदलें?
विंडोज 11/10 में फाइल को एडिट या सेव करते समय पीडीएफ टेक्स्ट गायब हो जाता है
सर्वश्रेष्ठ मुफ्त पीडीएफ संपादक ऑनलाइन उपकरण जो क्लाउड-आधारित हैं
पीडीएफ फाइलों को संपादित करने के लिए मुफ्त पीडीएफ संपादक ऑनलाइन टूल - पीडीएफ हाँ
सर्वश्रेष्ठ पीडीएफ वर्ड काउंटर सॉफ्टवेयर और ऑनलाइन टूल
विंडोज 11/10 में पीडीएफ फाइल का आकार अनुकूलित, संपीड़ित और कम करें
प्राइमा रैपिड इमेज व्यूअर के माध्यम से छवियों और पीडीएफ दस्तावेज़ों को शीघ्रता से देखें
विंडोज 10 में ड्रैग एंड ड्रॉप के साथ टेक्स्ट को पीडीएफ में कैसे बदलें
जेपीजी फाइल को पीडीएफ ऑनलाइन में मुफ्त में बदलें
क्रोम या फायरफॉक्स में वेबपेजों को पीडीएफ के रूप में कैसे सेव करें
विंडोज़ में पीडीएफ दस्तावेज़ को मल्टीपेज टीआईएफएफ छवि में कैसे परिवर्तित करें
पीडीएफ 24 क्रिएटर पीडीएफ फाइलों को बनाने, बदलने, मर्ज करने के लिए एक मुफ्त पीडीएफ क्रिएटर है
PDF, HTML, PPT, आदि की तुलना करें। इन निःशुल्क टूल का उपयोग करके दस्तावेज़ ऑनलाइन करें
Google Chrome PDF व्यूअर में PDF के लिए दो-पृष्ठ दृश्य मोड सक्षम करें
पीडीएफ लिंक संपादक के साथ पीडीएफ फाइलों में हाइपरलिंक जोड़ें, हटाएं या संपादित करें
विंडोज 10 पर पीडीएफ को MOBI में कैसे बदलें
विंडोज 10 में पीडीएफ फाइल का आकार कम करने के लिए मुफ्त पीडीएफ कंप्रेसर
लिब्रे ऑफिस के साथ पीडीएफ दस्तावेजों को पासवर्ड-सुरक्षित और सुरक्षित कैसे करें
मुफ्त पीडीएफ रीडेक्शन सॉफ्टवेयर और सेवाओं का उपयोग करके पीडीएफ को संशोधित करें