एक पीडीएफ दस्तावेज है जिसे आप सभी पाठों को निकालना चाहते हैं? स्कैन किए गए दस्तावेज़ की छवि फ़ाइलों के बारे में क्या आप संपादन योग्य पाठ में कनवर्ट करना चाहते हैं? फाइलों के साथ काम करते समय मैंने कार्यस्थल पर देखा कुछ सबसे आम मुद्दे हैं।
इस आलेख में, मैं पीडीएफ से टेक्स्ट निकालने की कोशिश करने के बारे में कई अलग-अलग तरीकों से बात करूंगा या एक छवि से। आपके निष्कर्षण परिणाम पीडीएफ या छवि में पाठ के प्रकार और गुणवत्ता के आधार पर अलग-अलग होंगे। साथ ही, आपके परिणाम आपके द्वारा उपयोग किए जाने वाले टूल के आधार पर अलग-अलग होंगे, इसलिए सर्वोत्तम परिणामों को प्राप्त करने के लिए जितना संभव हो सके नीचे दिए गए विकल्पों में से अधिकांश को आज़माएं।
छवि या पीडीएफ से टेक्स्ट निकालें
शुरू करने का सबसे आसान और तेज़ तरीका ऑनलाइन पीडीएफ टेक्स्ट एक्स्ट्रैक्टर सेवा का प्रयास करना है। ये आम तौर पर नि: शुल्क होते हैं और आप जो भी खोज रहे हैं उसे अपने कंप्यूटर पर कुछ भी इंस्टॉल किए बिना दे सकते हैं। यहां दो हैं जिन्हें मैंने उत्कृष्ट परिणामों के साथ बहुत अच्छा उपयोग किया है:
निकालें पीडीएफ
1एस>एक पीडीएफ फ़ाइल से छवियों, पाठ और फोंट को पकड़ने के लिए एक नि: शुल्क उपकरण है। एकमात्र सीमा यह है कि पीडीएफ फाइल के लिए अधिकतम आकार 10 एमबी है। यह थोड़ा छोटा है; इसलिए यदि आपके पास एक बड़ी फ़ाइल है, तो नीचे दी गई कुछ अन्य विधियों को आजमाएं। अपनी फ़ाइल चुनें और फिर फ़ाइल भेजेंबटन क्लिक करें। परिणाम सामान्य रूप से बहुत तेज़ होते हैं और जब आप टेक्स्ट टैब पर क्लिक करते हैं तो आपको टेक्स्ट का पूर्वावलोकन देखना चाहिए।
यह भी एक अच्छा है अतिरिक्त लाभ यह है कि यह पीडीएफ फ़ाइल से छवियों को भी निकाल देता है, बस अगर आपको उनकी ज़रूरत है! कुल मिलाकर, ऑनलाइन उपकरण बहुत अच्छा काम करता है, लेकिन मैंने कुछ पीडीएफ दस्तावेज़ों में भाग लिया है जो मुझे मजाकिया आउटपुट देते हैं। पाठ ठीक से निकाला गया है, लेकिन किसी कारण से प्रत्येक शब्द के बाद एक लाइन ब्रेक होगा! एक छोटी पीडीएफ फ़ाइल के लिए कोई बड़ी समस्या नहीं है, लेकिन निश्चित रूप से बहुत सारे टेक्स्ट वाले फाइलों के लिए एक मुद्दा है। यदि ऐसा होता है, तो अगला टूल आज़माएं।
ऑनलाइन ओसीआर
ऑनलाइन ओसीआर आम तौर पर उन दस्तावेज़ों के लिए काम करने के लिए प्रतिबद्ध होता है जो एक्स्ट्रेक्ट पीडीएफ के साथ ठीक से परिवर्तित नहीं होते हैं , इसलिए यह देखने का अच्छा विचार है कि दोनों सेवाओं को बेहतर तरीके से आउटपुट देने के लिए दोनों सेवाओं को आजमाएं। ऑनलाइन ओसीआर में कुछ अच्छी विशेषताएं भी हैं जो बड़ी पीडीएफ फाइल वाले किसी के लिए आसान साबित हो सकती हैं, जिसे पूरे दस्तावेज़ की बजाय कुछ पृष्ठों पर टेक्स्ट को कन्वर्ट करने की आवश्यकता होती है।
पहली चीज़ जो आप करना चाहते हैं आगे और एक मुफ्त खाता बनाएँ। यह थोड़ा परेशान है, लेकिन यदि आप मुफ्त खाता नहीं बनाते हैं, तो यह पूरे दस्तावेज़ की बजाय केवल आपके पीडीएफ को आंशिक रूप से परिवर्तित करेगा। इसके अलावा, केवल 5 एमबी दस्तावेज़ अपलोड करने में सक्षम होने के बजाय, आप एक खाते के साथ प्रति फ़ाइल 100MB तक अपलोड कर सकते हैं।
पहले , एक भाषा चुनें और फिर परिवर्तित प्रारूप के लिए इच्छित आउटपुट प्रारूपों का प्रकार चुनें। आपके पास कुछ विकल्प हैं और यदि आप चाहें तो आप एक से अधिक चुन सकते हैं। मल्टीपाज दस्तावेज़के अंतर्गत, आप पृष्ठ संख्याका चयन कर सकते हैं और फिर केवल वे पृष्ठ चुनें जिन्हें आप कनवर्ट करना चाहते हैं। फिर आप फ़ाइल का चयन करें और कनवर्ट करेंक्लिक करें!
रूपांतरण के बाद, आपको दस्तावेज़ अनुभाग में लाया जाएगा (यदि आप लॉग इन हैं) जहां आप देख सकते हैं कि आपने कितने उपलब्ध मुफ्त पृष्ठ छोड़े हैं और आपकी रूपांतरित फ़ाइलों को डाउनलोड करने के लिए लिंक। ऐसा लगता है कि आपके पास केवल एक दिन में केवल 25 पेज हैं, इसलिए यदि आपको उससे अधिक की आवश्यकता है, तो आपको या तो थोड़ा इंतजार करना होगा या अधिक पेज खरीदना होगा।
ऑनलाइन ओसीआर ने कनवर्ट करने का उत्कृष्ट काम किया मेरे पीडीएफ क्योंकि यह पाठ के वास्तविक लेआउट को बनाए रखने में सक्षम था। मेरे परीक्षण में, मैंने एक वर्ड डॉक लिया जो बुलेट, विभिन्न फ़ॉन्ट आकार इत्यादि का इस्तेमाल करता था और इसे पीडीएफ में परिवर्तित करता था। फिर मैंने ऑनलाइन ओसीआर का इस्तेमाल इसे वर्ड फॉर्मेट में बदलने के लिए किया और यह लगभग 9 5% मूल के समान था। यह मेरे लिए बहुत प्रभावशाली है।
प्लस, यदि आप किसी छवि को टेक्स्ट में कनवर्ट करना चाहते हैं, तो ऑनलाइन ओसीआर पीडीएफ फाइलों से पाठ निकालने के जितना आसानी से कर सकता है।
नि: शुल्क ऑनलाइन ओसीआर
चूंकि टेक्स्ट ओसीआर को छवि के बारे में बात कर रहे थे, तो मुझे एक और अच्छी वेबसाइट का उल्लेख करने दें जो छवियों पर वास्तव में अच्छी तरह से काम करता है। Free ऑनलाइन ओसीआर मेरी टेस्ट छवियों से पाठ निकालने पर बहुत अच्छा और बहुत सटीक था। मैंने पुस्तकों, पुस्तिकाओं आदि से पृष्ठों के अपने आईफोन से कुछ तस्वीरें लीं और मुझे आश्चर्य हुआ कि यह टेक्स्ट को कन्वर्ट करने में कितना अच्छा था।
अपनी फ़ाइल चुनें और फिर अपलोड बटन पर क्लिक करें। अगली स्क्रीन पर, कुछ विकल्प और छवि का पूर्वावलोकन हैं। यदि आप पूरी चीज को ओसीआर नहीं करना चाहते हैं तो आप इसे फसल कर सकते हैं। फिर बस ओसीआर बटन पर क्लिक करें और आपका परिवर्तित टेक्स्ट छवि पूर्वावलोकन के नीचे दिखाई देगा। इसमें कोई सीमा नहीं है, जो वास्तव में अच्छा है।
ऑनलाइन सेवाओं के अतिरिक्त, दो फ्रीवेयर पीडीएफ कनवर्टर्स हैं जिन्हें मैं आपके कंप्यूटर पर स्थानीय रूप से चलने वाले सॉफ़्टवेयर की आवश्यकता होने पर उल्लेख करना चाहता हूं रूपांतरण ऑनलाइन सेवाओं के साथ, आपको हमेशा एक इंटरनेट कनेक्शन की आवश्यकता होगी और यह हर किसी के लिए संभव नहीं हो सकता है। हालांकि, मैंने देखा कि फ्रीवेयर कार्यक्रमों से रूपांतरण की गुणवत्ता वेबसाइटों की तुलना में काफी खराब थी।
ए-पीडीएफ टेक्स्ट एक्स्ट्रैक्टर
ए-पीडीएफ पाठ निकालने वाला फ्रीवेयर है जो पीडीएफ फाइलों से पाठ निकालने का काफी अच्छा काम करता है। एक बार जब आप इसे डाउनलोड कर लें और इंस्टॉल करें, तो अपनी पीडीएफ फाइल चुनने के लिए ओपन बटन पर क्लिक करें। फिर प्रक्रिया शुरू करने के लिए टेक्स्ट निकालें क्लिक करें।
यह आपको टेक्स्ट आउटपुट फ़ाइल को स्टोर करने के लिए एक स्थान पूछेगा और फिर यह निकालने शुरू हो जाएगा । आप विकल्पबटन पर भी क्लिक कर सकते हैं, जो आपको केवल कुछ पृष्ठों को निकालने और निष्कर्षण प्रकार चुनने देता है। दूसरा विकल्प दिलचस्प है क्योंकि यह विभिन्न लेआउट में टेक्स्ट निकालता है और यह देखने के लायक है कि कौन सा आपको सबसे अच्छा आउटपुट देता है।
PDF2Text पायलट
10 एस>पाठ निकालने का एक अच्छा काम करता है। इसमें कोई विकल्प नहीं है; आप बस फाइलें या फ़ोल्डर्स जोड़ते हैं, कन्वर्ट करते हैं और सर्वश्रेष्ठ के लिए आशा करते हैं। यह कुछ पीडीएफ पर अच्छा काम करता था, लेकिन उनमें से अधिकांश के लिए, कई मुद्दे थे।
बस फ़ाइलें जोड़ें पर क्लिक करें और फिर कन्वर्ट। एक बार रूपांतरण पूरा होने के बाद, फ़ाइल खोलने के लिए ब्राउज़ पर क्लिक करें। आप इस कार्यक्रम का उपयोग करके माइलेज अलग-अलग होंगे, इसलिए ज्यादा उम्मीद न करें।
इसके अलावा, यह उल्लेखनीय है कि यदि आप कॉर्पोरेट वातावरण में हैं या काम से एडोब एक्रोबैट की एक प्रति पर अपना हाथ प्राप्त कर सकते हैं, तो आप वास्तव में बहुत बेहतर परिणाम प्राप्त कर सकते हैं। एक्रोबैट स्पष्ट रूप से मुफ़्त नहीं है, लेकिन इसमें पीडीएफ को वर्ड, एक्सेल और एचटीएमएल प्रारूप में बदलने के विकल्प हैं। यह मूल दस्तावेज़ की संरचना को बनाए रखने और जटिल पाठ को परिवर्तित करने का सबसे अच्छा काम भी करता है।