पीडीएफ और छवि फ़ाइलों से पाठ निकालें


एक पीडीएफ दस्तावेज है जिसे आप सभी पाठों को निकालना चाहते हैं? स्कैन किए गए दस्तावेज़ की छवि फ़ाइलों के बारे में क्या आप संपादन योग्य पाठ में कनवर्ट करना चाहते हैं? फाइलों के साथ काम करते समय मैंने कार्यस्थल पर देखा कुछ सबसे आम मुद्दे हैं।

इस आलेख में, मैं पीडीएफ से टेक्स्ट निकालने की कोशिश करने के बारे में कई अलग-अलग तरीकों से बात करूंगा या एक छवि से। आपके निष्कर्षण परिणाम पीडीएफ या छवि में पाठ के प्रकार और गुणवत्ता के आधार पर अलग-अलग होंगे। साथ ही, आपके परिणाम आपके द्वारा उपयोग किए जाने वाले टूल के आधार पर अलग-अलग होंगे, इसलिए सर्वोत्तम परिणामों को प्राप्त करने के लिए जितना संभव हो सके नीचे दिए गए विकल्पों में से अधिकांश को आज़माएं।

छवि या पीडीएफ से टेक्स्ट निकालें

शुरू करने का सबसे आसान और तेज़ तरीका ऑनलाइन पीडीएफ टेक्स्ट एक्स्ट्रैक्टर सेवा का प्रयास करना है। ये आम तौर पर नि: शुल्क होते हैं और आप जो भी खोज रहे हैं उसे अपने कंप्यूटर पर कुछ भी इंस्टॉल किए बिना दे सकते हैं। यहां दो हैं जिन्हें मैंने उत्कृष्ट परिणामों के साथ बहुत अच्छा उपयोग किया है:

निकालें पीडीएफ

extractpdf

1एक पीडीएफ फ़ाइल से छवियों, पाठ और फोंट को पकड़ने के लिए एक नि: शुल्क उपकरण है। एकमात्र सीमा यह है कि पीडीएफ फाइल के लिए अधिकतम आकार 10 एमबी है। यह थोड़ा छोटा है; इसलिए यदि आपके पास एक बड़ी फ़ाइल है, तो नीचे दी गई कुछ अन्य विधियों को आजमाएं। अपनी फ़ाइल चुनें और फिर फ़ाइल भेजेंबटन क्लिक करें। परिणाम सामान्य रूप से बहुत तेज़ होते हैं और जब आप टेक्स्ट टैब पर क्लिक करते हैं तो आपको टेक्स्ट का पूर्वावलोकन देखना चाहिए।

download text

यह भी एक अच्छा है अतिरिक्त लाभ यह है कि यह पीडीएफ फ़ाइल से छवियों को भी निकाल देता है, बस अगर आपको उनकी ज़रूरत है! कुल मिलाकर, ऑनलाइन उपकरण बहुत अच्छा काम करता है, लेकिन मैंने कुछ पीडीएफ दस्तावेज़ों में भाग लिया है जो मुझे मजाकिया आउटपुट देते हैं। पाठ ठीक से निकाला गया है, लेकिन किसी कारण से प्रत्येक शब्द के बाद एक लाइन ब्रेक होगा! एक छोटी पीडीएफ फ़ाइल के लिए कोई बड़ी समस्या नहीं है, लेकिन निश्चित रूप से बहुत सारे टेक्स्ट वाले फाइलों के लिए एक मुद्दा है। यदि ऐसा होता है, तो अगला टूल आज़माएं।

ऑनलाइन ओसीआर

ऑनलाइन ओसीआर आम तौर पर उन दस्तावेज़ों के लिए काम करने के लिए प्रतिबद्ध होता है जो एक्स्ट्रेक्ट पीडीएफ के साथ ठीक से परिवर्तित नहीं होते हैं , इसलिए यह देखने का अच्छा विचार है कि दोनों सेवाओं को बेहतर तरीके से आउटपुट देने के लिए दोनों सेवाओं को आजमाएं। ऑनलाइन ओसीआर में कुछ अच्छी विशेषताएं भी हैं जो बड़ी पीडीएफ फाइल वाले किसी के लिए आसान साबित हो सकती हैं, जिसे पूरे दस्तावेज़ की बजाय कुछ पृष्ठों पर टेक्स्ट को कन्वर्ट करने की आवश्यकता होती है।

पहली चीज़ जो आप करना चाहते हैं आगे और एक मुफ्त खाता बनाएँ। यह थोड़ा परेशान है, लेकिन यदि आप मुफ्त खाता नहीं बनाते हैं, तो यह पूरे दस्तावेज़ की बजाय केवल आपके पीडीएफ को आंशिक रूप से परिवर्तित करेगा। इसके अलावा, केवल 5 एमबी दस्तावेज़ अपलोड करने में सक्षम होने के बजाय, आप एक खाते के साथ प्रति फ़ाइल 100MB तक अपलोड कर सकते हैं।

online ocr

पहले , एक भाषा चुनें और फिर परिवर्तित प्रारूप के लिए इच्छित आउटपुट प्रारूपों का प्रकार चुनें। आपके पास कुछ विकल्प हैं और यदि आप चाहें तो आप एक से अधिक चुन सकते हैं। मल्टीपाज दस्तावेज़के अंतर्गत, आप पृष्ठ संख्याका चयन कर सकते हैं और फिर केवल वे पृष्ठ चुनें जिन्हें आप कनवर्ट करना चाहते हैं। फिर आप फ़ाइल का चयन करें और कनवर्ट करेंक्लिक करें!

online ocr docs

रूपांतरण के बाद, आपको दस्तावेज़ अनुभाग में लाया जाएगा (यदि आप लॉग इन हैं) जहां आप देख सकते हैं कि आपने कितने उपलब्ध मुफ्त पृष्ठ छोड़े हैं और आपकी रूपांतरित फ़ाइलों को डाउनलोड करने के लिए लिंक। ऐसा लगता है कि आपके पास केवल एक दिन में केवल 25 पेज हैं, इसलिए यदि आपको उससे अधिक की आवश्यकता है, तो आपको या तो थोड़ा इंतजार करना होगा या अधिक पेज खरीदना होगा।

ऑनलाइन ओसीआर ने कनवर्ट करने का उत्कृष्ट काम किया मेरे पीडीएफ क्योंकि यह पाठ के वास्तविक लेआउट को बनाए रखने में सक्षम था। मेरे परीक्षण में, मैंने एक वर्ड डॉक लिया जो बुलेट, विभिन्न फ़ॉन्ट आकार इत्यादि का इस्तेमाल करता था और इसे पीडीएफ में परिवर्तित करता था। फिर मैंने ऑनलाइन ओसीआर का इस्तेमाल इसे वर्ड फॉर्मेट में बदलने के लिए किया और यह लगभग 9 5% मूल के समान था। यह मेरे लिए बहुत प्रभावशाली है।

प्लस, यदि आप किसी छवि को टेक्स्ट में कनवर्ट करना चाहते हैं, तो ऑनलाइन ओसीआर पीडीएफ फाइलों से पाठ निकालने के जितना आसानी से कर सकता है।

नि: शुल्क ऑनलाइन ओसीआर

चूंकि टेक्स्ट ओसीआर को छवि के बारे में बात कर रहे थे, तो मुझे एक और अच्छी वेबसाइट का उल्लेख करने दें जो छवियों पर वास्तव में अच्छी तरह से काम करता है। Free ऑनलाइन ओसीआर मेरी टेस्ट छवियों से पाठ निकालने पर बहुत अच्छा और बहुत सटीक था। मैंने पुस्तकों, पुस्तिकाओं आदि से पृष्ठों के अपने आईफोन से कुछ तस्वीरें लीं और मुझे आश्चर्य हुआ कि यह टेक्स्ट को कन्वर्ट करने में कितना अच्छा था।

free online ocr

अपनी फ़ाइल चुनें और फिर अपलोड बटन पर क्लिक करें। अगली स्क्रीन पर, कुछ विकल्प और छवि का पूर्वावलोकन हैं। यदि आप पूरी चीज को ओसीआर नहीं करना चाहते हैं तो आप इसे फसल कर सकते हैं। फिर बस ओसीआर बटन पर क्लिक करें और आपका परिवर्तित टेक्स्ट छवि पूर्वावलोकन के नीचे दिखाई देगा। इसमें कोई सीमा नहीं है, जो वास्तव में अच्छा है।

ऑनलाइन सेवाओं के अतिरिक्त, दो फ्रीवेयर पीडीएफ कनवर्टर्स हैं जिन्हें मैं आपके कंप्यूटर पर स्थानीय रूप से चलने वाले सॉफ़्टवेयर की आवश्यकता होने पर उल्लेख करना चाहता हूं रूपांतरण ऑनलाइन सेवाओं के साथ, आपको हमेशा एक इंटरनेट कनेक्शन की आवश्यकता होगी और यह हर किसी के लिए संभव नहीं हो सकता है। हालांकि, मैंने देखा कि फ्रीवेयर कार्यक्रमों से रूपांतरण की गुणवत्ता वेबसाइटों की तुलना में काफी खराब थी।

ए-पीडीएफ टेक्स्ट एक्स्ट्रैक्टर

ए-पीडीएफ पाठ निकालने वाला फ्रीवेयर है जो पीडीएफ फाइलों से पाठ निकालने का काफी अच्छा काम करता है। एक बार जब आप इसे डाउनलोड कर लें और इंस्टॉल करें, तो अपनी पीडीएफ फाइल चुनने के लिए ओपन बटन पर क्लिक करें। फिर प्रक्रिया शुरू करने के लिए टेक्स्ट निकालें क्लिक करें।

apdf extractor

यह आपको टेक्स्ट आउटपुट फ़ाइल को स्टोर करने के लिए एक स्थान पूछेगा और फिर यह निकालने शुरू हो जाएगा । आप विकल्पबटन पर भी क्लिक कर सकते हैं, जो आपको केवल कुछ पृष्ठों को निकालने और निष्कर्षण प्रकार चुनने देता है। दूसरा विकल्प दिलचस्प है क्योंकि यह विभिन्न लेआउट में टेक्स्ट निकालता है और यह देखने के लायक है कि कौन सा आपको सबसे अच्छा आउटपुट देता है।

PDF2Text पायलट

10 पाठ निकालने का एक अच्छा काम करता है। इसमें कोई विकल्प नहीं है; आप बस फाइलें या फ़ोल्डर्स जोड़ते हैं, कन्वर्ट करते हैं और सर्वश्रेष्ठ के लिए आशा करते हैं। यह कुछ पीडीएफ पर अच्छा काम करता था, लेकिन उनमें से अधिकांश के लिए, कई मुद्दे थे।

pdf2text

बस फ़ाइलें जोड़ें पर क्लिक करें और फिर कन्वर्ट। एक बार रूपांतरण पूरा होने के बाद, फ़ाइल खोलने के लिए ब्राउज़ पर क्लिक करें। आप इस कार्यक्रम का उपयोग करके माइलेज अलग-अलग होंगे, इसलिए ज्यादा उम्मीद न करें।

इसके अलावा, यह उल्लेखनीय है कि यदि आप कॉर्पोरेट वातावरण में हैं या काम से एडोब एक्रोबैट की एक प्रति पर अपना हाथ प्राप्त कर सकते हैं, तो आप वास्तव में बहुत बेहतर परिणाम प्राप्त कर सकते हैं। एक्रोबैट स्पष्ट रूप से मुफ़्त नहीं है, लेकिन इसमें पीडीएफ को वर्ड, एक्सेल और एचटीएमएल प्रारूप में बदलने के विकल्प हैं। यह मूल दस्तावेज़ की संरचना को बनाए रखने और जटिल पाठ को परिवर्तित करने का सबसे अच्छा काम भी करता है।

How to fix 'Unfortunately app has stopped' errors-'दुर्भाग्य से एप्लिकेशन को बंद कर दिया गया है ?

संबंधित पोस्ट:


13.11.2014