वेब स्क्रैपिंग एक स्वचालित विधि का उपयोग करके वेबसाइट से डेटा, जानकारी या छवियों को निकालने का कार्य है। इसे पूर्ण स्वचालित पर कॉपी और पेस्ट के रूप में सोचें।
हम या तो उन वेबसाइटों पर जाने के लिए एक ऐप लिखते हैं या उपयोग करते हैं जिन्हें हम चाहते हैं और उन वेबसाइटों से विशिष्ट चीज़ों की प्रतिलिपि बनाते हैं जो हम चाहते हैं। यह बहुत अधिक सटीक है एक पूरी वेबसाइट डाउनलोड करना ।
किसी भी उपकरण की तरह, वेब स्क्रैपिंग का उपयोग अच्छे या बुरे के लिए किया जा सकता है। स्क्रैपिंग वेबसाइटों के लिए बेहतर कारणों में से कुछ इसे खोज इंजन में रैंकिंग किया जाएगा। इसकी सामग्री, मूल्य तुलना खरीदारी, या निगरानी बाजार जानकारी के आधार पर। आप इसे एक प्रकार के शोध उपकरण के रूप में भी उपयोग कर सकते हैं।

मैं एक्सेल के साथ वेबसाइटों को कैसे परिमार्जन कर सकता हूं?
मानें या न मानें, एक्सेल में लंबे समय तक डेटाफ्रॉम वेबसाइटों को निकालने की क्षमता है, कम से कम एक्सेल 2003 से। बस इतना ही नहीं webscraping कुछ ऐसा है जिसके बारे में ज्यादातर लोग नहीं सोचते हैं, अकेले ही कार्य करने के लिए एस्क्रेसेट प्रोग्राम का उपयोग करने के बारे में सोचते हैं। लेकिन यह आश्चर्यजनक रूप से आसान है, और शक्तिशाली है। जानें कि यह Microsoft Office के कीबोर्डबोर्ड संग्रह का संग्रह करके कैसे किया जाता है।
उन साइटों को ढूंढें जिन्हें आप स्क्रैप करना चाहते हैं
पहली बात यह है कि जा रहे हैं करने के लिए विशिष्ट वेब पृष्ठों को ढूंढना है जिनसे हम जानकारी प्राप्त करना चाहते हैं। स्रोत पर जाएं और https://support.office.com/ पर खोजें। हम खोज शब्द "अक्सर उपयोग किए जाने वाले शॉर्टकट" का उपयोग करने जा रहे हैं। हम आउटलुक, एक्सेल, वर्ड, आदि जैसे विशिष्ट ऐप के नाम का उपयोग करके इसे और अधिक विशिष्ट बना सकते हैं। परिणाम पृष्ठ को बुकमार्क करना एक अच्छा विचार हो सकता है ताकि हम आसानी से वहां वापस आ सकें।

खोज परिणाम पर क्लिक करें, "Excel forWindows में कीबोर्ड शॉर्टकट"। उस पृष्ठ पर एक बार, एक्सेल संस्करणों की सूची ढूंढें और नए संस्करणपर क्लिक करें। अब हम नवीनतम और महानतम काम कर रहे हैं।
हम अपने खोज परिणाम पृष्ठ पर वापस जा सकते हैं और अपने स्वयं के टैब में अन्य सभी कार्यालय एप्लिकेशन के लिए खुले और उन्हें बुकमार्क कर सकते हैं। यह इस अभ्यास के लिए भी एक अच्छा विचार है। यह वह जगह है जहां ज्यादातर लोग कार्यालय शॉर्टकट को रोकना बंद कर देंगे, लेकिन हमें नहीं। हम उन्हें एक्सेल में रखने जा रहे हैं, इसलिए जब भी हम चाहें उनके साथ वैसा ही करें, हम जब चाहें।
एक्सेल खोलें और स्क्रैप करें
एक्सेल खोलें और एक नई कार्यपुस्तिका प्रारंभ करें। कार्यपुस्तिका को Office शॉर्टकटके रूप में सहेजें। यदि आपके पास OneDrive है, तो उसे वहां सहेजें AutoSaveफ़ीचर काम करें।
कार्यपुस्तिका सहेजे जाने के बाद, डेटाटैबपर क्लिक करें। >

डेटा टैब के रिबन में वेब से।

वेब सेविज़ार्डविंडो खुल जाएगा। यह वह जगह है जहां हम वेबसाइटफ्रेम के वेब पते या URL को डालते हैं जिसे हम डेटा को परिमार्जन करना चाहते हैं। अपने वेब ब्राउज़र और URLकी प्रतिलिपि बनाएं।

URL को में चिपकाएँ URLवेब विज़ार्ड से फ़ील्ड। हम इसका उपयोग मूलया उन्नतमोड में कर सकते हैं। उन्नत मोड हमें वेबसाइट से डेटा का उपयोग करने के लिए बहुत अधिक विकल्प प्रदान करता है। इस अभ्यास के लिए, हमें केवल Basicmode की आवश्यकता है। ठीक।

एक्सेल अब वेबसाइट से जुड़ने का प्रयास करेगा। इसमें कुछ सेकेंड लग सकते हैं। हम एक प्रगति विंडो देखेंगे, अगर ऐसा होता है।
नेविगेटरविंडो खुल जाएगी, और हम बाईं ओर वेबसाइट से तालिकाओं की एक सूची देखेंगे। जब हम एक का चयन करते हैं, तो हम एक तालिका पूर्वावलोकन देखेंगे सही। आइए अक्सर उपयोग किए जाने वाले शॉर्टकटतालिका का चयन करें।

हम वास्तविक वेबसाइट देखने के लिए WebViewटैब पर क्लिक कर सकते हैं, अगर हमें टेबलवे के लिए चारों ओर देखना चाहिए। जब हम इसे ढूंढ लेते हैं, तो हम इस पर क्लिक कर सकते हैं और इसे forimport चुना जाएगा।

अब, हम इस विंडो के निचले भाग में लोडबटन पर क्लिक करते हैं। ऐसे अन्य विकल्प हैं जिन्हें हम चुन सकते हैं, जो अधिक जटिल हैं और हमारे पहले परिमार्जन करने के दायरे से परे हैं। बस बीर है कि वे वहां हैं। एक्सेल की वेब स्क्रैपिंग क्षमताएं बहुत शक्तिशाली हैं।

कुछ सेकंड के बाद वेब टेबल एक्सेल में लोड हो जाएगा। हम बाईं ओर डेटा देखेंगे, जहां संख्या 1नीचे चित्र में है। नंबर 2वेबसाइट से डेटा प्राप्त करने के लिए उपयोग किए जाने वाले क्वेरीको हाइलाइट करता है। जब हमारे पास कार्यपुस्तिका में कई प्रश्न होते हैं, तो यह वह जगह होती है, जिसका हमें उपयोग करने की आवश्यकता होती है।

ध्यान दें कि डेटा एक एक्सेलेबल के रूप में स्प्रेडशीट में आता है। यह पहले से ही हमारे लिए डेटा को फ़िल्टर या सॉर्ट करने में सक्षम होने के लिए सेट है।
हम उन सभी अन्य वेब पेजों के लिए इस प्रक्रिया को दोहरा सकते हैं जो कि हम Office शॉर्टकट्स के लिए चाहते हैं जो हम Outlook, Word, Access, PowerPoint, के लिए चाहते हैं। और किसी भी अन्य कार्यालय ऐप।
एक्सेल में स्क्रेप्ड डेटा करंट को चालू रखना
आपके लिए एक बोनस के रूप में, हम सीखना चाहते हैं कि एक्सेल में usscraped डेटा को कैसे ताज़ा रखें। यह डेटा स्क्रेपिंग के लिए सिर्फ कितना शक्तिशाली एक्सेल है, यह वर्णन करने का एक शानदार तरीका है। यहां तक कि इसके साथ, हम केवल सबसे अधिक स्क्रैपिंग कर रहे हैं जो एक्सेल कर सकता है।
इस उदाहरण के लिए, हम एक स्टॉक जानकारी वेब पेज जैसे https://www.cnbc.com/stocks/ का उपयोग करते हैं। div class = "lazy wp-block-image"><आंकड़ा वर्ग = "lazy aligncenter">