Semalt विशेषज्ञ बाट क्रोम वेब स्क्रैपर ट्यूटोरियल

यदि तपाईं गुगल क्रोम प्रयोग गर्दै हुनुहुन्छ भने, तपाईंको ब्राउजरको लागि एक एक्स्टेन्सन छ जसले वेब पृष्ठहरूलाई स्क्र्याप गर्न मद्दत गर्दछ। यो '' Scrapper, '' को रूपमा जानिन्छ र यो समस्या बिना प्रयोग गर्न सकिन्छ। स्क्र्यापरले एक वेबसाइट सामग्री स्क्र्याप गर्न र गुगल कागजातमा परिणामहरू अपलोड गर्न मद्दत गर्दछ।

कसरी स्क्र्यापर विस्तार प्रयोग गरी वेबसाइटलाई स्क्र्याप गर्ने?

१. गुगल क्रोममा क्रोम वेब स्टोर चयन गर्नुहोस्;

२. विस्तारमा, '' स्क्र्यापर '' को लागि खोजी गर्नुहोस्;

First. पहिलो खोजी परिणाम '' Scrapper '' को रूपमा परिचित विस्तार हो;

Listed. 'Chrome मा थप्नुहोस्' को रूपमा सूचीबद्ध बटन चयन गर्नुहोस्;

The. बेलायतका सांसदहरूको सूचीमा फर्कनुहोस्;

The. निम्न लिंकमा क्लिक गर्नुहोस् ;

Now. अब एक सांसद खोज्नुहोस् र प्रविष्टि चिह्नित भएको निश्चित गर्नुहोस्;

Right. "Scrape समान ..." विकल्प छनौट गर्न दायाँ क्लिक गर्नुहोस्;

Sc। स्क्र्यापरको लागि कन्सोलले अर्को विन्डोमा पप अप गर्दछ;

१०. स्क्र्यापर कन्सोलमा स्क्र्याप गरिएको सामग्री हेर्नुहोस्;

११. सामग्रीलाई गुगल स्प्रिडशिटको रूपमा सुरक्षित गरिएको सुनिश्चित गर्नका लागि "Google कागजातमा बचत गर्नुहोस् ..." चयन गर्नुहोस्।

विस्तारित स्क्र्यापिंग

यस विधिमा चिपल्नु अघि यो HTML को मूल कुरा बुझ्न उपयोगी छ। उदाहरण को लागी, तपाईं यो लिंक को माध्यम बाट HTML को छोटो परिचय पढ्न सक्नुहुन्छ

कल्पना गर्नुहोस् हामी सबै फिल्महरूमा चासो राख्छौं जुन एक प्रसिद्ध इटालियन अभिनेत्री एशिया अर्जेन्टो तारांकित।

१. आईएमडीबी मा कलाकारहरूको एक धेरै विस्तृत संग्रह छ। एसिया एरजेन्टो साइट हो: http://www.imdb.com/name/nm0000782/;

२. यहाँ, तपाईं अभिनेत्री द्वारा खेलेका सबै भूमिकाहरू हेर्न सक्नुहुन्छ। हामीलाइ रूचि राख्ने जानकारीलाई स्क्र्यापि begin सुरु गरौं;

It. यसलाई माथि वर्णन गरिए अनुसार स्क्रॅप गर्ने प्रयास गर्नुहोस्;

You. तपाईले देख्नुहुनेछ कि सूची अलि विकृत छ। यो तथ्यलाई कारण छ कि यहाँ सूची फरक ढ can्गले संरचना गर्न सकिन्छ;

The. स्क्र्यापर कन्सोलमा जानुहोस्। माथि बायाँ, तपाईं सानो बक्स देख्नुहुनेछ जुन XPath भन्दै;

X. Xpath क्वेरी भाषाको एक प्रकार हो जुन XML र HTML को लागि काम गर्दछ;

X. एक्सपाठले तपाईलाई रूची भएको पृष्ठका अंशहरू पत्ता लगाउन मद्दत पुर्‍याउँछ। अर्को कुरा भनेको उपयुक्त तत्व फेला पार्नुहोस् र यसका लागि XPath लेख्नुहोस्;

Let's. अब हामी हाम्रो टेबल को व्यवस्था;

You। तपाईले देख्नुहुनेछ कि हाम्रो अवस्थित XPath, जसमा सबै डाटा आवश्यक छ "// div []] / div []] / div [२] / div";

१०. एक्सपाथले प्रणालीलाई HTML कागजात अवलोकन गर्न र तेस्रो तत्व छनौट गर्न, त्यसपछि दोस्रो तत्त्व र सबै सबैलाई सूचित गर्दछ;

११. तर, हामी हाम्रो डेटा अलग गर्न चाहन्छौं;

१२. स्क्र्यापरको लागि कन्सोलमा स्तम्भ सेक्सन प्रयोग गर्नुहोस्।

१.. आउनुहोस् पहिले हाम्रो शीर्षक फेला पार्नुहोस् – शीर्षक अवलोकन गर्न एलिमेन्ट निरीक्षण प्रयोग गर्नुहोस्;

१.. ट्याग भित्र शीर्षक जाँच गर्नुहोस्। XPath मा ट्याग थप्नुहोस्;

१.. अभिव्यक्ति उचित रूपमा कार्य गरेको देखिन्छ, त्यसैले यसलाई हाम्रो पहिलो स्तम्भ बनाउनुहोस्;

१.. सेक्सन "स्तम्भहरू" मा, पहिलो स्तम्भको नाम "शीर्षक" मा बदल्नुहोस्;

१.. यसमा XPath जोड्नुहोस्;

१.. स्तम्भ सेक्सनमा, XPaths सापेक्ष छन् र यसको मतलब यो हो कि "./b" <b> तत्व छनौट गर्दछ।

१।। शीर्षक स्तम्भको लागि XPath मा, "./b" थप्नुहोस् र "स्क्र्याप" चयन गर्नुहोस्;

२०. अब एक बर्ष लागिरहौं। वर्षहरू एक अवधिमा फेला पार्न सकिन्छ;

२१. तपाइँको शीर्षकको लागि स्तम्भको छेउमा सानो प्लस चयन गरेर नयाँ स्तम्भ सिर्जना गर्नुहोस्;

22. XPath "./span" प्रयोग गर्दै "वर्ष" का लागि स्तम्भ सिर्जना गर्नुहोस्;

२.. स्क्र्याप क्लिक गर्नुहोस् र हेर्नुहोस् कसरी वर्ष थपियो;

२.. भयो!

mass gmail