ईमेल विपणन और स्वचालनविपणन के साधन

कैसे एक बड़ी साइट क्रॉल करने के लिए और चीखना मेंढक के एसईओ स्पाइडर का उपयोग करके डेटा निकालें

हम अभी मार्केटो माइग्रेशन के साथ कई ग्राहकों की सहायता कर रहे हैं। चूंकि बड़ी कंपनियां इस तरह के एंटरप्राइज़ समाधानों का उपयोग करती हैं, यह एक मकड़ी के जाल की तरह है जो वर्षों तक प्रक्रियाओं और प्लेटफार्मों में खुद को बुनता है जब तक कि कंपनियों को हर टचप्वाइंट के बारे में पता भी नहीं चलता है।

मार्केटो जैसे एंटरप्राइज मार्केटिंग ऑटोमेशन प्लेटफॉर्म के साथ, फॉर्म सभी साइटों और लैंडिंग पृष्ठों पर डेटा का प्रवेश बिंदु हैं। कंपनियों के पास अक्सर अपनी साइटों पर हजारों पेज और सैकड़ों फॉर्म होते हैं जिन्हें अद्यतन करने के लिए पहचाना जाना चाहिए।

इसके लिए एक बढ़िया टूल है फ्रॉगिंग एसईओ स्पाइडर... किसी साइट से डेटा क्रॉल करने, ऑडिट करने और निकालने के लिए एसईओ बाज़ार में शायद सबसे लोकप्रिय प्लेटफ़ॉर्म। सुविधा संपन्न प्लेटफ़ॉर्म आपके लिए आवश्यक लगभग हर कार्य के लिए सैकड़ों विकल्प प्रदान करता है। हालाँकि, सुविधाएँ खोज के लिए अनुकूलन से कहीं आगे तक फैली हुई हैं, आपकी साइट को क्रॉल करते समय डेटा निकालने के लिए एक अविश्वसनीय रूप से सहायक सुविधा के साथ।

चीखना मेंढक एसईओ मकड़ी: क्रॉल और निकालें

फ्रॉगिंग एसईओ स्पाइडर की एक प्रमुख विशेषता यह है कि आप इसके आधार पर कस्टम एक्सट्रैक्ट कर सकते हैं regex, एक्सपाथया, सीएसएसपाथ विशेष. यह बेहद उपयोगी है क्योंकि हम क्लाइंट की साइटों को क्रॉल करना चाहते हैं और पृष्ठों से मंचकिनआईडी और फॉर्मआईडी मानों का ऑडिट और कैप्चर करना चाहते हैं।

उपकरण के साथ, खोलें कॉन्फ़िगरेशन> कस्टम> निष्कर्षण उन तत्वों की पहचान करने के लिए जिन्हें आप निकालना चाहते हैं।

screamingfrog कस्टम निष्कर्षण

निष्कर्षण स्क्रीन लगभग असीमित डेटा संग्रह के लिए अनुमति देता है:

चीखना मेंढक एसईओ स्पाइडर एक्सट्रैक्शन नियम

रेगेक्स, XPath, और CSSPath एक्सट्रैक्शन

मंचकिनआईडी के लिए, पहचानकर्ता पृष्ठ पर मौजूद फॉर्म स्क्रिप्ट के भीतर स्थित है:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

हम फिर आवेदन करते हैं रेगेक्स नियम पृष्ठ में डाली गई स्क्रिप्ट टैग के भीतर से आईडी पर कब्जा करने के लिए:

Regex: ["']id["']: *["'](.*?)["']

फॉर्म आईडी के लिए, डेटा मार्केटो फॉर्म में एक इनपुट टैग में है:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

हम एक लागू करते हैं XPath नियम पेज में डाले गए फॉर्म के भीतर से आईडी कैप्चर करने के लिए। XPath क्वेरी नाम वाले इनपुट वाले फॉर्म की तलाश करती है रूप में, तो निष्कर्षण बचाता है मूल्य:

XPath: //form/input[@name="formid"]/@value

इनलाइन स्टाइल टैग निकालें

हम एक ग्राहक को उस साइट को साफ करने में मदद कर रहे हैं जहां उन्होंने पेज के साथ लगभग हर तत्व को अनुकूलित करने के लिए एलिमेंटर प्लगइन पर इनलाइन शैलियों का उपयोग किया था। यह पहचानने के लिए कि इनलाइन शैलियों का उपयोग कहाँ किया गया था, हमने कस्टम निष्कर्षण के लिए कई रेगेक्स नियमों के साथ साइट को खंगाला:

  • स्पैन इनलाइन स्टाइल:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • एंकर टैग इनलाइन स्टाइल:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • डिव टैग इनलाइन शैली:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • शीर्षक टैग इनलाइन शैली:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

बहिष्करण

At Martech Zone, हम विभिन्न उपडोमेन पर कई भाषाओं में साइट परोसते हैं। इन अनुवादों को क्रॉल करना आवश्यक नहीं है क्योंकि सभी संपत्तियां और जानकारी मुख्य साइट पर आधारित हैं। इस वजह से, हमने बहिष्कृत सूची कॉन्फ़िगरेशन को सक्षम किया और निम्नलिखित नियम जोड़ा:

.*\.martech.zone

आप इसे जोड़कर टैग जैसे अनावश्यक पथों को क्रॉल करने के लिए भी उपयोग कर सकते हैं:

martech.zone/tag/.*

हम अपने एएमपी पेजों को भी क्रॉल नहीं करना चाहते, जो अंत में होते हैं ?amp=1, तो में

कॉन्फ़िगरेशन > बहिष्कृत करें अनुभाग, हमने यह भी जोड़ा है:

https?://[^\s]+?\?amp=1

मंच के पास कुछ परीक्षण करने का एक अच्छा तरीका भी है URLs यह सुनिश्चित करने के लिए कि आपकी साइट क्रॉल करने से पहले वे ठीक से काम करते हैं, नियमों के विरुद्ध है।

स्क्रीमिंगफ्रॉग > कॉन्फ़िगरेशन > बहिष्कृत करें

स्क्रीमिंग फ्रॉग एसईओ स्पाइडर जावास्क्रिप्ट रेंडरिंग

स्क्रीमिंग फ्रॉग का एक और बढ़िया विकल्प यह है कि आप इन तक ही सीमित नहीं हैं एचटीएमएल पेज में, आप किसी भी जावास्क्रिप्ट को रेंडर कर सकते हैं जो आपकी साइट के भीतर फॉर्म डालने जा रहा है। अंदर विन्यास> मकड़ी, आप रेंडरिंग टैब पर जा सकते हैं और इसे सक्षम कर सकते हैं।

स्क्रीमिंग फ्रॉग एसईओ स्पाइडर जावास्क्रिप्ट रेंडरिंग

यह साइट को क्रॉल करने में थोड़ा अधिक समय लेता है, लेकिन निश्चित रूप से आपको ऐसे फॉर्म मिलेंगे जो क्लाइंट-साइड जावास्क्रिप्ट द्वारा प्रदान किए जाते हैं और साथ ही ऐसे फॉर्म भी डाले जाते हैं जो सर्वर-साइड डाले जाते हैं।

हालांकि यह एक बहुत ही विशिष्ट अनुप्रयोग है, यह एक अविश्वसनीय रूप से उपयोगी है क्योंकि आप बड़ी साइटों के साथ काम कर रहे हैं। आप पूरी तरह से ऑडिट करना चाहेंगे कि आपके फॉर्म पूरी साइट पर कहाँ हैं।

डाउनलोड चीखना मेंढक एसईओ स्पाइडर

प्रकटीकरण: Martech Zone इस लेख में अपने सहबद्ध लिंक का उपयोग कर रहा है।

Douglas Karr

Douglas Karr के सीएमओ हैं खुली अंतर्दृष्टि और के संस्थापक Martech Zone. डगलस ने दर्जनों सफल मार्टेक स्टार्टअप्स की मदद की है, मार्टेक अधिग्रहणों और निवेशों में $5 बिलियन से अधिक की उचित परिश्रम में सहायता की है, और कंपनियों को उनकी बिक्री और विपणन रणनीतियों को लागू करने और स्वचालित करने में सहायता करना जारी रखा है। डगलस एक अंतरराष्ट्रीय स्तर पर मान्यता प्राप्त डिजिटल परिवर्तन और मार्टेक विशेषज्ञ और वक्ता हैं। डगलस डमी गाइड और बिजनेस लीडरशिप पुस्तक के प्रकाशित लेखक भी हैं।

संबंधित आलेख

शीर्ष पर वापस करने के लिए बटन
समापन

पता लगाया गया

Martech Zone आपको यह सामग्री बिना किसी लागत के प्रदान करने में सक्षम है क्योंकि हम विज्ञापन राजस्व, संबद्ध लिंक और प्रायोजन के माध्यम से अपनी साइट से कमाई करते हैं। यदि आप हमारी साइट देखते समय अपना विज्ञापन अवरोधक हटा देंगे तो हम आभारी होंगे।