कैसे एक बड़ी साइट क्रॉल करने के लिए और चीखना मेंढक के एसईओ स्पाइडर का उपयोग करके डेटा निकालें
हम अभी मार्केटो माइग्रेशन के साथ कई ग्राहकों की सहायता कर रहे हैं। चूंकि बड़ी कंपनियां इस तरह के एंटरप्राइज़ समाधानों का उपयोग करती हैं, यह एक मकड़ी के जाल की तरह है जो वर्षों तक प्रक्रियाओं और प्लेटफार्मों में खुद को बुनता है जब तक कि कंपनियों को हर टचप्वाइंट के बारे में पता भी नहीं चलता है।
मार्केटो जैसे एंटरप्राइज मार्केटिंग ऑटोमेशन प्लेटफॉर्म के साथ, फॉर्म सभी साइटों और लैंडिंग पृष्ठों पर डेटा का प्रवेश बिंदु हैं। कंपनियों के पास अक्सर अपनी साइटों पर हजारों पेज और सैकड़ों फॉर्म होते हैं जिन्हें अद्यतन करने के लिए पहचाना जाना चाहिए।
इसके लिए एक बढ़िया टूल है फ्रॉगिंग एसईओ स्पाइडर... किसी साइट से डेटा क्रॉल करने, ऑडिट करने और निकालने के लिए एसईओ बाज़ार में शायद सबसे लोकप्रिय प्लेटफ़ॉर्म। सुविधा संपन्न प्लेटफ़ॉर्म आपके लिए आवश्यक लगभग हर कार्य के लिए सैकड़ों विकल्प प्रदान करता है। हालाँकि, सुविधाएँ खोज के लिए अनुकूलन से कहीं आगे तक फैली हुई हैं, आपकी साइट को क्रॉल करते समय डेटा निकालने के लिए एक अविश्वसनीय रूप से सहायक सुविधा के साथ।
चीखना मेंढक एसईओ मकड़ी: क्रॉल और निकालें
फ्रॉगिंग एसईओ स्पाइडर की एक प्रमुख विशेषता यह है कि आप इसके आधार पर कस्टम एक्सट्रैक्ट कर सकते हैं regex, एक्सपाथया, सीएसएसपाथ विशेष. यह बेहद उपयोगी है क्योंकि हम क्लाइंट की साइटों को क्रॉल करना चाहते हैं और पृष्ठों से मंचकिनआईडी और फॉर्मआईडी मानों का ऑडिट और कैप्चर करना चाहते हैं।
उपकरण के साथ, खोलें कॉन्फ़िगरेशन> कस्टम> निष्कर्षण उन तत्वों की पहचान करने के लिए जिन्हें आप निकालना चाहते हैं।
निष्कर्षण स्क्रीन लगभग असीमित डेटा संग्रह के लिए अनुमति देता है:
रेगेक्स, XPath, और CSSPath एक्सट्रैक्शन
मंचकिनआईडी के लिए, पहचानकर्ता पृष्ठ पर मौजूद फॉर्म स्क्रिप्ट के भीतर स्थित है:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
हम फिर आवेदन करते हैं रेगेक्स नियम पृष्ठ में डाली गई स्क्रिप्ट टैग के भीतर से आईडी पर कब्जा करने के लिए:
Regex: ["']id["']: *["'](.*?)["']
फॉर्म आईडी के लिए, डेटा मार्केटो फॉर्म में एक इनपुट टैग में है:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
हम एक लागू करते हैं XPath नियम पेज में डाले गए फॉर्म के भीतर से आईडी कैप्चर करने के लिए। XPath क्वेरी नाम वाले इनपुट वाले फॉर्म की तलाश करती है रूप में, तो निष्कर्षण बचाता है मूल्य:
XPath: //form/input[@name="formid"]/@value
इनलाइन स्टाइल टैग निकालें
हम एक ग्राहक को उस साइट को साफ करने में मदद कर रहे हैं जहां उन्होंने पेज के साथ लगभग हर तत्व को अनुकूलित करने के लिए एलिमेंटर प्लगइन पर इनलाइन शैलियों का उपयोग किया था। यह पहचानने के लिए कि इनलाइन शैलियों का उपयोग कहाँ किया गया था, हमने कस्टम निष्कर्षण के लिए कई रेगेक्स नियमों के साथ साइट को खंगाला:
- स्पैन इनलाइन स्टाइल:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- एंकर टैग इनलाइन स्टाइल:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- डिव टैग इनलाइन शैली:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- शीर्षक टैग इनलाइन शैली:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
बहिष्करण
At Martech Zone, हम विभिन्न उपडोमेन पर कई भाषाओं में साइट परोसते हैं। इन अनुवादों को क्रॉल करना आवश्यक नहीं है क्योंकि सभी संपत्तियां और जानकारी मुख्य साइट पर आधारित हैं। इस वजह से, हमने बहिष्कृत सूची कॉन्फ़िगरेशन को सक्षम किया और निम्नलिखित नियम जोड़ा:
.*\.martech.zone
आप इसे जोड़कर टैग जैसे अनावश्यक पथों को क्रॉल करने के लिए भी उपयोग कर सकते हैं:
martech.zone/tag/.*
हम अपने एएमपी पेजों को भी क्रॉल नहीं करना चाहते, जो अंत में होते हैं ?amp=1
, तो में
https?://[^\s]+?\?amp=1
मंच के पास कुछ परीक्षण करने का एक अच्छा तरीका भी है URLs यह सुनिश्चित करने के लिए कि आपकी साइट क्रॉल करने से पहले वे ठीक से काम करते हैं, नियमों के विरुद्ध है।
स्क्रीमिंग फ्रॉग एसईओ स्पाइडर जावास्क्रिप्ट रेंडरिंग
स्क्रीमिंग फ्रॉग का एक और बढ़िया विकल्प यह है कि आप इन तक ही सीमित नहीं हैं एचटीएमएल पेज में, आप किसी भी जावास्क्रिप्ट को रेंडर कर सकते हैं जो आपकी साइट के भीतर फॉर्म डालने जा रहा है। अंदर विन्यास> मकड़ी, आप रेंडरिंग टैब पर जा सकते हैं और इसे सक्षम कर सकते हैं।
यह साइट को क्रॉल करने में थोड़ा अधिक समय लेता है, लेकिन निश्चित रूप से आपको ऐसे फॉर्म मिलेंगे जो क्लाइंट-साइड जावास्क्रिप्ट द्वारा प्रदान किए जाते हैं और साथ ही ऐसे फॉर्म भी डाले जाते हैं जो सर्वर-साइड डाले जाते हैं।
हालांकि यह एक बहुत ही विशिष्ट अनुप्रयोग है, यह एक अविश्वसनीय रूप से उपयोगी है क्योंकि आप बड़ी साइटों के साथ काम कर रहे हैं। आप पूरी तरह से ऑडिट करना चाहेंगे कि आपके फॉर्म पूरी साइट पर कहाँ हैं।
डाउनलोड चीखना मेंढक एसईओ स्पाइडर
प्रकटीकरण: Martech Zone इस लेख में अपने सहबद्ध लिंक का उपयोग कर रहा है।