robots.txt क्या है? रोबोट्स फाइल क्या है?

  • Post author:
  • Post last modified:April 12, 2021

robots.txt क्या है? आपकी वेबसाइट में इसका क्या रोल है? इसे कैसे सेटअप करना चाहिए? अपनी robots.txt फाइल को कैसे चेक कर सकते हैं? आज आपको इन सभी सवालों के जवाब मिलने वाले है।

हम बात कर रहे हैं robots.txt फाइल के बारे में। सर्च इंजन जैसे गूगल या बिंग एक किस्म के प्रोग्राम को यूज करते हैं जो इंटरनेट पर मौजूद वेबसाइट पर जाकर जरूरी इंफॉर्मेशन को कलेक्ट करता है और एक वेबसाइट से दूसरी वेबसाइट में जाता रहता है। इस तरह के प्रोग्राम्स को web crawlers, spider, bots या robots कहा जाता है। इंटरनेट के एकदम शुरुआती दौर में जब कंप्यूटिंग पावर और मेमोरी दोनों काफी महँगी होती थी। कुछ वेबसाइट ओनर उस टाइम के सर्च इंजन के इन crawlers से बहुत परेशान हुआ करते थे।

क्योंकि तब वेबसाइट कम होती थी और यह crawlers या robots बार-बार वेबसाइट को विजिट करते रहते थे। जिससे उनके सर्वर लोड पड़ता था और सर्वर असली इंसानी विजिटर्स को वेबसाइट नहीं दिखा पाते थे और वेबसाइट के रिसोर्सेस खत्म हो जाते थे। इस प्रॉब्लम से निपटने के लिए कुछ लोगों ने robots.txt का आईडिया दिया। जो कि सर्च इंजन या किसी भी टाइप के crawlers को ये instructions देगी की वेबसाइट के ओनर्स उन्हें वेबसाइट के किस हिस्से को विजिट करने की परमिशन दे रहे है।

robots.txt एक टेक्स्ट फाइल्स होती है जो वेबसाइट के रूट फोल्डर में होती हैं। हम एक डोमेन का उदहारण लेते हैं xyz.com, जब भी कोई robot इस वेबसाइट को विजिट करेगा तो सबसे पहले वो xyz.com/robots.txt फाइल को ढूंढेगा। अगर ये फाइल नहीं मिलती है तो कोई परेशानी नहीं है वो robot पूरी वेबसाइट को विजिट करके उसके किसी एक पार्ट को अपने हिसाब से index करेगा या इंफॉर्मेशन स्टोर कर लेगा। 

अगर उसे xyz.com/robost.txt फाइल मिलती है तो वो उसे पढ़ेगा और फिर टेक्निकली उसके इंस्ट्रक्शन को फॉलो करेगा। लेकिन रियल वर्ड में data aggregators, email gathering करने वाले bots हैकर्स के बनाए हुए सर्च bots instructions को ठेंगा दिखाकर आगे बढ़ जाते हैं। तो हमें कुछ बातें साफ़ हो जाती हैं,

  • 1) robots.txt is a text file.
  • 2) robots.txt file is always in the root folder of the website.
  • 3) Always named as “robots.txt”. (this file is case sensitive)
  • 4) You can check this file by writing https://yourwebsite.com/robots.txt
  • 5) Search bots are not bound to follow it.

बड़े सर्च इंजन कंपनियां जैसे गूगल, बिंग, याहू, इन instructions को फॉलो करती हैं। लेकिन छोटे सर्च इंजन डाटा एग्रीगेटर्स इन instructions को कभी फॉलो नहीं करते हैं। काफी इतिहास हो गया अब देखते हैं कि आखिर इस फाइल में क्या होता है। robots.txt फाइल का एक minimum कंटेंट कुछ इस तरह है

  • User-agent: *
  • Disallow: 

अगर आप सभी सर्च इंजन रोबोट्स को अपनी वेबसाइट के सभी pages तक जाने देना चाहते हैं तो आपकी robots.txt फाइल में सिर्फ ऊपर दिया जितना ही code होना चाहिए। इस टेक्स्ट फाइल की जो पहली लाइन है user-agent: * इसका का मतलब है कि सभी टाइप के सर्च इंजन bots के लिए instructions हैं। Web Technologies में ‘*’ का मतलब वाइल्ड कार्ड होता है। इसके बाद दूसरी लाइन में है Disallow: आगे कुछ भी नहीं है। इसमें Disallow: के आगे कुछ भी नहीं है तो इसका मतलब हुआ कि किसी भी तरह के सर्च इंजन robots के लिए वेबसाइट का कोई भी हिस्सा Disallow: नहीं है। कोई भी robots वेबसाइट के सभी pages को विजिट कर सकते है।

अगर यही Disallow: के आगे Disallow: / forword Slash लगा हुआ हो तो इसका मतलब है कि रूट डायरेक्टरी की सारी फाइल Disallow: है। किसी भी वेबसाइट के डोमेन में ‘/’ लगाने के बाद ही हम किसी पेज का लिंक बना पाते हैं। लेकिन अगर आप Disallow: के आगे ‘/’ लगा देते हैं तो आप अपनी वेबसाइट की सभी फाइल्स को सभी सर्च इंजन के लिए ब्लॉक कर रहे हैं। अगर आप किसी खास सर्च इंजन को ही अपनी वेबसाइट पर ब्लॉक करना चाहते हैं तो इस फाइल की जो पहली लाइन है User-agent: * इसकी जगह User-agent: Googlebot उस सर्च इंजन का नाम दे सकते हैं और फिर अपनी instructions नीचे लिख सकते है जैसे Disallow: /।

सारे मेजर सर्च इंजन bots का यूजर नेम या यूजर एजेंट अलग होता है। जैसे गूगल का है Googlebot, याहू का Slurp, माइक्रोसॉफ्ट MSN bots है। अब सवाल ये उठता है की आखिर robots.txt आपके SEO को क्या इफ़ेक्ट करती है? आपके SEO में इसका क्या फायदा होता है? आज की डेट में भारत में गूगल वेब ट्रैफिक का 98% से भी ज्यादा हैंडल करता है। तो हम गूगल की ही बात करते हैं, गूगल हर वेबसाइट को एक crawl बजट देता है। यह crawl बजट डिसाइड करता है कि गूगल का रोबोट आपकी वेबसाइट को कितनी बार विजिट करेगा। यह crawl बजट दो चीजों पर डिपेंड करता है 

नंबर 1. आपका सर्वर crawl करते वक्त स्लो तो नहीं हो रहा है। ऐसा तो नहीं होता है कि जब गूगल का रोबोट आपकी वेबसाइट को विजिट करता है तो उस वक़्त वेबसाइट के जो रियल विजिटर है उनके लिए आपकी वेबसाइट स्लो हो जाती हो। अगर ऐसा है तो गूगल के रोबोट्स आपकी साइट को कम विजिट करेंगे।

नंबर 2. आपकी वेबसाइट कितनी पॉपुलर है? ज्यादा पॉपुलर वेबसाइट या जिन वेबसाइट पर ज्यादा कंटेंट होता है उन्हें गूगल जल्दी विजिट करना चाहता है। ताकि वह कंटेंट के साथ अपने आपको अपडेट रख सके। अगर आप चाहते है की आपकी वेबसाइट गूगल के crawl बजट का सदुपयोग करें, सही इस्तेमाल करें। तो आप रोबोट robots.txt से अपनी वेबसाइट के unimportant pages को ब्लॉक कर सकते हैं।

robots.txt से आप अपनी वेबसाइट के अंडर मेंटेनेंस वाले पार्ट को भी कुछ समय के लिए index होने से रोक सकते हैं। अगर आपकी वेबसाइट में कोई ऐसा हिस्सा है जो आपकी कंपनी के एंप्लाइज के लिए ही है, जिसे आप पब्लिकली सर्च में नहीं दिखाना चाहते हैं। आप उसे भी robots.txt फाइल में ब्लॉक कर सकते हैं। मान लेते हैं कि आपकी वेबसाइट xyz.com है और उसमें sample नाम का एक फोल्डर है। उसका एक पेज है sample.html, तो इस sample फोल्डर की सारी फाइल्स को सर्च इंजन से छुपाने के लिए आप robots.txt में एक code को एंटर करेंगे।

  • User-agent: *
  • Disallow: /sample 

Sample.html को छुपाने के लिए इस code को यूज करेंगे।

  • User-agent: *
  • Disallow: /sample.html

इसके अलावा robots.txt फाइल से आप सर्च robots को अपनी वेबसाइट का साइट मैप का लिंक भी दे सकते हैं। जिसके लिए आपको सिर्फ एक लाइन जोडनी होगी (sitemap: https://xyz.com/sitemap.xml)। थोड़ी देर पहले हम बात कर रहे थे कि कैसे सर्च इंजन के bots के crawling की वजह से वेबसाइट नॉर्मल विजिटर के लिए थोड़ी स्लो हो सकती है। अगर आपकी वेबसाइट बहुत ज्यादा ट्रैफिक अट्रैक्ट करती है तो ये Delay आपके लिए काफी महंगा हो सकता है। जिसके लिए आप अपनी robots.txt फाइल में एक Delay टाइम भी सेट कर सकते है। ताकि सर्च इंजन robots एक पेज को crawl करने के बाद दूसरे पेज को crawl करने से पहले कुछ देर wait करेंगे।

यह wait time या crawl का Delay by default मिली सेकंड में तय किया जा सकता है। इसके लिए आपको एक कोड अपनी robots.txt फाइल में देना होगा ( crawl-delay: 10 ). Delay time आप अपने हिसाब से सेट कर सकते है। इस 10 का मतलब हुआ कि crawler एक पेज को crawl करने के बाद 10 मिली सेकंड रुकेगा और फिर दूसरे पेज पर जाएगा। जिससे आपके सर्वर को breathing room मिल जाएगी और आपकी साइट स्लो नहीं होगी। 

1 जुलाई को गूगल ने यह भी अनाउंस किया कि वह robots.txt फाइल में मौजूद जो no-index request होती थी उनको भाव देना बंद कर रहे हैं। इस पर माइक्रोसॉफ्ट बिंग ने भी यह रिएक्शन दिया कि हम तो कभी उसे फॉलो करते ही नहीं थे। no-index Disallow से अलग है, Disallow request पेज को crawl न करने देने का instructions देती है और no-index request crawl करने से मना नहीं करती है, लेकिन index करने से मना करती है। no-index request का कोई रिटर्न रूल अभी तक नहीं था। लेकिन गूगल approximately 90% केस में उसको फॉलो कर ही रहा था। तो कंफ्यूज मत होइए Disallow और no-index एक नहीं है, वो दोनों अलग-अलग है।

उम्मीद करते ये इनफार्मेशन आपको अपनी वेबसाइट में robots.txt फाइल को मैंटेन करने में और उसे सही से यूज़ करने में मदद करेगी। 

Enjoyed the post! Leave a Reply...