اما آنها تنها در یک مسیر مشخص (مسیر ریشه وب سایت) به دنبال این فایل هستند. Allow: این دستور به Googlebot اعلام می کند که می تواند به یک آدرس زیرمجموعه دسترسی داشته باشد، حتی اگر مسیر مجموعه اصلی آن در خطی دیگر از فایل robots.txt بلاک شده باشد. دقت داشته باشید که این دستور تنها توسط گوگل، Ask، بینگ و یاهو پشتیبانی می شود. دقت داشته باشید که صفحات اصلی را از دید ربات ها پنهان نمی کنید. چرا که ممکن است لینک این گونه صفحات در جایی دیگر از سایت قرار داشته و کاربران به آن دسترسی پیدا کنند. اما از سال 2012 به بعد چنین کاری لازم نیست، چرا گه ورودپرس به واسطه کد @header( ‘X-Robots-Tag: noindex’ ); به نوایندکس صفحات موجود در آدرس های یاد شده می پردازد. چرا وب سایت شما به فایل robots.txt نیاز دارد؟ بنابراین برای حصول اطمینان تاکید می کنیم که آن را در مسیر روت وب سایت قرار دهید. حتی اگر این فایل در سایر مسیر ها وجود داشته باشد، پایشگر متوجه حضور آن نخواهند شد. فایل robots.txt برای یافته شدن توسط پایشگرها بایست در مسیر ریشه سایت قرار داشته باشد.
با توجه به دستورات بالا، user agent با نام msnbot تنها به مجموعه دستورات قسمت اول توجه می کند. البته این دستور غالبا از طرف گوگل نادیده می شود. گوگل این گونه می تواند وب سایت را از دید موبایل فرندلی بودن بررسی نماید. آنها دارای عملکرد متفاوت از یکدیگر می باشند. هر یک از ساب دامین های وب سایت بایستی دارای فایل robots.txt مختص مجله خبری learn-seo به خود باشند. در صورتی که دارای صفحاتی هستید که در کنار ایندکس نشدن نیاز است که اعتبار آنها به لینک ها انتقال یابد، بایستی دنبال مکانیسم دیگری باشید. موتورهای جستجو و دیگر پایشگرهای وب پس از ورود به یک سایت می دانند که بایستی به دنبال یک فایل robots.txt باشند. فایل Robots.txt یک فایل متنیست که وبمسترها با ایجاد آن می توانند ربات های موتورهای جستجو را در هنگام پایش وب سایت راهنمایی کنند. فایل robots.txt به کنترل پایش صفحات وب سایت پرداخته، در حالی که متا robots و x-robots به مدیریت ایندکس صفحات سایت در موتورهای جستجو می پردازند. 2. لینک های حاضر در صفحات بلاک شده توسط فایل robots.txt دنبال نخواهند شد.
8. بهتر است که یک مجموعه دستور مشترک برای تمام user agent ها داشته باشید تا در هنگام بروزرسانی فایل robots.txt دچار سردرگمی نشوید. در صورتی که چندین مجموعه دستور برای چند user agent در فایل robots.txt ایجاد شده باشد، هر user agent دستورات مختص به خود را می خواند. در صورت تغییر در فایل robots.txt می توانید آن را از طریق ابزار مربوطه در گوگل سرچ کنسول، تغییرات صورت گرفته را سریعا بروزرسانی کنید. به عنوان مثال گوگل از Googlebot برای جستجوی ارگانیک استفاده می نماید. همچنین از Googlebot-Image برای جستجوی تصاویر وب سایت ها بهره می برد. پروتکل REP همچنین شامل نحوه برخورد با متا تگ Robots و دستوراتی دیگری مانند فالو کردن لینک ها نیز است. همچنین در شرایطی که تعداد کاراکترها برابر باشد، دستور Disallow در اولویت قرار می گیرد. چرا که گوگل علاقه مند به مشاهده وب سایت به شکلیست که برای کاربران به نمایش در می آید. همانطور که مشاهده نمودید، این مقادیر، جلوی دسترسی به سایت را برای موتورهای جستجو میگیرد. User-agent: اشاره به یک پایشگر به خصوص (غالبا نام ربات های موتورهای جستجو).
فایل های robots.txt به منزله دستورالعمل پایشگرها برای پایش وب سایت است. 3. هیچگاه از فایل robots.txt برای پنهان کردن داده های حساس و خصوصی وب سایت از نتایچ جستجو استفاده نکنید. 5. موتورهای جستجو محتوای فایل robts.txt را کش کرده و معمولا روزی یک بار آن را بروزرسانی می نمایند. در صورت یافتن این فایل، آن را خوانده و سپس به پایش وب سایت ادامه می دهند. در ادامه توجه شما را به نکاتی جلب می کنیم که رعایت آن ها در ساخت فایل robots.txt موجب سئو هر چه بهتر وب سایت شما خواهد شد. لیستی از user agent های معمول را می توانید در اینجا مشاهده کنید. با انجام این کار دیگر فایل robots.txt مجازی وردپرس مشاهده نخواهد شد. فایل robots.txt چگونه کار می کند؟ ساخت آن کار ساده ایست. تنها یک بار آن را ساخته و توسط گوگل سرچ کنسول تست کنید. گوگل لیستی از الگوهای تطبیقی و مثال ها را در اینجا گرداوری کرده است. برخی از ربات ها ممکن است که دستورات فایل robots.txt را نادیده بگیرند. با استفاده از فایل robots.txt می توان به مخفی کردن برخی از مسیرهای سایت از دید موتورهای جستچو پرداخت.
اگر شما این مقاله آموزنده را دوست داشتید و می خواهید اطلاعات بیشتری در مورد مجله خبری learn-seo لطفا از سایت ما دیدن کنید.