کار اصلی یک ربات وب، خزیدن یا اسکن وب سایت ها و صفحات انها برای جمع آوری اطلاعات است. رباتها  به صورت خستگی ناپذیر جهت جمع آوری داده ها برای موتورهای جستجو و سایر برنامه ها کار می کنند. دلایل  زیادی برای دور نگه داشتن صفحات از موتورهای جستجو  برای بعضی از صاحبان  وب سایت ها وجود دارد. فایل robots.txt به خزنده های وب و ربات ها اطلاع می دهد که اجازه دارند چه اطلاعاتی را جمع آوری کنند.

فایل Robots.txt چیست؟

robots.txt یک فایل متنی ساده در ریشه سایت شما است که از استاندارد حذف روبات ها پیروی می کند. به عنوان مثال، www.pouyasaza.org یک فایل robots.txt در www.pouyasazan.org/robots.txt خواهد داشت. این فایل شامل یک یا چند قانون است که دسترسی به خزنده ها را مجاز یا مسدود می کند و آنها را به یک مسیر فایل مشخص در وب سایت محدود می کند.

به‌طور پیش‌فرض، تمام فایل‌ها به طور کامل برای خزیدن مجاز هستند، مگر اینکه خلاف آن مشخص شده باشد. فایل robots.txt یکی از اولین جنبه هایی است که توسط خزنده ها تجزیه و تحلیل شده است.توجه به این نکته ضروری است که سایت شما فقط می تواند یک فایل robots.txt داشته باشد.  این فایل در یک یا چند صفحه یا کل سایت پیاده سازی می شود تا موتورهای جستجو را از نمایش جزئیات وب سایت شما منصرف کند.

این متن  پنج مرحله برای ایجاد یک فایل robots.txt و نحومورد نیاز برای دور نگه داشتن ربات ها را ارائه می دهیم.

چگونه یک فایل Robots.txt راه اندازی کنیم

  1. یک فایل txt ایجاد کنید

شما باید به root دامنه خود دسترسی داشته باشید. ارائه دهنده میزبانی وب شما می تواند به شما کمک کند که آیا دسترسی مناسب را دارید یا خیر.

مهمترین بخش امکان ایجاد فایل  است. از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید و می توانید آن را درمسیر های زیر قرار دهید

root دامنه شما:www.yourdomain.com/robots.txt.

زیر دامنه های شما: page.yourdomain.com/robots.txt.

پورت های غیر استاندارد:www.yourdomain.com:881/robots.txt.

توجه داشته باشید:

فایل‌های Robots.txt در زیر شاخه دامنه شما (www.yourdomain.com/page/robots.txt) قرار نمی‌گیرند.

 

در نهایت، باید مطمئن شوید که فایل robots.txt شما یک فایل متنی با کد UTF-8 است. ممکن است Google و سایر موتورهای جستجو و خزنده‌های محبوب نویسه‌های خارج از محدوده UTF-8 را نادیده بگیرند و احتمالاً قوانین robots.txt شما را نامعتبر کند.

  1. User-agent خود را txt تنظیم کنید

گام بعدی در نحوه ایجاد فایل‌های robots.txt، تنظیم user-agent است. user-agent  مربوط به خزنده‌های وب یا موتورهای جستجویی است که می‌خواهید اجازه دهید یا مسدود کنید ان ها را . چندین نهاد می توانند user-agent  باشند. ما در زیر چند خزنده و همچنین ارتباط آنها را فهرست کرده ایم.

سه راه مختلف برای ایجاد یک user-agent در فایل robots.txt وجود دارد.

ایجاد یک User-agent

ساختار دستوری  که برای تنظیم User-agent  استفاده می کنیدبه صورت  User-agent: NameOfBot است. در زیر، یک User-agent برای  DuckDuckBot تعریف شده است.

# Example of how to set user-agent

User-agent: DuckDuckBot

ایجاد User-agent های بیشتر

اگر مجبور شدیم بیش از یک مورد اضافه کنیم، همان فرآیندی را که برای DuckDuckBot user-agent در خط بعدی انجام دادید، دنبال کنید و نام عامل کاربر اضافی را وارد کنید. در این مثال از Facebot استفاده کردیم.

#Example of how to set more than one user-agent

User-agent: DuckDuckBot

User-agent: Facebot

 

تنظیم همه خزنده ها به عنوان User-agent

برای مسدود کردن همه ربات ها یا خزنده ها، نام ربات را با یک ستاره (*) جایگزین کنید.

#Example of how to set all crawlers as
user-agentUser-agent: *

 

  1. قوانین را برای فایل txt خود تنظیم کنید

یک فایل robots.txt به صورت گروهی خوانده می شود. یک گروه مشخص می کند که user-agent  کیست و یک قانون یا دستورالعمل برای نشان دادن فایل ها یا دایرکتوری هایی دارد که user-agent  می تواند یا نمی تواند به آن دسترسی داشته باشد.

 

در اینجا دستورالعمل های مورد استفاده آمده است:

Disallow: دستورالعملی که به صفحه یا دایرکتوری مربوط به دامنه اصلی شما اشاره می کند که نمی خواهید user-agent نامگذاری شده آن را بخزد. با یک اسلش رو به جلو (/) و سپس آدرس کامل صفحه شروع می شود. شما آن را با اسلش رو به جلو پایان می دهید تنها در صورتی که به یک دایرکتوری اشاره داشته باشد نه یک صفحه کامل. برای هر قانون می توانید از یک یا چند تنظیمات غیر مجاز استفاده کنید.

 

Allow: این دستورالعمل به صفحه یا دایرکتوری مربوط به دامنه اصلی شما اشاره می کند که می خواهید user-agent نامگذاری شده آن را بخزد. به عنوان مثال، شما می توانید از دستورالعمل اجازه برای لغو قانون عدم اجازه استفاده کنید. همچنین با یک اسلش رو به جلو (/) و سپس آدرس کامل صفحه شروع می شود. شما آن را با اسلش رو به جلو پایان می دهید تنها در صورتی که به یک دایرکتوری اشاره داشته باشد نه یک صفحه کامل. می‌توانید از یک یا چند تنظیمات مجاز برای هر قانون استفاده کنید

 

Sitemap: دستورالعمل sitemap اختیاری است و مکان sitemap را برای وب سایت می دهد. تنها شرط این است که باید یک URL کاملا واجد شرایط باشد. بسته به آنچه لازم است می توانید از صفر یا بیشتر استفاده کنید.

خزنده های وب گروه ها را از بالا به پایین پردازش می کنند. همانطور که قبلا ذکر شد، آنها به هر صفحه یا دایرکتوری دسترسی دارند که صراحتاً روی Disallow تنظیم نشده باشد. بنابراین، Disallow: / را در زیر اطلاعات user-agent در هر گروه اضافه کنید تا مانع از خزیدن آن user-agent  خاص در وب سایت شما شود.

 

# Example of how to block DuckDuckBot

User-agent: DuckDuckBot

Disallow: /

#Example of how to block more than one user-agent

User-agent: DuckDuckBot

User-agent: Facebot

Disallow: /

#Example of how to block all crawlers

User-agent: *

Disallow: /

 

برای مسدود کردن یک زیر دامنه خاص برای  همه خزنده ها، یک اسلش و URL کامل زیر دامنه را در رول Disallow خود اضافه کنید.

 

# Example

User-agent: *

Disallow: /https://page.yourdomain.com/robots.txt

 

اگر می خواهید دایرکتوری را مسدود کنید، با اضافه کردن یک اسلش و نام دایرکتوری خود، همین روند را دنبال کنید، اما سپس با اسلش دیگر ان را  پایان دهید.

# Example

User-agent: *

Disallow: /images/

 

در نهایت، اگر می‌خواهید همه موتورهای جستجو اطلاعات را در تمام صفحات سایت شما جمع‌آوری کنند، می‌توانید یک قانون  allow یا  disallow ایجاد کنید، اما مطمئن شوید که هنگام استفاده از قانون allow ، یک اسلش اضافه کنید. نمونه هایی از هر دو قانون در زیر نشان داده شده است.

# Allow example to allow all crawlers

User-agent: *

Allow: /

# Disallow example to allow all crawlers

User-agent: *

Disallow:

  1. فایل txt خود را آپلود کنید

وب‌سایت‌ها به‌طور خودکار با فایل robots.txt همراه نیستند، زیرا نیازی به آن نیست. هنگامی که تصمیم به ایجاد آن گرفتید، فایل را در فهرست اصلی وب سایت خود آپلود کنید. آپلود به ساختار فایل سایت و محیط میزبانی وب شما بستگی دارد. برای دریافت راهنمایی در مورد نحوه آپلود فایل robots.txt با ارائه دهنده هاست خود تماس بگیرید.

 

  1. بررسی کنید که فایل txt شما به درستی کار می کند

راه های مختلفی برای تست و اطمینان از عملکرد صحیح فایل robots.txt وجود دارد. با هر یک از اینها، می توانید هر گونه خطا در ساختار نحوی  یا منطق فایل خود دارید مشاهده کنید:

استفاده از Robots.txt در وردپرس

اگر از افزونه وردپرس Yoast SEO استفاده می کنید، بخشی را در پنجره مدیریت برای ایجاد یک فایل robots.txt خواهید دید.

وارد پیشخوان  وب‌سایت وردپرس خود شوید و به Tools در بخش SEO بروید و سپس روی ویرایشگر فایل کلیک کنید.

برای تعیین عوامل و قوانین کاربری خود، همان ترتیب قبلی را دنبال کنید. در زیر، ما خزنده‌های وب را از دایرکتوری‌های wp-admin و wp-includes وردپرس مسدود کرده‌ایم در حالی که همچنان به کاربران و ربات‌ها اجازه می‌دهیم صفحات سایت دیگر را ببینند. پس از اتمام، روی ذخیره تغییرات در robots.txt کلیک کنید تا فایل robots.txt فعال شود.

نتیجه

ما نحوه ایجاد یک فایل robots.txt را بررسی کردیم. مراحل انجام آن ساده است و این فایل می تواند باعث جلوگیری از دردسر های می شود که به خاطر وجود ربات ها  در سایت شما شود ایجاد می شود . برای جلوگیری از خزیدن غیرضروری موتورهای جستجو و ربات ها، یک فایل robots.txt ایجاد کنید.

طبقه بندی شده در:

عمومی,

آخرین به روز رسانی: 5 شهریور 1403