Robot.txt چیست؟

همانطور که قبلا نیز توضیح دادیم یکی از دلائلی که ممکن است باعث تمام شدن پهنای باند شود میزان حجم مصرفی توسط موتورهای جستجوگر می باشد.

زمانیکه نمی خواهیم صفحاتی از سایتمان توسط موتورهای جستجو (ربات های خزنده) بررسی و ایندکس شود یکی از راه های ان طراحی فایل robots.txt می باشد. با طراحی این فایل به موتورهای جستجو اجازه نمی دهیم که برای index کردن به سایت ما مراجعه کنند و یا مراجعه آنها را کمتر می کنیم.

بدین وسیله می توان تا حدودی رفتار ربات ها را در نحوه جستجو و ایندکس صفحات مدیریت کرد.

ربات های گوگل ربات هایی هستند که به صورت خودکار سراسر وب را جستجو می کنند.

در ابتدا به این مورد دقت کنید ، تنها ربات های برخی سایت ها و شرکت های معروف و معتبر به این قوانین احترام می گذارند و برخی حتی برای نفوذ به صفحات سایت ها، از این فایل حتی سوء استفاده نیز می کنند. این نکته دارای اهمیت زیادی است که هیچ گاه برای محافظت از دایرکتوری هایی مانند مدیریت سایت، به این فایل اکتفا نکنید و بهتر است آدرس دایرکتوری مدیریت را نیز در آن قرار ندهید.

فایل robots.txt برای نمایش به عموم آزاد می باشد. بنابراین همه می توانند تنظیمات اعمال شده توسط شما را در این فایل مشاهده نمایند. برای حفظ امنیت اطلاعات بهتر است از فایل های شخصی بر روی سرور خود محافظت کنید و پسورد های امن استفاده کنید و موارد دیگر که در در مقالات گذشته در مورد آنها صحبت شده است.

در ادامه به چگونگی انجام این کار و طراحی این فایل تا حدودی آشنا خواهیم شد.

فایل robots.txt یک فایل متنی ساده است که می توان آن را مثلا با notepad ایجاد و با فرمت txt ذخیره نمود، این فایل در ریشه سایت قرار می گیرد. و قسمتهایی از سایت که شما نمی خواهید توسط موتور های جستجو دیده شود را نشان میدهد.

مزایای این فایل خروج استاندارد روبات ها می باشد . این پروتکل مجموعه ای از دستورات است که برای انواعی از خزنده های وب مورد استفاده قرار می گیرد.

یک فایل robots.txt معمولا از دو دستور ساده پیروی می کند :

User-agent (نوع خزنده یا ربات) ، واژه ی Disallow یا allow که دسترسی را مجاز یا غیر مجاز می کنیم.

Disallow : این واژه به معنی عدم اجازه می باشد و به موتور جستجو می فهماند که اجازه دسترسی به پوشه و یا فایل مورد نظر را ندارد ، در نتیجه موتور جستجو فایل هایی با این شرایط را را جستجو نمی کند.

Allow : محدوده ی آزاد برای جستجو را تعریف میکند.

User-agent : محدوده کسانی که اجازه جستجو برایشان مسدود یا باز شده است . در واقع نوع ربات را مشخص می کنید.

به چند نکتهی زیر برای طراحی این فایل دقت کنید:

در ابتدای آدرس دایرکتوری ها، باید از یک اسلش (/) نیز استفاده شود ، دقت کنید که در ابتدای آدرس ،‌ حتما / را وارد کنید ، ‌در غیر اینصورت کد عمل نخواهد کرد.
در استفاده از حروف بزرگ یا کوچک دقت کنید.
دراین فایل کد وعلائم جدا کننده خاص مثل <> نیاز ندارد.
هر تکه از دستورات باید در یک سطر جدا باشد.

برای مشاهده ی نمونه فایل robot.txt می توانید لینک های زیر را مشاهده کنید:

https://www.pouyasazan.org/robots.txt

https://www.google.com/robots.txt

چند مثال از دستورات فایل robots.txt

* :User-agent

/ :Disallow

در این حالت تمام صفحات برای تمام ربات ها مسدود میشوند.

* :User-agent

/ :Allow

تمام صفحات برای تمام ربات ها مجاز هستند.

* :User-agent

Disallow: /image

هنگامی که از علامت * استفاده می کنیم، در واقع منظورتمام ربات ها هستند،

ربات ها با پیروی از این قانون، محتوای فولدر image را بررسی نکرده و در نتایج جستجو آن را نمایش نمی دهند.

User-agent: Googlebot-Image
/ :Disallow

تمام عکس ها و تصاویر در گوگل نمایش داده نشود.

User-agent: Googlebot

/Disallow: /news

مسدود کردن یک فولدر برای یک ربات خاص

* :User-agent

/Disallow: /image

Allow: /image/flower

این حالت به این صورت ترجمه میشود :

هر نوع جستجوگر و رباتی (تمام ربات ها)

نمی تواند پوشه image را جستجو کند ولی می تواند زیر پوشه ی flowerاز این پوشه را بخواند و جستجو کند.

User-agent: Googlebot

$Disallow: /*. jpg

در این حالت یک فرمت مشخص مانند jpg توسط موتور جستجوگر گوگل جستجو نمی شود.

” برای مشخص کردن دقیق انتهای یک الگو، از علامت $ استفاده می شود “

User-agent: Googlebot-Image

Disallow: /images/flower.jpg

در این حالت عکس flower.jpg توسط موتور جستجوگر گوگل جستجو نمی شود.

User-agent: Googlebot
/*Disallow: /news

برای تطبیق توالی از عبارات، از علامت * استفاده می شود، به طو مثال اگر چند دایرکتوری داشته باشید که مثلا با عبارت news شروع شده باشد و بخواهید با یک دستور، دسترسی ربات را به تمام آنها مسدود کنید از این دستور استفاده می کنید

به این ترتیب فولدرهای مانند newsnow , newsiran و … برای ربات مسدود خواهند شد،

“نقش علامت * این است که در واقع عبارات بعد از آن در تطبیق نادیده گرفته می شود”

* : User-agent

?*/ :Disallow

دستور زیر تمام لینک های داینامیک را برای ربات غیر قابل دسترس می کند

“برای مسدود کردن لینک های داینامیک از علامت ? و * استفاده می کنیم “

در حقیقت تعداد ربات هایی که می توانند سایت شما را جستجو کنند ، بسیار زیاد است و شما نمی توانید همه آنها را مجبور به مراجعه نکردن به سایت خود کنید .

معمولا ما با کل ربات ها کار داریم واستفاده از user-agent :* در اولین سطر کافی می باشد.

در اینجا نام برخی از موتورهای جستجوگر را می توانید مشاهده کنید:

اسک

Bingbot : بینگ

Googlebot : گوگل