از کجا می توانم نام روبوت ها را پیدا کنم؟

اگر بخواهید موتور جستجوی خاصی را برای دسترسی به وب سایت خود محدود کنید باید نام آنرا دقیقا بدانید برای این منظور بهترین راه این است که وب سایت آن موتور جستجو را بازدید کنید. موتور های جستجوی معتبر معمولاً صفحاتی دارند که در آن جزییات کار را به شما ارائه می دهد تا بتوانید برای آنها فایل ها و دایرکتوری های غیر مجاز را مشخص کنید.

اشتباهات معمول

در اینجا اشتباهاتی که در این زمینه رایج است را بررسی می کنیم.

۱- هیچ ضمانتی برای کارایی این فایل متنی وجود ندارد

همانطور که قبلا هم گفتم فایل های robots.txt یک سری فایل استاندارد برای جلوگیری از کاوش فایل ها توسط موتور های هستند ولی بعضی موتور های جستجو خود را برای خواندن این فایل ها اذیت نمی کنند و هیچ ضمانتی نیست که به این روش موتور های جستجو را از دسترسی فایل ها یا دایرکتوری های مورد نظر خود باز دارید. اگر می خواهید واقعاً می خواهید دسترسی به یک دایرکتوری را محدود نمایید باید از فایل .htaccess استفاده کنید.

۲- دایرکتوری ها محرمانه خود را لیست نکنید.

هر کسی می تواند به فایل robots.txt شما دسترسی داشته باشد مثلاً کافیست این آدرس را در مرورگر خود وارد کند

http://www.yadbegir.com/robots.txt

بعضی مدیران سایت تازه کار لیستی از فایل ها و دایرکتوری های محرمانه خود را در این فایل قرار می دهند تا از دسترسی موتور های جستجو خارج شوند ولی غافل از اینکه بعضی افراد و بعضی روبوت های فرستنده هرزنامه بدنبال چنین آدرس هایی می گردند. مراقب باشید به این روش امنیت وب سایت خود را به خطر نیندازید.

۳- فقط یک دایرکتوری یا فایل برای هر خط

سعی نکنید در هر خط یا دستور Disallow بیش از یک فایل یا دایرکتوری را مشخص کنید. چون به احتمال زیاد این دستور کار نخواهد کرد و طبق استاندارد روبوت های کاونده فقط یک برای هر خط یک دستور و یک عبارت Disallow قبول می کنند.

آیا حتما باید این فایل را ایجاد کنیم؟

حتی اگر نخواهید هیچ موتور جستجویی را محدود کنید فقط کافیست این دستور را در فایل خود ایجاد نمایید.

User-agent: *
Disallow:

به این ترتیب شما یک فایل robots.txt دارید که بوسیله آن به موتور جستجو گفته اید می تواند همه فایل ها و دایرکتوری های شما را بکاود. به این ترتیب حداقل بهره ای که خواهید برد این است که با هر بار درخواست موتور جستجو برای این فایل متنی خطای ۴۰۴ لود نمی شود و چند کیلو بایت از پهنای باند خود را صرفه جویی کرده اید. و هم چنین از آمار شما یک آدرس خطا کاسته می شود که این هم در رانکینگ موتور جستجو اثری مثبت دارد.