ایجاد یک فایلRobots.txt بسیار ساده است. Robot.txt چیزی جز یک فایل ASCII متنی ساده که در شاخه اصلی وب سایت شما قرار می گیرید نیست. به عنوان مثال اگر نام وب سایت شما www.yadbegir.com باشد فایل Robots.txt شما باید در مسیر www.yadbegir.com/robots.txt قرار گیرد. برای کسانیکه نمی دانند یک فایل ASCII متنی چیست باید بگویم یک فایل متنی ساده است که با notepad ویندوز به راحتی می توانید آنرا ایجاد نمایید.
در این فایل اصولاً نام کاونده های موتور جستجو در یک خط ذکر می شود و در خطوط بعدی نام شاخه ها یا فایل هایی که کاوش آنها مجاز نیست می آید که هر کدام را باید در یک خط جداگانه ذکر نمایید. شما به جای نام کاونده موتور جستجو می توانید از علامت * استفاده کنید بدون اینکه برای هر کدام نام جداگانه ای ذکر نمایید. و به خاطر داشته باشید که فایل Robots.txt یک فایل ممانعت کننده یا محدود کننده است و به این طریق شما نمی توانید موتور جستجو را ملزم کنید که دایرکتوری یا فایل خاصی را در لیست خود اضافه کند.
به عنوان مثال می توانید این را در فایل Robots.txt خود قرار دهید:
User-agent: *
Disallow:/cgi-bin/
دو خط بالا را اگر به فایل Robots.txt خود اضافه نمایید به همه کاوشگر های موتور های جستجو گفته اید که اجازه ندارند به دایرکتوری و محتویات آن cgi-bin دسترسی داشته باشند.
اگر موتور جستجوی بخصوصی مانند google image را در نظر داشته باشید که تصاویر وب سایت شما را جمع آوری و لیست می کند و بخواهید از دسترسی آن به تصاویر وب سایت خود جلوگیری نمایید می توانید این دستورات را به فایل خود اضافه نمایید.
User-agent: google-Image
Disallow:/
همچنین می توانید در چند خط چندین دستور Disallow داشته باشید و برای چندین موتور جستجو مسیر هایی را مشخص کنید در اینجا نمونه از یک فایل بزرگ تر را می بینید.
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
User-agent: Googlebot-Image
Disallow: /
اولین بلوک از این فایل همه موتور های جستجو را از دسترسی به دایرکتوری های images و cgi-bin باز می دارد. دومین بلوک به روبوت کاونده Googlebot-Image می گوید که اجازه دسترسی به هیچ دایرکتوری از سایت را ندارد.
شما حتی می تواند به موتور های جستجو بگویید که یک فایل خاص را از لیست جستجوی خود حذف کند. به عنوان مثال اگر نمی خواهید موتور جستجوی تصاویر گوگل عکس خاصی را در لیست خود اضافه نماید و اگر فرض کنیم نام این فایل mymugshot.jpg باشد در این صورت با افزودن این خطوط به فایل خود می توانید این کار را انجام دهید.
User-agent: Googlebot-Image
Disallow: /images/mymugshot.jpg
به خاطر داشته باشید حتماً / را اضافه کنید چون نشان دهنده یک دایرکتوری است. اگر به سادگی وارد کنید:
User-agent: *
Disallow: /privatedata
در این صورت همه موتورهای جستجو را از دسترسی به هر آنچه که در داخل دایرکتوری به نام privatedata باشد باز می دارید.