بدون حاشیه و خیلی سریع اینروبات روبه شما معرفی میکنم و اموزش ساختش رو مینویسم



مدیران سایت ها از فایل robots.txt برای ارائه دستورالعمل استفاده از سایت برای روبات های وب استفاده می کنند. به این فرآیند پروتوکل خروجی روبات (The Robots Exclusion Protocol) می گویند.

این فرآیند به این شکل است: وقتی ربات های وب قصد بررسی یک صفحه به صورت www.example.com/index.html را دارند، پیش از این کار آدرس www.example.com/robots.txt را بررسی می کنند و در این بررسی با اطلاعات زیر روبه رو می شوند:

User-agent: *
Disallow: /

عبارت "User-agent: *" به این معنی است که این بخش به تمامی ربات ها دستور داده شده است.

و عبارت "Disallow: /" به این معنی است که ربات ها اجازه دسترسی به هیچ کدام از صفحات سایت را ندارند.

دو نکته بسیار مهم هنگام استفاده از فایل robots.txt وجود دارد:

  • ربات ها می توانند فایل robots.txt شما را نادیده بگیرند. خصوصا بدافزارهایی که جهت یافتن ضعف های امنیتی و یا ربات های جست و جو ایمیل که جهت ارسال ایمیل های اسپم وارد سایت می شوند، فایل robots.txt را نادیده می گیرند.
  • فایل robots.txt به صورت عمومی قابل دسترسی است، پس هرکسی می تواند این فایل را مشاهده کند و بخش هایی از سایت را که شما نمی خواهید ربات ها بررسی کنند را ببیند.

پس از robots.txt برای مخفی کردن اطلاعات استفاده نکنید.

چگونه یک فایل robots.txt بسازیم

فایل robots.txt را کجا قرار دهیم؟

پاسخ کوتاه این است که : در اولین فولدر سرور خود.

اما پاسخ کامل این است که:

وقتی یک ربات به دنبال آدرس فایل "/robots.txt" است، مولفه های جزئی مسیر را از آدرس جدا می کند (تمام نوشته های بعد از اولین / تنها) و عبارت "/robots.txt" را به جای آن قرار می دهد.

برای مثال، برای بررسی آدرس "www.example.com/news/23/"  ابتدا عبارت "/news/23/" را پاک کرده و عبارت "/robots.txt" را به جای آن قرار می دهد و نهایتا آدرس به صورت "www.example.com/robots.txt" در می آید.

پس شما به عنوان یک مدیر سایت باید فایل robots.txt را در جای درست خود قرار دهید. که آدرس به دست آمده، به درستی کار کند. معمولا فایل "/robots.txt" دقیقا در جایی قرار می گیرد که فایل "index.html" شما قرار گرفته است.

در نهایت به این نکته مهم دقت داشته باشید که فایل شما باید با حروف کوچک ساخته شود و استفاده از فایلی مانند "/Robots.txt" اشتباه است.

در فایل robots.txt چه چیزی قرار دهیم؟

فایل "/robots.txt" یک فایل نوشتاری است با یک یا چند خط که معمولا با یک دستور مانند زیر ساخته می شود:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

در کد بالا دسترسی به سه فولدر برای ربات ها مسدود شده است.

دقت کنید برای مسدود کردن دسترسی به هر فولدر شما باید یک دستور Disallow بنویسید. بنابراین شما مجاز به استفاده از عبارت "Disallow: /cgi-bin/ /tmp/" در یک خط نیستید. همچنین شما مجاز به ایجاد خط خالی و یا تکرار یک دستور نیز نیستید.

آن چیزی که شما می خواهید برای ربات ها مسدود کنید کاملا به سرور شما وابسته است، قطعا مسدود کردن همه چیز برای ربات ها کار درست و منصفانه ای نیست. در زیر چند مثال برای فایل robots.txt آورده شده است.

در صورتی کهسوالی داشتید یا دستور خاصی موردنیازتون بود در بخش نظرات مطرح کنید

مسدود کردن تمام فولدرها برای تمام ربات ها

User-agent: *
Disallow: /

دسترسی کامل برای تمام ربات ها

User-agent: *
Disallow:
  • برای این کار کافیست یک فایل robots.txt خالی بسازید

مسدود کردن بخشی از فولدرهای سرور برای تمام ربات ها

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

مسدود کردن یک ربات خاص

User-agent: BadBot
Disallow: /

اجازه دسترسی به یک ربات خاص

User-agent: Google
Disallow:

User-agent: *
Disallow: /

  • سئو سایت
  • سه شنبه ۳۰ آذر ، ۰۹:۲۱ ق.ظ
  • آموزش سئو
  • بازدید : ۶۶

تعداد نظرات این پست ۶ است ...

(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
با سلام و تشکر از مطالب آمزشی دقیق شما
ببخشید این مسئله رو می شه برای صفحاتی که گوگل ارور داده یعنی صفحات از سایت پاک شده بکار برد
بله میتونید دسترسی به صفحات پاک شده رومحدودکنید
(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
سلام همکار عزیز
مثل اینکه سایت گوگل از سایتهایی که روبتس تکست داشته باشن بدش میاد. چون من داشتم تو گوگل سرچ میکردم ، تو نتایج سرچ برای چندتا سایت ها نوشته بود اینها دارای فایل روبتس تکست هستند و نتایج آنها قابل مشاهده نیست.
 مثل اینکه گوگیل اونها رو تحریم بکنه. درسته چنین مطلبی؟ توضیح بدید

درود
خیر درست نیست
این سایت هایی که شما میگید احتمالا از روبوت تکست اشتباه استفاده کردند یا دسترسی صفحات زیادی رو محدود کردند
(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
با سلام.خیلی خیلی از مطالب مفید و البته پیگیر بودنتون ممنونم,شاید باورتون نشه ولی ماشالله اینقدر تو کامنتها پیگیر بودید که من کل کامنتهارو خوندم و خیلی چیزها از همین کامنتها و جوابشون یاد گرفتم.جسارتا دوتا سوال دارم,ممنون میشم راهنماییم کنید.
1.چطور میشه کاری کرد که سایت فقط با یک آدرس ایندکس بشه یعنی یا با (www)و یا بدون (www)؟؟؟و اینکه با بهتره یا بدون؟؟؟
2.فرض کنید ما یک سایت خبری داریم که هر روز پستهای زیادی براش مینویسیم,خب قطعا به مرور فضای هاست پر میشه,اگه نخواهیم هاستمونو ارتقا بدیم,بهترین راهکار برای ایجاد فضا برای پستهای جدید چیه؟؟
با خودم فکر کردم بهتره پستهای قدیمی مثلا دو سال پیشو حذف کنیم تا فضا خالی بشه اما بعد فکر کردم خب اینجوری مطالبم هنوز تو ایندکس گوگل هست و وقتی کاربر با اون ایندکسها وارد سایت بشه و اون مطلب حذف شده باشه خیلی بد میشه واسه سایت.
یا فرض کنید یک فروشگاه همه جوره داریم که همه چیز توش هست ,حالا اگه خواستیم یک کالایی رو دیگه نیاریم و اونو از سایت حذف کنیم چیکار کنیم که با این مشکل رو به رو نشیم؟؟؟
راستی بابت زحماتی که برای این وبسایت میکشید سپاسگذارم ,به نظرم بهترین راه پیشرفت تو محیط وب پاکی ,صداقت و حرفه ای بودنه که اینا اعتبار به وجود میاره و اعتبار هم مادر تمام موفقیتها هست.احساس میکنم شما دارید در این راه قدم میذارید,امیدوارم همیشه شاد,سلامت و موفق باشید.
درود
در استفاده از www فرق چندانی در سئو سایت نداره و تقریبا سلیقه ای هست
توصیه میشه مطالبتون رو به هیچ وجه پاک نکنید چون در گوگل ایندکس شده و کاربرانی رو به سایت شما هدایت میکنند
وقتی کاربر میاد و با نبود مطلب مواجه میشه طبیعتا از سایت خارج میشه و به مرور بانس ریت سایت شما رو بالا میبره
و در مقالات گذشته هم گفتیم که بانس ریت بالا باعث مرگ سایت شما میشه
اگر هم محصولی موجودی یا تولید نداشتید میتونید عدم موجودی بزنید به جای حذف محصول

موفق باشید
(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
با سلام. بنده چند وقت گذشته اودم تمام تگ هام رو پاک کردم، بعدش همه اون تگ هایی که پاک شدن، اومدن توی not found گوگل وبمستر. بعدش اومدم Disallow: /tag/ را به فایل robots.txt اضافه کردم، خیلی جالبه که حالا همه ی تگ ها ریدایرکت میشن به آخرین مطلب بنده. مشکل از کجاست؟
وقتی ربوت نمیتونه صفحه های ایندکس شده  رو بخونه اخرین ایندکس سایت شما یا صفحه ی اصلی رو باز میکنه
(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
سلام و ممنون بابت این سایت خوبتون که در مورد همه چیز همه چیز میشه پیدا کرد
من اگه بخوام صفحاتی که ؟ (علامت سوال دارند رو اجازه ندم ایندکس کنه )
باید تو robot.txt بنویسم
Disallow: /?
?????
ممنون
صفحاتی که میخواید توسط گوگل بررسین نشه و دسترسی به اونها محدود باشه باید از این دستور استفاده کنید
(با توجه به سو استفاده برخی افراد ، لینک سایت شما فقط در مدیر سایت خواهد بود)
سلام و عرض ادب خدمت شما
ممنونم ب خاطر مقاله خوبتون
سوالی داشتم ممنون میشم راهنمایی کنید
بنده در سایتم دو بار وردپرس رو نصب کردم یکی در آدرس اصلی (site.com) و یکی در قسمت بلاگ سایتم (site.com/blog )
میخواستم ببینم آیا باید هر کاری در نگاه سئو برای سایت اصلی کردم برای سایت بلاگ هم بکنم؟ مثلا ثبت کردن در وبمستر گوگل و اضافه کردن آمار گوگل و همینطور سایت مپ ها رو غیره
سپاس
درود
نیازی نیست این کار رو برای وبلاگ هم انجام بدید جون وبلاگ هم جزئی از سایت هست
شما تمرکزتون رو روی سایت اصلی قرار بدید

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">