ساخت آنلاین فایل Robots.txt | زی ابزار.
ساخت آنلاین فایل Robots.txt
اکنون، فایل robots.txt را در دایرکتوری ریشه خود ایجاد کنید. متن بالا را کپی کنید و در فایل متنی قرار دهید.
موتورهای جستجو همانند گوگل، یاهو و بینگ مایکروسافت برای برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از روبات های جستجو که به spider , robot و یا crawler معروف هستند استفاده میکننید. این روبوتها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست میارند و اونها رو به موتور جستجوی مربوطه ارسال میکنند. معمولا بر اساس اینکه یک سایت چند مدت به چند مدت آپدیت میشه تعداد دفعاتی که این روبات های جستجوگر در روز به سایت مراجعه می کنند متفاوته. صفحات موجود در سایتهای مختلف از لحاظ امنیتی و درجه حساسیت متفاوت هستند و شاید شما دوست نداشته باشید بعضی از صفحات (مثل صفحات مدیریتی و ادمین سایت) در موتورهای جستجو ایندکس بشه و آدرسش در این موتورها در اختیار عموم باشه. برای اینکه به موتورهای جستجو بگید چه صفحات یا فولدرهایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می تونید از یک فایل با نام robot.txt در ایندکس هاستینگ سایتتون و یا در پوشهای خاص استفاده کنید تا به موتورهای جستجو بگید جا مجازید پیمایش کنید و کجا مجاز نیستید.همونطور که در عکس بالا میبینید، در سایتی که از فایل robot.txt استفاده نشده باشه روبات های موتورهای جستجو همه ی صفحات رو ایندکس می کنند در صورتی که با استفاده از این فایل میشه این ایندکس شدنها رو برای پوشه های مختلف کنترل کرد! از این فایل همچنین برای جلوگیری از ایندکس شدن تکراری صفحات با url های مختلف استفاده میشه.
خوب حالا که فهمیدید دلیل استفاده از فایل مهم robot.txt چی هست، نحوه استفاده از اون رو براتون توضیح میدیم: فایل robot.txt یک فایل متنی ساده (دقیقا با همین نام و پسوند txt) است. در زیر چند تا از مهمترین دستوراتی که توی این فایل می تونید بیارید آوردم . User-agent در خط اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent میاریم. به شکل زیر:
البته میتونید برای روبوتهای مختلف محدودیتهای مختلف تعیین کنید:
Allow از دستور Allow هم معمولا برای اجازه دادن ایندکسینگ به زیرپوشه ای که درون یک پوشه Dissallow شده قرار داده استفاده میشه . مثال زیر رو ببینید :
در اینجا ما می گیم که روبات ها اجازه ایندکس کردن محتویات درون پوشه files رو ندارند به جز پوشه public که در پوشه files قرار داره!
robot.txt برای سایت های وردپرسی! در زیر یک فایل مناسب برای استفاده وب سایتهایی که با وردپرس ساخته شدند آوردم. می تونید ازش استفاده کنید. میبینید که به پوشه های مدیریتی و حاوی فایل ها قالب و پلاگینها و … اجازه دسترسی داده نشده.
همونطور که در مثال بالا می بینید می تونید به این طریق Sitemap سایت خودتون رو هم در این فایل قرار بدید تا در معرض دید روبات ها باشه . انشاءالله در آینده در مورد فایل sitemap و دلایل استفاده از اون هم صحبت خواهیم کرد .
robot.txt برای سایت های پیاده سازی شده با جوملا !
در آخر هم بد نیست یه نگاهی به فایل robot.txt خود سایت گوگل بکنید!
http://www.google.com/robots.txt
منبع مقاله: سون لرن
تاریخ تقریبی روز زایمان شما می باشد. تاریخ سزارین با تشخیص پزشک چند روز زودتر انجام می شود.