فایل robots.txt یک فایل متنی است که تعیین میکند کدام بخش هایی از یک دامنه می تواند باشد خزید توسط WebCrawler قرار و قطعات نمی تواند باشد.
علاوه بر این، فایل robots.txt می تواند شامل پیوندی به نقشه سایت XML باشد. با robots.txt، فایل های فردی در یک فهرست، فهرست های کامل، زیر شاخه ها یا کل دامنه ها را می توان از خزیدن حذف کرد.
داده robots-txt در ریشه دامنه ذخیره می شود. این اولین سندی است که یک ربات هنگام بازدید از یک وب سایت به آن دسترسی پیدا می کند. ربات های بزرگترین موتورهای جستجو مانند گوگل و بینگ دستورالعمل ها را دنبال می کنند.
در غیر این صورت هیچ تضمینی وجود ندارد که یک ربات به الزامات robots.txt پایبند باشد.
فهرست عناوین ربات تکست
- زمینه ربات تکست
- ساختار پروتکل ROBOTS.TXT
- ایجاد و کنترل robots.txt
- حذف صفحات از فهرست با Robots
- از Robots.txt با حروف عام استفاده کنید
- مثال robots.txt
- robots و ارتباط با سئو
زمینه ربات تکست
Robots.txt به کنترل خزیدن روبات های موتور جستجو کمک می کند.
علاوه بر این، روبات ها. فایل txt میتواند حاوی یک مرجع به نقشه سایت XML باشد تا خزندهها را در مورد ساختار URL یک وبسایت مطلع کند. صفحات فرعی منفرد نیز می توانند با استفاده از برچسب متا تگ روبات ها و به عنوان مثال مقدار noindex از فهرست بندی حذف شوند .
ساختار پروتکل ROBOTS.TXT
به اصطلاح "پروتکل استاندارد حذف روبات" در سال 1994 منتشر شد. این پروتکل بیان می کند که ربات های موتور جستجو (همچنین: عامل کاربر) ابتدا به دنبال فایلی به نام "robots.txt" می گردند و دستورالعمل های آن را قبل از شروع فهرست بندی می خوانند.
بنابراین یک فایل robots.txt باید در دایرکتوری ریشه دامنه با این نام فایل با حروف کوچک ثبت شود، زیرا خواندن robots-txt به حروف کوچک حساس است. همین امر در مورد دایرکتوری هایی که robots.txt در آنها ذکر شده است نیز صدق می کند.
با این حال، باید توجه داشت که همه خزندهها به این قوانین پایبند نیستند، بنابراین robots.txt هیچ گونه حفاظت دسترسی ارائه نمیکند. تعدادی از موتورهای جستجو هنوز صفحات مسدود شده را فهرست می کنند و این صفحات را بدون متن توضیحات در نتایج موتور جستجو نشان می دهند.
این امر به ویژه در مورد صفحاتی که به طور گسترده پیوند دارند رخ می دهد. با بک لینک از سایر وب سایت ها، ربات متوجه یک وب سایت بدون جهت از robots.txt می شود. با این حال، مهم ترین موتورهای جستجو مانند گوگل ، یاهو و بینگ با robots.txt مطابقت دارند.
ایجاد و کنترل robots.txt
ساخت robots.txt با ویرایشگر متن آسان است، زیرا می توان آن را در قالب Plaintext ذخیره کرد و خواند. علاوه بر این، میتوانید ابزارهای رایگان را به صورت آنلاین پیدا کنید که مهمترین اطلاعات را برای robots.txt جستجو میکنند و فایل را بهطور خودکار ایجاد میکنند
. Robots.txt حتی می تواند با کنسول جستجوی Google ایجاد و آزمایش شود .
هر فایل از دو بلوک تشکیل شده است. ابتدا، سازنده مشخص میکند که دستورالعملها برای کدام عامل (ها) کاربر باید اعمال شوند. به دنبال آن یک بلوک با مقدمه "عدم اجازه" وجود دارد، پس از آن می توان صفحاتی را که از فهرست بندی حذف می شوند فهرست کرد.
به صورت اختیاری، بلوک دوم میتواند شامل دستورالعمل «اجازه» باشد تا از طریق بلوک سوم «عدم اجازه» تکمیل شود تا دستورالعملها را مشخص کند.
قبل از روبات ها txt در دایرکتوری ریشه وب سایت آپلود می شود، فایل همیشه باید از نظر صحت بررسی شود.
حتی کوچکترین خطاها در نحو می تواند باعث شود که User Agent پیش فرض ها را نادیده بگیرد و صفحاتی را که نباید در فهرست موتور جستجو ظاهر شوند بخزد. برای بررسی اینکه آیا ربات ها. فایل txt همانطور که باید کار می کند، تجزیه و تحلیل را می توان در کنسول جستجوی گوگل در زیر "وضعیت" -> "URL های مسدود شده" انجام داد. [1] در منطقه "خزیدن"، یک روبات. تستر txt در دسترس است.
حذف صفحات از فهرست با robots
ساده ترین ساختار robots.txt به شرح زیر است:
User-agent: Googlebot
Disallow:
این کد به Googlebot اجازه می دهد تا تمام صفحات را بخزد. برعکس این، یعنی ممنوع کردن وب خزنده ها برای خزیدن کل حضور آنلاین، به این صورت است:
User-agent: Googlebot
Disallow: /
در خط "کاربر-عامل" کاربر، عوامل کاربری را که دستورالعمل ها برای آنها معتبر است، ثبت می کند. به عنوان مثال ورودی های زیر را می توان ایجاد کرد:
Googlebot ( موتور جستجوی گوگل )
Googlebot-Image (جستجوی تصویر در گوگل)
Adsbot-Google (Google AdWords)
Slurp (یاهو)
bingbot (بینگ)
اگر باید به چندین عامل کاربر خطاب شود، هر ربات یک خط مخصوص به خود را دریافت می کند. مروری بر تمام دستورات و پارامترهای رایج برای robots.txt. را می توان در mindshape.de یافت.
پیوند به XML-Sitemap را می توان به صورت زیر پیاده سازی کرد:
نقشه سایت: http://www.domain.de/sitemap.xml
از Robots.txt با حروف عام استفاده کنید
پروتکل حذف ربات ها عبارات منظم (کارت های عام) را به دقیق ترین معنای مجاز نمی داند. اما اپراتورهای بزرگ موتورهای جستجو از عبارات خاصی مانند * و $ پشتیبانی می کنند.
این بدان معناست که عبارات منظم معمولاً فقط با دستور Disallow برای حذف فایلها، فهرستها یا وبسایتها استفاده میشوند.
کاراکتر * به عنوان یک مکان نگهدار برای هر رشته ای که از آن پیروی می کند عمل می کند. خزندهها وبسایتهایی را که حاوی این رشته هستند فهرستبندی نمیکنند، مشروط بر اینکه از نحو حروف عام پشتیبانی کنند. برای عامل کاربر، این بدان معنی است که این دستورالعمل برای همه خزنده ها - حتی بدون تعیین رشته کاراکتر - اعمال می شود. یک مثال:
User-agent: *
Disallow: *autos
این دستورالعمل تمام وب سایت های حاوی رشته «autos» را فهرست نمی کند.
این اغلب برای پارامترهایی مانند شناسه جلسه (به عنوان مثال، با Disallow: *sid) یا پارامترهای URL (به عنوان مثال، با Disallow: /*؟) استفاده می شود تا به اصطلاح URL های بدون خزیدن را حذف کند.
کاراکتر $ به عنوان یک مکان نگهدار برای یک قانون فیلتر استفاده می شود که در انتهای یک رشته اعمال می شود. خزنده محتوایی را که به این رشته کاراکتر ختم می شود فهرست نمی کند. یک مثال:
User-agent: *
Disallow: *.autos$
. به طور مشابه، این می تواند به فرمت های مختلف فایل منتقل شود
: به عنوان مثال
.pdf (با Disallow: /*. pdf$)،. xls (با Disallow: /*. xls$) یا سایر فرمتهای فایل مانند تصاویر، فایلهای برنامه یا فایلهای گزارش را میتوان برای جلوگیری از نمایه شدن آنها توسط موتورهای جستجو انتخاب کرد. مجدداً، دستورالعمل به رفتار همه خزندهها (user-agent: *) اشاره میکند که از حروف عام پشتیبانی میکنند.
مثال robots.txt
# robots.txt for http://www.example.com/
User-agent: UniversalRobot/1.0
User-agent: my-robot
Disallow: /sources/dtd/
User-agent: *
Disallow: /nonsense/
Disallow: /temp/
Disallow: /newsticker.shtml
robots و ارتباط با سئو
روبات ها txt یک صفحه تأثیر قابل توجهی در بهینه سازی موتورهای جستجو دارد . با صفحات حذف شده توسط روبات ها. txt، یک وبسایت معمولاً نمیتواند رتبهبندی کند یا با یک متن مکاننما در SERP ظاهر شود . بنابراین محدودیت بیش از حد عامل های کاربر می تواند باعث ایجاد معایبی در رتبه بندی شود .
نشانگذاری دستورالعملها که خیلی باز است میتواند منجر به صفحاتی شود که حاوی محتوای تکراری هستند یا بر مناطق حساس مانند ورود تأثیر میگذارند. هنگام ایجاد ربات ها فایل txt، دقت با توجه به نحو ضروری است. مورد دوم در مورد استفاده از حروف عام نیز صدق می کند، به همین دلیل است که آزمایش در کنسول جستجوی گوگل منطقی است.
با این حال، مهم است که دستورات در روبات. txt از نمایه سازی جلوگیری نمی کند. در این حالت، مدیران وبسایتها باید به جای آن از متا تگ Noindex استفاده کنند و با مشخص کردن آنها در هدر، صفحات جداگانه را از ایندکس شدن حذف کنند.
روبات ها فایل txt مهمترین راه برای مدیران وب سایت برای کنترل رفتار خزنده های موتورهای جستجو است. اگر خطا در اینجا رخ دهد، وب سایت ها می توانند در دسترس نباشند، زیرا URL ها به هیچ وجه خزیده نمی شوند و بنابراین نمی توانند در فهرست موتورهای جستجو ظاهر شوند. این سوال که کدام صفحات باید ایندکس شوند و کدام صفحات تاثیری غیرمستقیم بر نحوه مشاهده یا حتی ثبت وب سایت ها توسط موتورهای جستجو دارد.
در اصل، استفاده صحیح از یک ربات. txt هیچ تاثیر مثبت یا منفی بر رتبه واقعی یک وب سایت در SERP ها ندارد.
بلکه برای کنترل کار Googlebots و استفاده بهینه از Crawl Budget استفاده می شود. استفاده صحیح از فایل تضمین می کند که تمام قسمت های مهم دامنه خزیده شده و در نتیجه محتوای به روز توسط گوگل ایندکس می شود.
1401/03/29