ربات تکست یا robots.txt چیست و چگونه بسازیم؟

ربات تکست یا robots.txt چیست و چگونه بسازیم؟

فایل robots.txt یک فایل متنی است که تعیین میکند کدام بخش هایی از یک دامنه می تواند باشد خزید توسط WebCrawler قرار و قطعات نمی تواند باشد.

علاوه بر این، فایل robots.txt می تواند شامل پیوندی به نقشه سایت XML باشد. با robots.txt، فایل های فردی در یک فهرست، فهرست های کامل، زیر شاخه ها یا کل دامنه ها را می توان از خزیدن حذف کرد.

داده robots-txt در ریشه دامنه ذخیره می شود. این اولین سندی است که یک ربات هنگام بازدید از یک وب سایت به آن دسترسی پیدا می کند. ربات های بزرگترین موتورهای جستجو مانند گوگل و بینگ دستورالعمل ها را دنبال می کنند.

در غیر این صورت هیچ تضمینی وجود ندارد که یک ربات به الزامات robots.txt پایبند باشد.

فهرست عناوین ربات تکست

  1. زمینه ربات تکست
  2. ساختار پروتکل ROBOTS.TXT
  3. ایجاد و کنترل robots.txt
  4. حذف صفحات از فهرست با Robots
  5. از Robots.txt با حروف عام استفاده کنید
  6. مثال robots.txt
  7. robots و ارتباط با سئو


زمینه ربات تکست


Robots.txt به کنترل خزیدن روبات های موتور جستجو کمک می کند.

علاوه بر این، روبات ها. فایل txt می‌تواند حاوی یک مرجع به نقشه سایت XML باشد تا خزنده‌ها را در مورد ساختار URL یک وب‌سایت مطلع کند. صفحات فرعی منفرد نیز می توانند با استفاده از برچسب متا تگ روبات ها و به عنوان مثال مقدار noindex از فهرست بندی حذف شوند .

ساختار پروتکل ROBOTS.TXT


به اصطلاح "پروتکل استاندارد حذف روبات" در سال 1994 منتشر شد. این پروتکل بیان می کند که ربات های موتور جستجو (همچنین: عامل کاربر) ابتدا به دنبال فایلی به نام "robots.txt" می گردند و دستورالعمل های آن را قبل از شروع فهرست بندی می خوانند.

بنابراین یک فایل robots.txt باید در دایرکتوری ریشه دامنه با این نام فایل با حروف کوچک ثبت شود، زیرا خواندن robots-txt به حروف کوچک حساس است. همین امر در مورد دایرکتوری هایی که robots.txt در آنها ذکر شده است نیز صدق می کند.

با این حال، باید توجه داشت که همه خزنده‌ها به این قوانین پایبند نیستند، بنابراین robots.txt هیچ گونه حفاظت دسترسی ارائه نمی‌کند. تعدادی از موتورهای جستجو هنوز صفحات مسدود شده را فهرست می کنند و این صفحات را بدون متن توضیحات در نتایج موتور جستجو نشان می دهند.

این امر به ویژه در مورد صفحاتی که به طور گسترده پیوند دارند رخ می دهد. با بک لینک از سایر وب سایت ها، ربات متوجه یک وب سایت بدون جهت از robots.txt می شود. با این حال، مهم ترین موتورهای جستجو مانند گوگل ، یاهو و بینگ با robots.txt مطابقت دارند.


ایجاد و کنترل robots.txt


ساخت robots.txt با ویرایشگر متن آسان است، زیرا می توان آن را در قالب Plaintext ذخیره کرد و خواند. علاوه بر این، می‌توانید ابزارهای رایگان را به صورت آنلاین پیدا کنید که مهم‌ترین اطلاعات را برای robots.txt جستجو می‌کنند و فایل را به‌طور خودکار ایجاد می‌کنند

. Robots.txt حتی می تواند با کنسول جستجوی Google ایجاد و آزمایش شود .

هر فایل از دو بلوک تشکیل شده است. ابتدا، سازنده مشخص می‌کند که دستورالعمل‌ها برای کدام عامل (ها) کاربر باید اعمال شوند. به دنبال آن یک بلوک با مقدمه "عدم اجازه" وجود دارد، پس از آن می توان صفحاتی را که از فهرست بندی حذف می شوند فهرست کرد.

به صورت اختیاری، بلوک دوم می‌تواند شامل دستورالعمل «اجازه» باشد تا از طریق بلوک سوم «عدم اجازه» تکمیل شود تا دستورالعمل‌ها را مشخص کند.

قبل از روبات ها txt در دایرکتوری ریشه وب سایت آپلود می شود، فایل همیشه باید از نظر صحت بررسی شود.

حتی کوچکترین خطاها در نحو می تواند باعث شود که User Agent پیش فرض ها را نادیده بگیرد و صفحاتی را که نباید در فهرست موتور جستجو ظاهر شوند بخزد. برای بررسی اینکه آیا ربات ها. فایل txt همانطور که باید کار می کند، تجزیه و تحلیل را می توان در کنسول جستجوی گوگل در زیر "وضعیت" -> "URL های مسدود شده" انجام داد. [1] در منطقه "خزیدن"، یک روبات. تستر txt در دسترس است.

حذف صفحات از فهرست با robots


ساده ترین ساختار robots.txt به شرح زیر است:

User-agent: Googlebot
Disallow:
این کد به Googlebot اجازه می دهد تا تمام صفحات را بخزد. برعکس این، یعنی ممنوع کردن وب خزنده ها برای خزیدن کل حضور آنلاین، به این صورت است:

User-agent: Googlebot
Disallow: /
در خط "کاربر-عامل" کاربر، عوامل کاربری را که دستورالعمل ها برای آنها معتبر است، ثبت می کند. به عنوان مثال ورودی های زیر را می توان ایجاد کرد:

Googlebot ( موتور جستجوی گوگل )
Googlebot-Image (جستجوی تصویر در گوگل)
Adsbot-Google (Google AdWords)
Slurp (یاهو)
bingbot (بینگ)
اگر باید به چندین عامل کاربر خطاب شود، هر ربات یک خط مخصوص به خود را دریافت می کند. مروری بر تمام دستورات و پارامترهای رایج برای robots.txt. را می توان در mindshape.de یافت.

پیوند به XML-Sitemap را می توان به صورت زیر پیاده سازی کرد:

نقشه سایت: http://www.domain.de/sitemap.xml


از Robots.txt با حروف عام استفاده کنید


پروتکل حذف ربات ها عبارات منظم (کارت های عام) را به دقیق ترین معنای مجاز نمی داند. اما اپراتورهای بزرگ موتورهای جستجو از عبارات خاصی مانند * و $ پشتیبانی می کنند.

این بدان معناست که عبارات منظم معمولاً فقط با دستور Disallow برای حذف فایل‌ها، فهرست‌ها یا وب‌سایت‌ها استفاده می‌شوند.

کاراکتر * به عنوان یک مکان نگهدار برای هر رشته ای که از آن پیروی می کند عمل می کند. خزنده‌ها وب‌سایت‌هایی را که حاوی این رشته هستند فهرست‌بندی نمی‌کنند، مشروط بر اینکه از نحو حروف عام پشتیبانی کنند. برای عامل کاربر، این بدان معنی است که این دستورالعمل برای همه خزنده ها - حتی بدون تعیین رشته کاراکتر - اعمال می شود. یک مثال:
User-agent: *
Disallow: *autos
این دستورالعمل تمام وب سایت های حاوی رشته «autos» را فهرست نمی کند.

این اغلب برای پارامترهایی مانند شناسه جلسه (به عنوان مثال، با Disallow: *sid) یا پارامترهای URL (به عنوان مثال، با Disallow: /*؟) استفاده می شود تا به اصطلاح URL های بدون خزیدن را حذف کند.

کاراکتر $ به عنوان یک مکان نگهدار برای یک قانون فیلتر استفاده می شود که در انتهای یک رشته اعمال می شود. خزنده محتوایی را که به این رشته کاراکتر ختم می شود فهرست نمی کند. یک مثال:
User-agent: *
Disallow: *.autos$

. به طور مشابه، این می تواند به فرمت های مختلف فایل منتقل شود

: به عنوان مثال

.pdf (با Disallow: /*. pdf$)،. xls (با Disallow: /*. xls$) یا سایر فرمت‌های فایل مانند تصاویر، فایل‌های برنامه یا فایل‌های گزارش را می‌توان برای جلوگیری از نمایه شدن آنها توسط موتورهای جستجو انتخاب کرد. مجدداً، دستورالعمل به رفتار همه خزنده‌ها (user-agent: *) اشاره می‌کند که از حروف عام پشتیبانی می‌کنند.

مثال robots.txt


# robots.txt for http://www.example.com/

User-agent: UniversalRobot/1.0
User-agent: my-robot
Disallow: /sources/dtd/

User-agent: *
Disallow: /nonsense/
Disallow: /temp/
Disallow: /newsticker.shtml

robots و ارتباط با سئو


روبات ها txt یک صفحه تأثیر قابل توجهی در بهینه سازی موتورهای جستجو دارد . با صفحات حذف شده توسط روبات ها. txt، یک وب‌سایت معمولاً نمی‌تواند رتبه‌بندی کند یا با یک متن مکان‌نما در SERP ظاهر شود . بنابراین محدودیت بیش از حد عامل های کاربر می تواند باعث ایجاد معایبی در رتبه بندی شود .

نشان‌گذاری دستورالعمل‌ها که خیلی باز است می‌تواند منجر به صفحاتی شود که حاوی محتوای تکراری هستند یا بر مناطق حساس مانند ورود تأثیر می‌گذارند. هنگام ایجاد ربات ها فایل txt، دقت با توجه به نحو ضروری است. مورد دوم در مورد استفاده از حروف عام نیز صدق می کند، به همین دلیل است که آزمایش در کنسول جستجوی گوگل منطقی است.

با این حال، مهم است که دستورات در روبات. txt از نمایه سازی جلوگیری نمی کند. در این حالت، مدیران وب‌سایت‌ها باید به جای آن از متا تگ Noindex استفاده کنند و با مشخص کردن آن‌ها در هدر، صفحات جداگانه را از ایندکس شدن حذف کنند.

روبات ها فایل txt مهمترین راه برای مدیران وب سایت برای کنترل رفتار خزنده های موتورهای جستجو است. اگر خطا در اینجا رخ دهد، وب سایت ها می توانند در دسترس نباشند، زیرا URL ها به هیچ وجه خزیده نمی شوند و بنابراین نمی توانند در فهرست موتورهای جستجو ظاهر شوند. این سوال که کدام صفحات باید ایندکس شوند و کدام صفحات تاثیری غیرمستقیم بر نحوه مشاهده یا حتی ثبت وب سایت ها توسط موتورهای جستجو دارد.

در اصل، استفاده صحیح از یک ربات. txt هیچ تاثیر مثبت یا منفی بر رتبه واقعی یک وب سایت در SERP ها ندارد.

بلکه برای کنترل کار Googlebots و استفاده بهینه از Crawl Budget استفاده می شود. استفاده صحیح از فایل تضمین می کند که تمام قسمت های مهم دامنه خزیده شده و در نتیجه محتوای به روز توسط گوگل ایندکس می شود.

1401/03/29

  • 15764 کاربر این مقاله را مفید می دانند
آیا این پاسخ مفید بود؟

مقالات مرتبط

آیا RankBrain نحوه انجام سئو را تغییر می دهد؟

بسته به پیچیدگی و مدرن بودن مهارت های SEO شخصی شما ، رنک برین ممکن است نشان دهنده یک تغییر جزئی...

ادامه - فاکتورهای رتبه بندی گوگل لیست کامل 206 فاکتور اصلی (2023)

در مقاله قبلی زیر 155 فاکتور مهم گوگل را برایتان گردآوری کردیم فاکتورهای رتبه بندی گوگل لیست...

نقشه برداری کلمات کلیدی و چگونه آن را انجام دهیم؟

بازاریابی اینترنتی اخیراً آنقدر تکامل یافته است که کل فرآیند کار را تغییر داده است. مشاور...

لینک UTM چیست و چه کاربردی در سئو سایت دارد؟

پارامتر UTM چیست؟UTM مخفف Urchin Traffic Monitor است ، این پارامترها به شما امکان می دهد تعامل...

15 مزیت برای افزایش ورودی و بازدید گوگل با خرید کلیک گوگل

اگر می خواهید به خرید کلیک گوگل بپردازید بهتر است پیرامون آن از اطلاعات هر چند مختصر اما جامعی...