زهرا احسانی

۱۴۰۱/۰۳/۰۶

900 تعداد بازدید

robots.txt چیست و چه کاربردی در سئو دارد

در عمل، فایل‌ robots.txt نشان می‌دهد که آیا کراولرها یا خزنده‌های گوگل می‌توانند یا نمی‌توانند بخش‌هایی از یک وب‌سایت خزش کنند. این دستورالعمل‌های خزیدن با «اجازه ندادن disallowing» یا «اجازه دادن، allowing» به قسمتی از سایت بر اساس آدرس، در فایل robots.txt مشخص می‌شود.
به طور خلاصه باید گفت که Robots.txt فایلی است که به عنکبوت‌های موتورهای جستجو می‌گوید که صفحات یا بخش‌های خاصی از یک وب‌سایت را مرور و دنبال نکنند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست‌های Robots.txt را می‌شناسند و به آن‌ها احترام می‌گذارند. این فایل می‌تواند به بهینه سازی نرخ خزش یا crawl budget سایت ما کمک زیادی کند.

تماس با آکادمی سئو پورفیض

آموزش خصوصی سئو

نمونه کار سئو

نمونه کار طراحی سایت

سایت‌های دیگر ما

مستر سوییمر آموزش شنا

میتراکانا کتاب سه بعدی

اسپیرالی لوله اسپیرال

آرکیدلایت طراحی دکوراسیون داخلی

Robots.txt یک فایل متنی فرمت txt است که به منظور ایجاد دستورالعملهایی برای سطح دسترسی به ربات‌های گوگل تا به آن‌ها بفهمانند که چگونه صفحات را در وب‌سایت خود پیدا کنند. حالا دقیقا منظور از این فایل متنی Robots.txt چیست؟

تصور کنید که به یک شهر جدید مهاجرت کرده‌اید و به‌‌محض ورود شما همانند اهالی بومی آنجا نمی‌دانید بهترین رستوران آن کجاست، در آن محله برای خرید باید به کدام فروشگاه بروید. حالا مسئولان شهر برای آشنایی افرادی همانند شما یک اطلاعات کلی از این شهر به‌محض ورود با انتشار کارتکس یا هر چیز دیگری در اختیار شما قرار می‌دهند. فایل‌ Robots.txt در سئو تکنیکال نقش مهمی را ایفا می‌کند.

دقیقا فایل‌ Robots.txt به همین منظور ایجاد می‌شود و نقش یک راهنما را برای کراولرهای گوگل بازی می‌کنند و به آن‌ها می‌گویند که به کدام آدرس بروند و از کدام‌شان هم رد شوند.

فایل robots.txt بخشی از پروتکل حذف ربات‌ها (REP) است، گروهی از استانداردهای وب که نحوه پیمایش آن‌ها در وب، دسترسی و فهرست‌بندی محتوا و ارائه آن محتوا به کاربران را تنظیم می‌کند.

REP شامل دستورالعمل‌هایی برای ربات‌های متا که نحوه برخورد موتورهای جستجو با کل سایت و لینک‌ها (مانند «follow» یا «nofollow») را مشخص می‌کنند.

در این مطلب از آکادمی سئو پورفیض به چند موضوع مهم اشاره کرده‌ایم:

فایل robots.txt چیست؟

robots.txt چگونه کار می‌کند؟

چرا Robots.txt مهم است؟

زبان فایل‌های Robots.txt

تطبیق الگوهای Robots.txt

robots.txt در یک سایت کجا می رود؟

چرا به robots.txt نیاز دارید؟

بررسی اینکه آیا فایل robots.txt دارید یا خیر؟

نکات سئوی robots.txt
Robots.txt در مقابل متا ربات‌ها و ربات‌های x

فایل robots.txt چیست؟

در عمل، فایل‌ robots.txt نشان می‌دهد که آیا کراولرها یا خزنده‌های گوگل می‌توانند یا نمی‌توانند بخش‌هایی از یک وب‌سایت خزش کنند. این دستورالعمل‌های خزیدن با «اجازه ندادن disallowing» یا «اجازه دادن، allowing» به قسمتی از سایت بر اساس آدرس، در فایل robots.txt مشخص می‌شود.
به طور خلاصه باید گفت که Robots.txt فایلی است که به عنکبوت‌های موتورهای جستجو می‌گوید که صفحات یا بخش‌های خاصی از یک وب‌سایت را مرور و دنبال نکنند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست‌های Robots.txt را می‌شناسند و به آن‌ها احترام می‌گذارند. فایل Robots.txt می‌تواند به بهینه سازی نرخ خزش یا crawl budget سایت ما کمک زیادی کند.

فایل robots.txt چگونه کار می‌کند؟

موتورهای جستجو دو کار اصلی دارند:

خزیدن در وب برای درک محتوا.
بررسی و رتبه بندی آن محتوا به گونه‌ای که بتوان آن را برای جستجوگرانی که به دنبال اطلاعات هستند، ارائه کرد.

برای خزیدن در سایت‌ها، موتورهای جستجو لینک را دنبال می‌کنند تا از یک سایت به سایت دیگر برسند، در نهایت، در میان میلیاردها لینک و وب‌سایت می‌خزند. این رفتار خزیدن یا کراولینگ بعضی اوقات با عنوان “عنکبوت یا spidering” شناخته می‌شود.

همه چیز درباره الگوریتم bert

خزنده جستجو پس از رسیدن به یک وب سایت، قبل از spider کردن آن، به دنبال فایل robots.txt می‌گردد. اگر یکی را پیدا کرد، خزنده قبل از ادامه صفحه ابتدا آن فایل را می‌خواند. از آنجایی که فایل robots.txt حاوی اطلاعاتی در مورد نحوه خزیدن موتور جستجو است، اطلاعاتی که در آنجا یافت می‌شود، باقی اقدامات خزنده را در این سایت خاص راهنمایی می‌کند.

اگر فایل robots.txt حاوی دستورالعمل‌هایی نباشد که فعالیت یک کاربر را ممنوع کند (یا اگر سایت فایل robots.txt نداشته باشد)، به خزیدن اطلاعات دیگر در سایت ادامه می‌دهد.

سایر اطلاعاتی که درباره فایل robots.txt باید بدانید:

Robots.txt به حروف کوچک و بزرگ حساس است، نام فایل باید “robots.txt” باشد (نه Robots.txt، robots.TXT یا غیره).

برخی از ربات‌ها ممکن است فایل robots.txt شما را نادیده بگیرند. این امر به ویژه در مورد خزنده‌های بدجنس مانند ربات‌های بدافزار رایج است.
فایل robots.txt خیلی راحت در دسترس شماست، فقط کافیست /robots.txt را به انتهای دامنه اصلی اضافه کنید تا دستورالعمل‌های آن را در وب سایت ببینید (اگر آن سایت دارای فایل robots.txt باشد!). این بدان معناست که هر کسی می‌تواند ببیند شما چه صفحاتی را نشان می‌دهید یا نمی‌خواهید کدام صفحات خزیده شوند.
هر زیر دامنه در یک دامنه اصلی،از فایل‌های جداگانه robots.txt استفاده می‌کند. این بدان معناست که هر دو blog.example.com و example.com باید فایل‌های robots.txt خود را داشته باشند (در blog.example.com/robots.txt و example.com/robots.txt).

چرا فایل Robots.txt مهم است؟

اکثر وب‌سایت‌ها به دستورالعمل‌های خاصی در فایل robots.txt نیاز ندارند. به این دلیل است که گوگل معمولاً می‌تواند تمام صفحات مهم سایت شما را پیدا و فهرست کند. آن‌ها به طور خودکار صفحاتی را که مهم نیستند یا نسخه‌های تکراری باشند را ایندکس نمی‌کنند. با این حال، ۳ دلیل اصلی زیر را باید برای استفاده از از فایل robots.txt داشته باشید.

مسدود کردن صفحات غیر عمومی: گاهی اوقات صفحاتی در سایت خود دارید که نمی‌خواهید ایندکس شوند. برای مثال، ممکن است یک نسخه مرحله‌بندی از یک صفحه داشته باشید، یا یک صفحه برای ورود این صفحات باید وجود داشته باشند. اما شما نمی‌خواهید در میان ترافیک‌های ارگانیک و به صورت تصادفی کاربران آنجا فرود آیند. این موردی است که از robots.txt برای مسدود کردن این صفحات از خزنده‌ها و ربات‌های موتور جستجو استفاده می‌کنید.
به حداکثر رساندن باجت خزیدن: اگر برای ایندکس شدن همه صفحات خود با مشکل مواجه هستید، ممکن است با مشکل باجت خزیدن مواجه شوید. با غیرفعال کردن صفحات کم‌اهمیت با robots.txt، Googlebot می‌توانید بیشتر سهم کراول کردن را صرف صفحاتی کنید که واقعاً برایتان مهم هستند.
جلوگیری از نمایه‌سازی منابع: استفاده از دستورات متا ایده خوبی برای استفاده از Robots.txt جهت جلوگیری کردن از ایندکس شدن صفحات است. با این حال، دستورالعمل‌های متا برای منابع چندرسانه‌ای مانند فایل‌های PDF و تصاویر، به خوبی کار نمی‌کنند. اینجاست که robots.txt وارد عمل می‌شود.

زبان فایل‌های Robots.txt

پنج اصطلاح رایج در این زمینه وجود دارد که احتمالاً در فایل ربات‌ها با آن‌ها روبرو خواهید شد. آن‌ها عبارتند از:

عامل کاربر: خزنده وب خاصی که دستورالعمل‌های خزیدن را به آن می‌دهید (معمولاً یک موتور جستجو). لیستی از اکثر عوامل کاربر را می‌توان در اینجا یافت.

Disallow: دستوری که به یک user-agent می‌گوید URL خاص را نخزد. فقط یک خط و صدور عدم اجازه برای هر URL مجاز است.
Allow (فقط برای Googlebot قابل اجراست): دستوری که به Googlebot اعلام می‌کند، می‌تواند به یک صفحه دسترسی داشته باشد، حتی اگر صفحه اصلی آن غیرمجاز باشد.
Crawl-Delay: یک خزنده چند ثانیه باید قبل از بارگیری و خزیدن محتوای صفحه منتظر بماند. توجه داشته باشید که Googlebot این دستور را تایید نمی‌کند، اما نرخ خزیدن را می‌توان در کنسول جستجوی گوگل تنظیم کرد.

سایت مپ: پیاده‌سازی سایت یا نقشه‌های سایت XML با این URL انجام می‌شود. توجه داشته باشید که این دستور تنها توسط Google، Ask، Bing و Yahoo پشتیبانی می‌شود. برخی از سایت‌ها مستقیما در فایل robots.txt، یک دستورالعمل ایجاد می‌کنند که خزنده‌ها سایت مپ آن‌ها را نیز مرور کنند.

تطبیق الگوهای Robots.txt چیست

وقتی صحبت از URLهای واقعی برای مسدود کردن یا مجاز شدن می‌شود، فایل‌های robots.txt می‌توانند نسبتاً پیچیده شوند، زیرا امکان استفاده از تطبیق الگو را برای پوشش طیف وسیعی از گزینه‌های URL ممکن می‌کند.

گوگل و بینگ هر دو از دو عبارت منظم استفاده می‌کنند که می‌توانند برای شناسایی صفحات یا زیرپوشه‌هایی که یک SEO می‌خواهد حذف کند، استفاده شوند. این دو کاراکتر و علامت ستاره (*) و دلار ($) هستند.

robots.txt در یک سایت کجا می‌رود؟

موتورهای جستجو و سایر ربات‌های خزنده وب (مانند خزنده Facebot) هر زمان که به سایتی مراجعه می‌کنند، می‌دانند که باید به دنبال فایل robots.txt بگردند.

اما، آن‌ها فقط آن فایل را در یک مکان خاص جستجو می‌کنند، دایرکتوری اصلی (معمولاً دامنه اصلی یا صفحه اصلی شما).

اگر یک عامل کاربر از www.example.com/robots.txt بازدید کند و فایل رباتی را در آنجا پیدا نکند، فرض می‌کند که سایت فایلی ندارد و به خزیدن همه چیز در صفحه (و شاید حتی در کل سایت) ادامه می‌دهد. حتی اگر صفحه robots.txt مثلاً در example.com/index/robots.txt یا www.example.com/homepage/robots.txt وجود داشته باشد، توسط عوامل کاربر کشف نمی‌شود و در نتیجه سایت مورد بررسی قرار می‌گیرد. گویا اصلا فایل رباتی نداشت. برای اطمینان از یافتن فایل robots.txt، همیشه آن را در فهرست اصلی یا دامنه اصلی خود قرار دهید.

چرا به robots.txt نیاز دارید؟

فایل‌های Robots.txt دسترسی خزنده به مناطق خاصی از سایت شما را کنترل می‌کنند. در حالی که اگر شما به طور تصادفی Googlebot را از خزیدن در کل سایت خود منع کنید، می‌تواند بسیار خطرناک باشد، مواردی وجود دارند که فایل robots.txt می‌تواند در آن‌ها بسیار مفید باشد.

برخی از موارد استفاده رایج عبارتند از:

- جلوگیری از ظاهر شدن محتوای تکراری در SERP (توجه داشته باشید که متا ربات‌ها اغلب انتخاب بهتری برای این کار هستند).
- خصوصی نگه داشتن بخش‌های کامل یک وب سایت (به عنوان مثال، سایت مرحله‌بندی تیم مهندسی شما).
- جلوگیری از نمایش داده شدن صفحات نتایج جستجوی داخلی در SERP عمومی.
- تعیین سایت مپ.
- جلوگیری از ایندکس کردن فایل‌های خاص در وب سایت شما (تصاویر، PDF و غیره) توسط موتورهای جستجو.

تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای شما هنگام بارگیری همزمان چند قطعه محتوا توسط خزنده‌ها.

این نکته حائز اهمیت است که اگر هیچ بخشی در سایت شما وجود ندارد که بخواهید دسترسی عامل کاربر به آن را کنترل کنید، ممکن است اصلاً به فایل robots.txt نیاز نداشته باشید.

Robots.txt به عنکبوت‌های موتورهای جستجو می‌گوید که صفحات خاصی را در وب‌سایت شما نخزند. می‌توانید بررسی کنید که چند صفحه را در کنسول جستجوی گوگل ایندکس کرده‌اید. اگر با تعداد صفحاتی که می‌خواهید ایندکس شوند مطابقت دارد، نیازی به ایجاد فایل Robots.txt ندارید. اما اگر این تعداد بیشتر از چیزی است که انتظار داشتید (و متوجه URLهای که بدون درخواست شما تبدیل به صفحه شده و شما از آن‌ها بی‌خبر هستید)، وقت آن است که یک فایل robots.txt برای وب سایت خود ایجاد کنید.

بررسی اینکه آیا فایل robots.txt دارید یا خیر

مطمئن نیستید که فایل robots.txt دارید یا نه؟ به سادگی دامنه اصلی خود را تایپ کنید، سپس /robots.txt را به انتهای URL اضافه کنید. اگر صفحه txt. نمایش داده نشد، در حال حاضر صفحه robots.txt ندارید.

نکات مهم سئوی robots.txt

اطمینان حاصل کنید که هیچ محتوا یا بخشی از وب‌سایت خود را که می‌خواهید خزیده شود،مسدود نمی‌کنید. همانطور که گفته شد لینک‌های موجود در صفحات مسدود شده توسط robots.txt دنبال نمی‌شوند.

مگر اینکه از دیگر صفحات قابل دسترسی موتور جستجو (به عنوان مثال صفحاتی که از طریق robots.txt، ربات‌های متا یا موارد دیگر مسدود نشده‌اند) لینک داده شده باشند، منابع لینک داده شده مرور و ممکن است ایندکس نشوند. ارزش هیچ لینکی را نمی‌توان از صفحه مسدود شده به مقصد دیگر منتقل کرد.

از robots.txt برای جلوگیری از نمایش داده‌های حساس (مانند اطلاعات خصوصی کاربر) در نتایج SERP استفاده نکنید. از آنجا که صفحات دیگر ممکن است مستقیماً به صفحه حاوی اطلاعات خصوصی لینک شوند (در نتیجه دستورالعمل‌های robots.txt در دامنه اصلی یا صفحه اصلی شما را دور می‌زنند)، ممکن است همچنان ایندکس شود.

اگر می‌خواهید صفحه مورد نظر از نتایج جستجو مسدود شود، از روش دیگری مانند محافظت با رمز عبور یا دستورالعمل متا noindex استفاده کنید.

برخی از موتورهای جستجو دارای چندین عامل کاربر هستند. به عنوان مثال، Google از Googlebot برای جستجوی ارگانیک و از Googlebot-Image برای جستجوی تصویر استفاده می‌کند.

اکثر عوامل کاربر یک موتور جستجو از قوانین یکسانی پیروی می‌کنند، بنابراین نیازی به تعیین دستورالعمل برای هر یک از خزنده‌های متعدد موتور جستجو نیست، اما توانایی انجام این کار را به شما می‌دهد که نحوه خزیدن محتوای سایت خود را دقیق تنظیم کنید.

یک موتور جستجو محتویات robots.txt را در حافظه پنهان می‌کند، اما معمولاً حداقل یک بار در روز مطالب ذخیره شده را آپدیت می‌کند. اگر فایل را تغییر می‌دهید و می‌خواهید آن را سریع‌تر از آنچه اتفاق می‌افتد به‌روزرسانی کنید، می‌توانید نشانی اینترنتی robots.txt خود را به Google ارسال کنید.

نکته مهم: فایل robots.txt را از طریق روت اصلی هاست سایت اعمال می‌شود. در سیستم مدیریت محتوایی وردپرس این فایل به‌طور پیش‌فرض تعریف شده است.

Robots.txt در مقابل متا ربات‌ها و ربات‌های x

تفاوت بین این سه نوع دستورالعمل ربات چیست؟ اول از همه، robots.txt یک فایل متنی واقعی است، در حالی که متا و ربات‌های x دستورات متا هستند.

فراتر از آنچه که به نظر می‌رسند، هر سه عملکردهای متفاوتی دارند. Robots.txt رفتار خزیدن در کل سایت یا دایرکتوری را دیکته می‌کند، در حالی که ربات‌های متا و x می‌توانند نحوه رفتار نمایه‌سازی و فهرست‎بندی در یک سایت را مشخص کنند.

خلاصه و جمع بندی Robots.txt

یک فایل robots.txt به خزنده‌های موتورهای جستجو می‌گوید که به کدام URLها می‌تواند در سایت شما دسترسی داشته باشد. این عمدتا برای جلوگیری از بارگذاری بیش از حد سایت شما توسط کروالرهای گوگل صورت می‌گیرد.

هیچ مکانیسمی برای آنکه گوگل صفحات شما را نبیند، به طور خودکار وجود ندارد. بلکه برای دور نگه داشتن یک صفحه وب از Google، با noindex مسدود یا صفحه را با رمز عبور محافظت می‌کنید.

توجه داشته باشید که دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود. دستورالعمل‌های موجود در فایل‌های robots.txt نمی‌توانند رفتار خزنده را در سایت شما اعمال کنند.

این به خزنده بستگی دارد که از آن‌ها پیروی کند. در حالی که Googlebot و سایر خزنده‌های وب معتبر از دستورالعمل‌های فایل robots.txt پیروی می‌کنند، خزنده‌های دیگر ممکن است این کار را انجام ندهند.

اگر می‌خواهید اطلاعات را از خزنده‌های وب ایمن نگه دارید، بهتر است از روش‌های مسدودسازی دیگر مانند محافظت از فایل‌های خصوصی با رمز عبور روی سرور خود استفاده کنید. امیدوارم که با خواندن این صفحه از آکادمی سئو پورفیض به صورت دقیق متوجه شده باشید که فایل robots.txt چیست.

این مطلب را به اشتراک بگذارید

سئو چیست