الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل

 الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل

 إذا كنت تدير موقع ويب، ربما تكون قد سمعت عن ملف Robots.txt هذا الملف النصي البسيط هو جزء أساسي من موقعك قد تفاجأ بمدى أهميته.

الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل
الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل

إذا كنت تدير موقع ويب، فمن المحتمل أنك سمعت عن ملف Robots.txt (أو "معيار استبعاد الروبوتات"). سواء كان لديك أم لا ، فقد حان الوقت لمعرفة ذلك ، لأن هذا الملف النصي البسيط هو جزء حاسم من موقعك. قد يبدو تافها، ولكن قد يفاجأ في مدى أهمية ذلك.

دعونا نلقي نظرة على هدا الملف ، وماذا يفعل ، وكيفية إعداده بشكل صحيح لموقعك.

1-  ما هو ملف Robots.txt ؟

لفهم كيفية عمل Robots.txt ، تحتاج إلى معرفة بعض المعلومات عن محركات البحث. النسخة القصيرة هي أنها ترسل "برامج الزحف" ، وهي البرامج التي تجوب الإنترنت للحصول على المعلومات. ثم يقومون بتخزين بعض تلك المعلومات حتى يتمكنوا من توجيه الناس إليها في وقت لاحق.

هذه البرامج، والمعروفة أيضا باسم "العناكب" تعثر على صفحات من مليارات المواقع. ومحركات البحث تمنحهم الاتجاهات الى أين يذهبون، ولكن يمكن أيضا التواصل مع مواقع الويب الفردية ونقول لهم الصفحات التي ينبغي أن تبحث فيها باختصار الروبوتات.txt تخبر الزواحف على شبكة الإنترنت ما يجب القيام به.

2-  هل يمكن لبرامج الزحف تجاهل ملف Robots.txt ؟

هل يتجاهل الزاحفون الروبوتات ؟ نعم في الواقع، العديد من الزواحف لا تتجاهل ذلك عموما من المهم أن نضع هذا في الاعتبار  استخدام معيار استبعاد الروبوت لإخبار الزاحف بالابتعاد ليس مقياسًا أمنيًا فعالًا ، ومع ذلك، سوف تفعل الروبوتات الخاصة بك طالما انها منسقة بشكل صحيح.

3-كيف نقوم بكتابة ملف Robots.txt

هناك عدد قليل من الأجزاء المختلفة التي تذهب إلى ملف معيار استبعاد الروبوت ساشرح كل منهم على حدة هنا:

User-agent: *

النجمة تقف في "جميع السير". ومع ذلك ، يمكنك تحديد صفحات لبعض السير. للقيام بذلك ، ستحتاج إلى معرفة اسم البوت الذي تضع إرشادات له. قد يبدو مثل هذا:

User-agent: Googlebot
[list of pages not to crawl]
User-agent: Googlebot-Image/1.0
[list of pages not to crawl]
User-agent: Bingbot
[list of pages not to crawl]

وهكذا. إذا اكتشفت روبوتًا لا يريد الزحف إلى موقعك على الإطلاق، يمكنك تحديد ذلك أيضًا.

عدم السماح بالصفحات

هذا هو الجزء الرئيسي من ملف استبعاد الروبوت الخاص بك. مع إعلان بسيط ، تخبر بوت أو مجموعة من السير لا تزحف الى صفحات معينة. بناء الجملة سهل. إليك كيفية عدم السماح بالوصول إلى كل شيء في دليل "المشرف" لموقعك:

Disallow: /admin/

هذا الخط من شأنه أن يمنع السير من الزحف yoursite.com/admin yoursite.com/admin/login yoursite.com/admin/files/secret.html وأي شيء آخر يندرج تحت دليل المشرف.

لمنع صفحة واحدة، ما عليك سوى تحديدها في السطر :

Disallow: /public/exception.html

Disallow: /private/
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/

وضع معايير مختلفة للبوتات
كما رأينا أعلاه ، يمكنك تحديد صفحات معينة للبوتات المختلفة. الجمع بين العنصرين السابقين، وهنا الطريقة:

User-agent: googlebot
Disallow: /admin/
Disallow: /private/
User-agent: bingbot
Disallow: /admin/
Disallow: /private/
Disallow: /secret/


إذا كنت تستخدم نظام إدارة المحتوى مثل WordPress ، فمن المحتمل أن تكون هناك طريقة محددة ستحتاج إلى القيام بها. نظرًا لأنه يختلف في كل نظام لإدارة المحتوى، ستحتاج إلى مراجعة الوثائق الخاصة بالنظام.
قد يكون لدى بعض الأنظمة واجهات عبر الإنترنت لتحميل الملف الخاص بك أيضًا. لهذه،انسخ ولصق الملف الذي قمت بإنشائه في الخطوات السابقة.
تذكر تحديث ملفك
آخر نصيحة سأعطيها هي أن تنظر أحياناً إلى ملف استبعاد الروبوت الخاص بتغيير الموقع الخاص بك، وقد تحتاج إلى إجراء بعض التعديلات. إذا لاحظت تغيرًا غريبًا في حركة مرور محرك البحث ، فمن الجيد التحقق من الملف أيضًا. من الممكن أيضًا أن يتغير النظام القياسي في المستقبل. مثل كل شيء آخر على موقعك ، فإنه يستحق التحقق من ذلك كل مرة واحدة في حين.
تعليقات