الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل
إذا كنت تدير موقع ويب، ربما تكون قد سمعت عن ملف Robots.txt هذا الملف النصي البسيط هو جزء أساسي من موقعك قد تفاجأ بمدى أهميته.
الطريقة الصحيحة لأعداد ملف Robots.txt لموقعك بدون مشاكل |
إذا كنت تدير موقع
ويب، فمن المحتمل أنك سمعت عن ملف Robots.txt
(أو "معيار استبعاد الروبوتات"). سواء كان لديك أم لا ،
فقد حان الوقت لمعرفة ذلك ، لأن هذا الملف النصي البسيط هو جزء حاسم من موقعك. قد يبدو
تافها، ولكن قد يفاجأ في مدى أهمية ذلك.
دعونا نلقي نظرة
على هدا الملف ، وماذا يفعل ، وكيفية إعداده بشكل صحيح لموقعك.
1- ما هو ملف Robots.txt ؟
لفهم كيفية عمل Robots.txt ، تحتاج إلى معرفة بعض المعلومات عن محركات البحث. النسخة القصيرة هي أنها
ترسل "برامج الزحف" ، وهي البرامج التي تجوب الإنترنت للحصول على المعلومات.
ثم يقومون بتخزين بعض تلك المعلومات حتى يتمكنوا من توجيه الناس إليها في وقت لاحق.
هذه البرامج، والمعروفة
أيضا باسم "العناكب" تعثر على صفحات من مليارات المواقع. ومحركات البحث تمنحهم
الاتجاهات الى أين يذهبون، ولكن يمكن أيضا التواصل مع مواقع الويب الفردية ونقول لهم
الصفحات التي ينبغي أن تبحث فيها باختصار الروبوتات.txt
تخبر الزواحف على شبكة الإنترنت ما يجب القيام به.
2- هل يمكن
لبرامج الزحف تجاهل ملف Robots.txt
؟
هل يتجاهل الزاحفون
الروبوتات ؟ نعم في الواقع، العديد من الزواحف لا تتجاهل ذلك عموما من المهم أن نضع
هذا في الاعتبار استخدام معيار استبعاد الروبوت
لإخبار الزاحف بالابتعاد ليس مقياسًا أمنيًا فعالًا ، ومع ذلك، سوف تفعل الروبوتات
الخاصة بك طالما انها منسقة بشكل صحيح.
3-كيف نقوم بكتابة ملف Robots.txt
هناك عدد قليل من الأجزاء المختلفة التي تذهب إلى ملف معيار استبعاد الروبوت ساشرح كل منهم على حدة هنا:
User-agent: Googlebot
[list of pages not to crawl]
User-agent: Googlebot-Image/1.0
[list of pages not to crawl]
User-agent: Bingbot
[list of pages not to crawl]
عدم السماح بالصفحات
هذا هو الجزء الرئيسي من ملف استبعاد الروبوت الخاص بك. مع إعلان بسيط ، تخبر بوت أو مجموعة من السير لا تزحف الى صفحات معينة. بناء الجملة سهل. إليك كيفية عدم السماح بالوصول إلى كل شيء في دليل "المشرف" لموقعك:Disallow: /admin/
لمنع صفحة واحدة، ما عليك سوى تحديدها في السطر :
Disallow: /public/exception.html
Disallow: /private/
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/
وضع معايير مختلفة للبوتاتكما رأينا أعلاه ، يمكنك تحديد صفحات معينة للبوتات المختلفة. الجمع بين العنصرين السابقين، وهنا الطريقة:User-agent: googlebot
Disallow: /admin/
Disallow: /private/
User-agent: bingbot
Disallow: /admin/
Disallow: /private/
Disallow: /secret/
قد يكون لدى بعض الأنظمة واجهات عبر الإنترنت لتحميل الملف الخاص بك أيضًا. لهذه،انسخ ولصق الملف الذي قمت بإنشائه في الخطوات السابقة.
تذكر تحديث ملفك
آخر نصيحة سأعطيها هي أن تنظر أحياناً إلى ملف استبعاد الروبوت الخاص بتغيير الموقع الخاص بك، وقد تحتاج إلى إجراء بعض التعديلات. إذا لاحظت تغيرًا غريبًا في حركة مرور محرك البحث ، فمن الجيد التحقق من الملف أيضًا. من الممكن أيضًا أن يتغير النظام القياسي في المستقبل. مثل كل شيء آخر على موقعك ، فإنه يستحق التحقق من ذلك كل مرة واحدة في حين.