ملف robots.txt وعناكب البحث

ملف robots.txt هو عبارة عن دليل لمحركات البحث لتسهيل الوصول السريع لمحتويات موقعك . فعناكب محركات البحث عندما تقوم بالتوغل في موقعك لأرشفته فإنها تبحث عن ملف robots.txt في البداية حتى يسهل عليها التوغل في موقعك وارشفة مايريده صاحب الموقع وتجنب ما لا يريده .
فمثلاً / لو أردنا محرك بحث مثل قوقل زيارة كافة المحتويات في موقعنا عدا مجلد اسمه forum ، بإمكان تسهيل هذا الامر على عناكب البحث وعلينا أيضاً حتى لا يتم ارشفته . أيضاً بإمكاننا منع محرك بحث معين من الوصول إلى محتويات الموقع لأرشفته .

طريقة انشاء ملف robots.txt
الطريقة سهلة فكل ماعليك هو انشاء الملف بواسطة (المفكرة) notpad مثلاً وحفظه باسم robots.txt ثم رفعه إلى مجلد موقعك الرئيسي . حسناً .. قبل رفع الملف علينا أن نكتب الامر الذي يمكننا من منع العناكب من الوصول إلى بعض المحتويات التي لا نريدها أو منع محرك بحث معين لعدم التوغل في الموقع وأرشفته بالتباع مايلي :


User-agent: *
Disallow:

نلاحظ في الكود السابق ان user-agent تعني العميل أو العنكبوت (محرك البحث) ، و Disallow تستخدم لحجب المجلدات الخاصة ، أيضاً النجمة التي امام user-agent تعني السماح لكافة محركات البحث بالتوغل .
في الكود التالي سنقوم بالسماح لجميع محركات البحث بالتوغل في الموقع ونمنعهم من الوصول إلى المجلدات forum ، up .

User-agent: *
Disallow: /forum/
Disallow: /up/

لكي تقوم بمنع عناكب محرك بحث مثلاً قوقل من الوصول إلى موقعك اضف الكود التالي :
User-agent: google
Disallow: /

ولكي تسمح لمحرك البحث قوقل فقط بالدخول للموقع وتمنع باقي محركات البحث من الدخول اتبع التالي :

User-agent: google
allow:

الفرق بين الكودين السابقين هو علامة ( / ) بعد Disallow فعند وضعها تقوم بمنع وعند ازالة تسمح .
لاحظ أيضاً أنه يجب وضع علامة ( / ) قبل المجلدات التي نريد منعها علماً بأنها العلامة تعني جميع المجلدات وبالتالي فإنك تقوم عند وضعها بمنع العناكب من جميع المجلدات .
بالإمكان حجب (منع) عنكبوت معين من الوصول إلى المجلدات كما ذكرنا سابقاً ، ولكي نقوم ايضاً بالسماح لمحركات البحث الأخرى بالوصول إلى المجلدات عدا مجلد معين مثلاً private فنقوم بكتابة الكود التالي :

User-agent: google
allow:
User-agent: *
Disallow: /private

إن المسافة الفاصلة بين User-agent الأول والثاني هي التي تبين أننا قمنا في الاول بمنع محرك البحث قوقل وفي الثاني بالسماح لباقي محركات البحث (عناكب) الوصول إلى المجلدات عدا المجلد private .

بالامكان أيضاً منع العناكب من الوصول إلى ملفات معينه وذلك بوضع Disallow: واسم الملف وهكذا كما يلي :


هذه الملفات التي قمنا بمنع العناكب من الوصول إليها .

User-agent: *
Disallow: /referrers.php
Disallow: /ajax_cron.php
Disallow: /ajax.php
Disallow: /attachment.php
Disallow: /calendar.php
Disallow: /cron.php
Disallow: /editpost.php

بإمكانك كتابة ملاحظة بين الاكواد اذا كانت كبيرة وذلك بوضع علامة ( # ) في بداية ماتريد كتابته كما في المثال أعلاه

أيضاً .. لا تنسى أنه باستطاعة اضافة ملف السايت ماب لكي تجعل العناكب تصل إليه وذلك كالتالي :

User-agent: *
sitemap: http://www.ed3s.com/sitemap.xml

بعد اتمام ملف robots.txt وحفظه ورفعه إلى الموقع ، علينا التأكد من صحة هل الملف يعمل بشكل صحيح وسليم أم لا وذلك بزيارة الموقع التالي ووضع رابط ملف الروبوت robots . http://tool.motoricerca.info/robots-checker.phtml

بالإمكان استخدام هذا الميزة بواسطة أدوات مشرف الموقع (webmasters) من قوقل فهي تسهل على الشخص الذي لم يفهم ماتم سرده سابقاً .. https://www.google.com/webmasters/tools/robotsgen

 

يمكنك الاستفادة من

http://codex.wordpress.org/Search_Engine_Optimization_for_WordPress

http://www.geekpress.fr/wordpress/astuce/fichier-robots-txt-optimise-wordpress-503