網站優化中Robots協議的原則標簽及其他屬性
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。
一、原則
Robots協議是國際互聯網界通行的道德規范,基于以下原則建立:
1、搜索技術應服務于人類,同時尊重信息提供者的意愿,并維護其隱私權;
2、網站有義務保護其使用者的個人信息和隱私不被侵犯。
二、標簽
Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots Meta標簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots Meta標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。
1.index指令告訴搜索機器人抓取該頁面;
2.follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;
3.Robots Meta標簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index、nofollow。
三、其他屬性
1. Robot-version: 用來指定robot協議的版本號
例子: Robot-version: Version 2.0
2.Crawl-delay:雅虎YST一個特定的擴展名,可以通過它對我們的抓取程序設定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序兩次進入站點時,以秒為單位的最低延時。
3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.
例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問
4. Request-rate: 用來限制URL的讀取頻率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鐘40次的頻率進行訪問
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鐘12次的頻率進行訪問
轉載請注明來自:https://www.haizr.com/news/sitenews/85547.html
標簽:網站優化 Robots 海之睿