Robots定義
什么是Robots,簡單來講,其實Robots就是放在網站根目錄下的一個TXT文件,但是這個TXT文件對搜索引擎規定,哪些頁面可以訪問,哪些頁面不行。
Robots一般放在網站根目錄下,文件名固定為robots.txt的(全部小寫)、當搜索引擎要爬取我們網站的時候,會先讀一下robots.txt里面的內容,判斷哪些URL可以訪問,哪些不行,然后進行爬取、收錄。
Robots規則
常用的幾類語法:
User-agent: 定義搜索引擎的類型
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
Disallow: 定義禁止搜索引擎收錄的地址
舉個例子來講:User-agent: * Disallow: /
禁止所有搜索引擎訪問網站,(*)為通配符
Allow: 定義允許搜索引擎收錄的地址
User-agent: * Disallow: /a/ Allow: /a/b
如上面例子,限制搜索引擎抓取a目錄,但允許搜索引擎抓取a目錄下的b目錄
$通配符
User-agent: * Allow: .htm$
匹配URL結尾的字符。如下面代碼將允許蜘蛛訪問以.htm為后綴的URL:
*通配符
User-agent: * Disallow: /*.htm
告訴蜘蛛匹配任意一段字符。如下面一段代碼將禁止所有蜘蛛抓取所有htm文件:
Sitemaps位置
Sitemap: http://www.xxx.com/sitemap.xml
Robots心得
1、許多朋友都喜歡讓搜索引擎不抓取自己的后臺,于是將自己的后臺地址寫到robots.txt里面,其實個人不建議這樣做,因為考慮到網絡安全,許多Hack都喜歡通過robots.txt看大家的后臺,方便攻擊!

2、網站必須要有robots.txt,如果網站沒有robots.txt,搜索引擎隨意抓取的話,可能會抓取到一些低質量頁面,從而導致網站收錄、流量受到影響,如上圖是沒有robots.txt。
3、當我們做完robots.txt后,一定要去【百度站長工具平臺】抓取、測試robots.txt,以及測試URL是否可以抓取。
文章來源:逆冬黑帽SEO(ID:gh_c3dd79adc24e),原文鏈接:https://mp.weixin.qq.com/s/jjUveBOtsRGaFzgMiq2UrQ
關于三五互聯
成都西維數碼科技有限公司成立于2002年,注冊資本1000萬元,總部坐落于“天府之國”——成都,旗下品牌三五互聯 (www.shinetop.cn) ,深耕IDC行業十多年,已擁有北京、廣東、鄭州、成都、綿陽、香港等中國多個云計算IDC安全數據中心和美國等海外數據中心。我們先后自主研發的虛擬主機、彈性云服務器、西數企業云郵箱等產品都廣受用戶歡迎。我們始終堅持用戶體驗至上的價值導向,深入挖掘用戶需求,目前,有超過一百萬用戶通過我們注冊并管理了超過一千萬個域名,累計有超過50萬網站在我們的自主研發的云主機平臺上運行,服務的用戶有:寶貝回家尋子網、四川大學、鏈家網(北京)科技有限公司、四川省互聯網協會、沱牌集團、譚木匠、中鐵二局、四川省中國青年旅行社、富森美家居網上商城等
我們始終堅持“以人為本,客戶為尊,永續創新”的核心價值觀,搶抓各種發展機遇,不斷創新發展理念,不斷轉變發展方式,不斷破解發展難題,隨著企業的發展,我們經營的業務也不斷發展為以云計算為基礎的云主機業務、域名注冊、域名交易等其他相關業務,公司從最初只有幾個員工發展到如今擁有近二百人的精英團隊,并在中國IDC、云計算行業中占有一席之地,位列國內三強。成為擁有多項自主知識產權的國家高新技術企業,ICANN和CNNIC雙認證的國際頂級域名注冊服務機構,首批獲得國家工信部頒發的全國云服務牌照企業之一。