問:
為什么我測試百度抓取會出現異常?有沒有什么解決辦法啊?
,為什么我測試百度抓取會出現異常?有沒有什么解決辦法啊?
答:您好,查看到蜘蛛訪問是403,聯系您對應的cdn提供商核實對應的是否攔截了蜘蛛爬行,
請核實您的回源設置,建議設置蜘蛛回??源到118.123??.7.208 ??,非??常感謝您長期對我司的支持!
問:域名沒輸入對, https://yun.ithuzhi.com 你給我回復的是有空格的。能不能幫忙解決一下問題。
問:我好幾個站都在使用阿里云的CDN哦,先聲明一下:我提出的這些問題沒有一個是CDN造成的,包括我之前咨詢的問題,之前咨詢的問題我已經在代碼處解決了。但是這個百度蜘蛛抓取失敗的問題還希望能提供有用的信息。或者給個技術QQ聯系方式我直接溝通。
答:您好,抱歉,不熟悉您的cdn架構,我司是模擬蜘蛛抓取出現異常情況,當前建議您可把域名先取消cdn設置,把域名做別名指向到ouyangoyys.gotoip3.com再測試下蜘蛛抓取情況,非常感謝您長期對我司的支持!
問:兄弟你好,403錯誤本質上是指由于服務器上文件或目錄的權限設置導致的WEB訪問錯誤。
因為我用貴公司的代理平臺,設置不了所謂權限,能否幫忙設置一下目錄權限?這個百度蜘蛛的事是和cdn沒有什么關系的。
問:能否用這個地址測試一下百度蜘蛛抓取情況呢?http://ouyangoyys.gotoip3.com/
答:您好,抱歉,當前使用http://ouyangoyys.gotoip3.com/ 抓取測試也出現異常報錯清空,核實目錄權限是正常的,當前抓取報錯已經向百度提交反饋,您可明天再重新抓取測試下,非常感謝您長期對我司的支持!
問:我用源站域名抓取也是失敗的,可以排除cdn問題了,兄弟幫忙看一下原因。
問:嗯好謝謝
問:這么晚辛苦了
答:您好,抱歉,核實我司主機的二級域名是設置了禁止百度抓取的,當前使用您的域名驗證抓取提示403,查看源站ip是您cdn的ip,請先取消cdn后再抓取試試,非常感謝您長期對我司的支持!
問:你好!最近幾天我的站點頁面鏈接異常,鏈接能正常訪問,為什么百度抓取狀態返回碼是404?
是不是我站點的主機出現問題啊?
答:您好,
已這個時間為例,我們查了當時web日志127.0.0.1 – – [05/Jan/2018:12:12:31 0800] \”GET /zixun/251.html HTTP/1.1\” 301 536 \”-\” \”Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)\”127.0.0.1 – – [05/Jan/2018:12:12:31 0800] \”GET /zixun/251.html HTTP/1.1\” 404 1252 \”-\” \”Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)\”
當時百度有兩臺服務器同一秒訪問的,一臺正常,另一臺不正常,我們查了服務器并沒有攔截ip的情況,即使是攔截狀態也不會是404,如果服務器當時是有問題的,那么兩臺百度蜘蛛服務器都應該抓不到內容才對,只能建議您聯系百度反饋,讓他們那邊核查下,另外,我們也通過站長工具抓取多次測試均正常,目前無法得知百度出現404的原因,非常感謝您長期對我司的支持!