問:我網站最近連續多天百度蜘蛛突然不來抓取爬行,去百度站長工具查看抓取異常有服務器錯誤返回5XX、服務器拒絕訪問返回403、頁面不存在404和其他各類4XX錯誤。請幫忙排查處理。之前曾經設置過http301跳轉https,不知道是不是這個操作中產生了什么意外?,服務器訪問錯誤和拒絕
答:您好
問:首頁是沒有問題的。 我看過之前的網站日志,有問題的是眾多內頁和http跳轉https導致的。
答:您好:
請在下站長平臺模擬抓取試一下,并截圖反饋到本工單,我司將根據反饋的信息分析處理,非常感謝您長期對我司的支持!
問:
答:您好:
問:
答:您好,我們查看了網站本身是正常的,我們查看您的https訪問是有異常的,您網站內部加載好http,提示有風險,不確認是不是因為這個原因會影響抓取,請您先檢查下網站內部加載,把調用http的圖片地址都改成https,修改以后過一會再抓取試下,非常感謝您長期對我司的支持!
問:從您截圖的信息看,是不是說把我內部的圖片鏈接全部從http改為https就可能解決問題?
答:您好,不能確定是不是這個問題,但現在最起碼您網站確實有這個問題,訪問也不友好,您修改后過一會再去抓取診斷看看,非常感謝您長期對我司的支持!
問:我查看到自己內頁https://www.jiadunfood.com/cat-products/ 中有一些是http的鏈接,例如http://www.jiadunfood.com/cat-rusuanjun/31047.html 打開后雖然能自動跳轉為https,但是經過工具查詢反饋是403(forbidden request).會不會是因為上一個工單您幫我做過http跳轉https規則有問題? 我這邊聯絡過網站程序商也幫我做過一次跳轉,怕是重復沖突了吧?
答:您好,鏈接的狀態是301的,并非403,您那個檢測應該是說https://www.jiadunfood.com/cat-products/ 這個鏈接里面加載的http狀態是403,https本身加載http就是會被認為不安全,所以才會讓您將鏈接全部跳轉為https。
另外關于百度抓取的問題,我們后續做了測試,發現是百度自己的問題,我們測試了一些我們員工自己的網站,發現也是提示抓取socket錯誤,包括服務器在其他公司的網站,也都有這個提示,所以抓取的問題應該是百度自身的問題,建議過一段時間再查看,非常感謝您長期對我司的支持!
問:感謝您的熱心解答,我已經處理掉內部http。我觀察網站日志,發現搜索引擎蜘蛛爬行的url居然是很多個重復域名組成的!會不會是301重定向發生了錯誤?如果跳轉后的鏈接超長或者連續跳轉的次數太多,就會發生重定向錯誤而導致蜘蛛抓取失敗。
答:您好,301是正常的,本身如果是從http訪問進來的,會通過301跳轉到https
截圖中出現多個url的情況,我司通過模擬搜索引擎訪問并未查看到此情況,建議是再觀察幾天搜索引擎的抓取情況,非常感謝您長期對我司的支持!