問:
請問服務器是不是有類似反爬蟲機制,我們目前有4個服務商無法正常獲取到rss的數據。他們通過curl -v \’http://www.sun-edu.cn/zhiku/index.php?m=content&c=rss&rssid=6\’命令獲取到的數據并非這個頁面的數據!,http:www.sun-edu.cn服務器是否有反爬蟲機制
答:您好,
請提供下useragent 名字我們測試下,我們直接curl 看到的是正確內容,您截圖這個有點像是程序內被掛馬了,非常感謝您長期對我司的支持!
問: user agent是什么東西呀?
答:您好,請提供下對方本地ip地址,我們通過日志核實對方訪問記錄看下,如果對方是直接curl -v請求的
那么日志里是這樣記錄的wangkepifa 127.0.0.1 – – [18/Feb/2019:14:04:36 0800] \”GET /zhiku/index.php?m=content&c=rss&rssid=6 HTTP/1.1\” 200 15822 \”-\” \”curl/7.29.0\” 127.0.0.1user-agent就是\”curl/7.29.0\”如果對方在請求時帶上了user-agent為Baiduspider|Googlebot則會返回403,其他情況我司沒有攔截,如果按您描述,出現了其他頁面,要檢查對方是否請求的命令問題,比如,沒有用引號將url地址括起來,導致后面的參數丟失了引起,非常感謝您長期對我司的支持!
問:1、http://www.sun-edu.cn/rss.php
2、https://m.eransu.cn/rss.php兩個地址內容一模一樣,但是對方通過1鏈接無法正常獲取到rss數據源,通過2鏈接可以正常獲取到rss數據源。鏈接1是放到貴公司的虛擬主機,鏈接2是放在我們的服務器上。請核對西數這邊2月1號左右是不是對服務器做了什么新的設置!
問:對方說把user-agent改成了谷歌瀏覽器同樣無法獲取到數據!
答:您好,核實該服務器開啟了防火墻cc防護,已經關閉,請再測試,非常感謝您長期對我司的支持!
問:服務器錯誤
爬蟲發起抓取,httpcode返回碼是5XX。
為什么服務器老是出問題,這樣下去不敢用了啊
答:您好,我們測試目前正常,請核實,非常感謝您長期對我司的支持.由此給您帶來的不便之處,敬請原諒!謝謝!
問:服務器錯誤:爬蟲發起抓取,httpcode返回碼是5XX
答:您好,
非常抱歉,從主機的logs目錄下的站點訪問日志查詢百度蜘蛛抓取的狀態碼是正常的,請您詳細說明下您的測試方式,并提供下相關截圖以便我司排查;非常感謝您長期對我司的支持!