做爬虫都希望自己的爬虫尽快的抓取大量的数据,而且还要经常频繁的更新数据,当然有节操的爬虫都知道将爬取频率设在一个合理的范围降低目标服务器的压力而不是逞能爬的飞快,要知道爬与反爬没有绝对的有效手段。
更常用的手段是使用代理ip,突破服务器的反爬虫机制,继续较高频率的抓取。有一个思路是我们的adsl拨号一般断线重拨后会得到一个新的ip,我们可以在一段时间后就重新连接adsl获取新的ip再继续爬取,但是有个问题拨号重拨必须要间隔一段时间才可以,这样我们的程序就中断了,所以你可以准备几台adsl的服务器作为代理,然后爬虫运行在另外一台不断网的服务器运行,当然这样使用对于大数据爬取来说就太麻烦了,于是就有了很多第三方的专业代理商,【优亦云】ip代理可以方便快捷的获取大量的ip资源,是您采集数据的好助手。