【爬虫IP】使用Python写爬虫时,如何反反爬虫?技术方法如下:

时间:2022-03-20    发布者:api代理【优亦云】    来源:爬虫IP【优亦云】

分享到:

1、关于headers常见的为浏览器加入headers,需要设置Requests Headers里面的内容其中的每一个参数都有自己的作用,面对不同的网站时方法也不一样。常见的就是设置User-Agent,这里推荐一个包fake-useragent。

2、关于代理简单方法就是购买,免费的和收费的相比还是差了不少。如果想获得免费的可用的代理如何办?可以看到在Google上可以看到很多搜索结果,接下来怎么做你懂的。

3、关于Cookie请求会返回多个Cookie,我们从其中找到最有效的Cookie,这回极大的提高效率。

4、关于SeleniumSelenium可以完美解决反爬,因为它就是一个真实的浏览器在操作,网站没理由把它干掉。但是也要看到Selenium的缺点,速度慢、效率低是最主要问题。自己写着玩玩可以,但是在真是的应用中,Selenium并不常见。当然,你可以使用Selenium+Phantomjs,并对其进行优化,速度和别的爬虫还是没法比。