大家都知道网络爬虫说得高大上,无非就是三步走,1,发送请求2,接收响应3,处理结果。而今天我将带领大家爬取网络上免费的代理ip,为以后的学习打下基础,当然也需有的网站可以直接获取下载代理ip,那这篇文章还看不看,答案是当然也需要看的,相当于增加实战经验,或者当别人问你你ip池怎么搞的,网络上下载的这个回答体现不出在练气期程序员的水准,如果你说我是通过我高超的技术网络上爬取下来的,是不是特别有b格啊,哈哈哈哈。那咱们废话不多说,直接开始1.定位好你需要爬取的网页 直接在浏览器搜索ip代理,他会出现很多网页,你找个和下面图片类似的一个网页就可以了
通过开发者窗口找到我们需要的请求url和user-agent:
2打开pycharm,编写程序
#导包
import requests
#发送给谁
url='https://www.89ip.cn/'
#伪装自己
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
#发送请求
response=requests.get(url,headers=headers)
#接收响应
print(response.text)
#处理结果
导报不言而喻,现在程序基本上或多或少都需要导包,而我导的是爬虫常用的requests,除此之外还有很多爬虫包,后面使用的时候咋们在详细说一下
发送给谁,相当于你给别人写信,是不是要附上对面的地址,邮递员才能送到啊,而这个就相当于对方的地址,将上面的请求url值赋值给url这个常量。
为什么要伪装自己,因为我们是用代码去访问服务器,而不是用浏览器去访问服务器,服务器根本就识别不了代码,所以第三步就是将代码伪装成浏览器,也就是在1中我们复制的User-Agent里面的内容,将内容赋值给User-Agent常量中并封装到headers请求头中
第四步就是发送请求,用requests的get方法,至于为啥用get方法,请看开发者窗口里面常规中的请求方法是什么,如果是GET就用get方法,如果是POST就用post方法