菜鸟初学python爬虫,爬一个没有反爬的炒鸡简单的网站。http://www.mzitu.com/zipai/
用到的模块
1 | import requests |
找到当前页面图片地址
首先打开网站,右键图片点击检查,发现图片地址在p标签下的img标签中储存。
先用get方法获取页面内容,再用BeautifulSoup煲汤。1
2
3
4r = requests.get('http://www.mzitu.com/zipai/')
soup = BeautifulSoup(r.text,'lxml') #需要 pip install lxml
list1 = []
list1 = soup.select('p > img')
然后再用for循环提取出img的属性1
2
3
4list2 =[]
for i in list1:
list2.append(i.get('src'))
print(i.get('src'))
下载图片
1 |
|
循环每个页面
很容易可以观察到,地址的格式是”http://www.mzitu.com/zipai/comment-page-"+ 页数+”/#comments”
因此写个for循环即可遍历地址1
2for i in range(1,365):
url ="http://www.mzitu.com/zipai/comment-page-"+ str(i)+"/#comments"
再把url传入上面的方法即可。
小问题
1 | import requests |