其他
电影荒吗?教你爬取豆瓣电影top250
点击上方 蓝字关注我们
爬虫目标
项目准备
软件:Pycharm
第三方库:requests,parsel,pandas,lxml,os
网站地址:https://movie.douban.com/top250?start=
网站分析
网站首页如下:
反爬分析
链接分析
第一页:https://movie.douban.com/top250?start=
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
可以发现,每页的电影信息会随着网站链接末尾数字变化而变化。
代码实现
1.获取网页源码信息
25部电影信息打印如下:
数据保存
数据保存我们需要用到pandas,首先我们导入
import pandas as pd
效果展示
csv文件如下:
图片文件如下:
想要学习或者对源码有兴趣的小伙伴扫码回复'电影'即可
扫描二维码
获取更多精彩
python学前班