9.1 爬取豆瓣电影 Top250
爬虫是标配了,看数据那一刻很有趣。第一个就从最最最简单最基础的爬虫开始写起吧!
项目地址:https://github.com/go-crawler/douban-movie
目标
我们的目标站点是 豆瓣电影 Top250,估计大家都很眼熟了
本次爬取8个字段,用于简单的概括分析。具体的字段如下:

简单的分析一下目标源
一页共25条
含分页(共10页)且分页规则是正常的
每一项的数据字段排序都是规则且不变
开始
由于量不大,我们的爬取步骤如下
分析页面,获取所有的分页
分析页面,循环爬取所有页面的电影信息
爬取的电影信息入库
安装
运行
代码片段
1、获取所有分页
2、分析豆瓣电影信息
数据



看到这些数据,你有什么想法呢,真是好奇 :=)
Last updated
Was this helpful?