9.1 爬取豆瓣电影 Top250

爬虫是标配了,看数据那一刻很有趣。第一个就从最最最简单最基础的爬虫开始写起吧!

项目地址:https://github.com/go-crawler/douban-movie

目标

我们的目标站点是 豆瓣电影 Top250,估计大家都很眼熟了

本次爬取8个字段,用于简单的概括分析。具体的字段如下:

image

简单的分析一下目标源

  • 一页共25条

  • 含分页(共10页)且分页规则是正常的

  • 每一项的数据字段排序都是规则且不变

开始

由于量不大,我们的爬取步骤如下

  • 分析页面,获取所有的分页

  • 分析页面,循环爬取所有页面的电影信息

  • 爬取的电影信息入库

安装

运行

代码片段

1、获取所有分页

2、分析豆瓣电影信息

数据

image
image
image

看到这些数据,你有什么想法呢,真是好奇 :=)

Last updated

Was this helpful?