博客
关于我
python爬虫实践之爬取豆瓣高评分电影
阅读量:257 次
发布时间:2019-03-01

本文共 1498 字,大约阅读时间需要 4 分钟。

爬取豆瓣高评分电影的实现

概述

本文将介绍如何通过编程实现豆瓣高评分电影的爬取,涵盖从准备到完成爬虫的全过程。

准备

所需模块

  • requests 模块用于发送HTTP请求
  • re 模块用于文本处理

涉及知识点

  • Python基础
  • requests 模块基础使用
  • re 模块基础使用

爬虫代码

URL规律

通过分析网页可得,URL格式如下:

https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags=&start={(page_index-1)*20}

其中,page_index 表示页码。

请求头设置

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"
}

爬取逻辑

代码实现如下:

import re
import requests
def get_douban_high_ratings(page_num):
base_url = "https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags="
start = (page_num - 1) * 20
url = f"{base_url}&start={start}"
response = requests.get(url, headers=headers).text
response = re.sub(r"\\", "", response)
# 提取数据
pat_title = r'"title":"(.*?)",'
pat_rate = r'"rate":"(.*?)",'
pat_url = r'"url":"(.*?)",'
data_title = re.compile(pat_title).findall(response)
data_rate = re.compile(pat_rate).findall(response)
data_url = re.compile(pat_url).findall(response)
return data_title, data_rate, data_url
# 输入要爬取的总记录数
page_num = int(input("请输入您想爬取的总记录数(每20条为一个页面):"))
titles, rates, urls = get_douban_high_ratings(page_num)
for title, rate, url in zip(titles, rates, urls):
print(f"{title}\t\t{rate}")

运行效果

运行上述代码后,您可以在控制台看到如下结果:

电影标题    评分
--------------------------------------------------------
电影名称1 9.0
电影名称2 8.9
...

总结

通过上述方法,我们成功实现了对豆瓣高评分电影的爬取。该方法基于requests和re模块,能够高效地获取所需数据。

转载地址:http://pqzx.baihongyu.com/

你可能感兴趣的文章
Mysql Innodb 锁机制
查看>>
MySQL InnoDB中意向锁的作用及原理探
查看>>
MySQL InnoDB事务隔离级别与锁机制深入解析
查看>>
Mysql InnoDB存储引擎 —— 数据页
查看>>
Mysql InnoDB存储引擎中的checkpoint技术
查看>>
Mysql InnoDB存储引擎中缓冲池Buffer Pool、Redo Log、Bin Log、Undo Log、Channge Buffer
查看>>
MySQL InnoDB引擎的锁机制详解
查看>>
Mysql INNODB引擎行锁的3种算法 Record Lock Next-Key Lock Grap Lock
查看>>
mysql InnoDB数据存储引擎 的B+树索引原理
查看>>
mysql innodb通过使用mvcc来实现可重复读
查看>>
mysql insert update 同时执行_MySQL进阶三板斧(三)看清“触发器 (Trigger)”的真实面目...
查看>>
mysql interval显示条件值_MySQL INTERVAL关键字可以使用哪些不同的单位值?
查看>>
Mysql join原理
查看>>
MySQL Join算法与调优白皮书(二)
查看>>
Mysql order by与limit混用陷阱
查看>>
Mysql order by与limit混用陷阱
查看>>
mysql order by多个字段排序
查看>>
MySQL Order By实现原理分析和Filesort优化
查看>>
mysql problems
查看>>
mysql replace first,MySQL中处理各种重复的一些方法
查看>>