python爬虫实践之爬取豆瓣高评分电影

阅读量：257 次

发布时间：2019-03-01

本文共 1472 字，大约阅读时间需要 4 分钟。

爬取豆瓣高评分电影的实现

概述

本文将介绍如何通过编程实现豆瓣高评分电影的爬取，涵盖从准备到完成爬虫的全过程。

准备

所需模块

requests 模块用于发送HTTP请求

re 模块用于文本处理

涉及知识点

Python基础

requests 模块基础使用

re 模块基础使用

爬虫代码

URL规律

通过分析网页可得，URL格式如下：

https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags=&start={(page_index-1)*20}

其中，page_index 表示页码。

请求头设置

headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"}

爬取逻辑

代码实现如下：

import reimport requestsdef get_douban_high_ratings(page_num):    base_url = "https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags="    start = (page_num - 1) * 20    url = f"{base_url}&start={start}"        response = requests.get(url, headers=headers).text    response = re.sub(r"\\", "", response)        # 提取数据    pat_title = r'"title":"(.*?)",'    pat_rate = r'"rate":"(.*?)",'    pat_url = r'"url":"(.*?)",'        data_title = re.compile(pat_title).findall(response)    data_rate = re.compile(pat_rate).findall(response)    data_url = re.compile(pat_url).findall(response)        return data_title, data_rate, data_url# 输入要爬取的总记录数page_num = int(input("请输入您想爬取的总记录数（每20条为一个页面）："))titles, rates, urls = get_douban_high_ratings(page_num)for title, rate, url in zip(titles, rates, urls):    print(f"{title}\t\t{rate}")

运行效果

运行上述代码后，您可以在控制台看到如下结果：

电影标题    评分--------------------------------------------------------电影名称1    9.0电影名称2    8.9...

总结

通过上述方法，我们成功实现了对豆瓣高评分电影的爬取。该方法基于requests和re模块，能够高效地获取所需数据。

转载地址：http://pqzx.baihongyu.com/

你可能感兴趣的文章

MySQL创建用户报错：ERROR 1396 (HY000): Operation CREATE USER failed for 'slave'@'%'

查看>>

MySQL创建索引时提示“Specified key was too long； max key length is 767 bytes”

查看>>

mysql初始密码错误问题

查看>>

mysql判断某一张表是否存在的sql语句以及方法

查看>>

mysql加入安装策略_一键安装mysql5.7及密码策略修改方法

查看>>

mysql加强（1）~用户权限介绍、分别使用客户端工具和命令来创建用户和分配权限

查看>>

mysql加强（3）~分组(统计)查询

查看>>

mysql加强（4）~多表查询：笛卡尔积、消除笛卡尔积操作(等值、非等值连接)，内连接（隐式连接、显示连接)、外连接、自连接

查看>>

mysql加强（5）~DML 增删改操作和 DQL 查询操作

查看>>

mysql加强（6）~子查询简单介绍、子查询分类

查看>>

mysql加强（7）~事务、事务并发、解决事务并发的方法

mysql参考触发条件_MySQL 5.0-触发器（参考）_mysql

查看>>

MySQL及navicat for mysql中文乱码

查看>>