博客
关于我
python爬虫实践之爬取豆瓣高评分电影
阅读量:257 次
发布时间:2019-03-01

本文共 1472 字,大约阅读时间需要 4 分钟。

爬取豆瓣高评分电影的实现

概述

本文将介绍如何通过编程实现豆瓣高评分电影的爬取,涵盖从准备到完成爬虫的全过程。

准备

所需模块

  • requests 模块用于发送HTTP请求
  • re 模块用于文本处理

涉及知识点

  • Python基础
  • requests 模块基础使用
  • re 模块基础使用

爬虫代码

URL规律

通过分析网页可得,URL格式如下:

https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags=&start={(page_index-1)*20}

其中,page_index 表示页码。

请求头设置

headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"}

爬取逻辑

代码实现如下:

import reimport requestsdef get_douban_high_ratings(page_num):    base_url = "https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags="    start = (page_num - 1) * 20    url = f"{base_url}&start={start}"        response = requests.get(url, headers=headers).text    response = re.sub(r"\\", "", response)        # 提取数据    pat_title = r'"title":"(.*?)",'    pat_rate = r'"rate":"(.*?)",'    pat_url = r'"url":"(.*?)",'        data_title = re.compile(pat_title).findall(response)    data_rate = re.compile(pat_rate).findall(response)    data_url = re.compile(pat_url).findall(response)        return data_title, data_rate, data_url# 输入要爬取的总记录数page_num = int(input("请输入您想爬取的总记录数(每20条为一个页面):"))titles, rates, urls = get_douban_high_ratings(page_num)for title, rate, url in zip(titles, rates, urls):    print(f"{title}\t\t{rate}")

运行效果

运行上述代码后,您可以在控制台看到如下结果:

电影标题    评分--------------------------------------------------------电影名称1    9.0电影名称2    8.9...

总结

通过上述方法,我们成功实现了对豆瓣高评分电影的爬取。该方法基于requests和re模块,能够高效地获取所需数据。

转载地址:http://pqzx.baihongyu.com/

你可能感兴趣的文章
Mysql学习总结(33)——阿里云centos配置MySQL主从复制
查看>>
Mysql学习总结(35)——Mysql两千万数据优化及迁移
查看>>
Mysql学习总结(36)——Mysql查询优化
查看>>
Mysql学习总结(37)——Mysql Limit 分页查询优化
查看>>
Mysql学习总结(38)——21条MySql性能优化经验
查看>>
Mysql学习总结(39)——49条MySql语句优化技巧
查看>>
Mysql学习总结(3)——MySql语句大全:创建、授权、查询、修改等
查看>>
Mysql学习总结(40)——MySql之Select用法汇总
查看>>
Mysql学习总结(41)——MySql数据库基本语句再体会
查看>>
Mysql学习总结(42)——MySql常用脚本大全
查看>>
Mysql学习总结(43)——MySQL主从复制详细配置
查看>>
Mysql学习总结(44)——Linux下如何实现mysql数据库每天自动备份定时备份
查看>>
Mysql学习总结(45)——Mysql视图和事务
查看>>
Mysql学习总结(46)——8种常被忽视的SQL错误用法
查看>>
Mysql学习总结(48)——MySql的日志与备份还原
查看>>
Mysql学习总结(49)——从开发规范、选型、拆分到减压
查看>>
Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型
查看>>
Mysql学习总结(50)——Oracle,mysql和SQL Server的区别
查看>>
Mysql学习总结(51)——Linux主机Mysql数据库自动备份
查看>>
Mysql学习总结(52)——最全面的MySQL 索引详解
查看>>