12行简单的Python代码，初窥爬虫的秘境-德赢Vwin官网网

往往不少童鞋写论文苦于数据获取艰难，辗转走上爬虫之路；

许多分析师做舆情监控或者竞品分析的时候，也常常使用到爬虫。

今天，本文将带领小伙伴们通过12行简单的Python代码，初窥爬虫的秘境。

爬虫目标

本文采用requests + Xpath，爬取豆瓣电影《黑豹》部分短评内容。

运行以上的爬虫脚本，我们得以见证奇迹

爬虫结果与原网页内容的对比，完全一致

通过tqdm模块实现了良好的交互

工具准备

chrome浏览器（分析HTTP请求、抓包）

安装Python 3及相关模块（requests、lxml、pandas、time、random、tqdm）requests：用来简单请求数据lxml：比Beautiful Soup更快更强的解析库pandas：数据处理神器time：设置爬虫访问间隔防止被抓random：随机数生成工具，配合time使用tqdm：交互好工具，显示程序运行进度

基本步骤

网络请求分析

网页内容解析

数据读取存储

涉及知识点

爬虫协议

http请求分析

requests请求

Xpath语法

Python基础语法

Pandas数据处理

爬虫协议

爬虫协议即网站根目录之下的robots.txt文件，用来告知爬虫者哪些可以拿哪些不能偷，其中Crawl-delay告知了网站期望的被访问的间隔。（为了对方服务器端同学的饭碗，文明拿数据，本文将爬虫访问间隔设置为6-9秒的随机数）

豆瓣网站的爬虫协议

HTTP请求分析

使用chrome浏览器访问《黑豹》短评页面https://movie.douban.com/subject/6390825/comments?sort=new_score&status=P，按下F12，进入network面板进行网络请求的分析，通过刷新网页重新获得请求，借助chrome浏览器对请求进行筛选、分析，找到那个Ta

豆瓣短评页面请求分析

通过请求分析，我们找到了目标url为'https://movie.douban.com/subject/6390825/comments?start=0&limit=20&sort=new_score&status=P&percent_type='，并且每次翻页，参数start将往上增加20（通过多次翻页尝试，我们发现第11页以后需要登录才能查看，且登录状态也仅展示前500条短评。作为简单demo，本文仅对前11页内容进行爬取）

requests请求

通过requests模块发送一个get请求，用content方法获取byte型数据，并以utf-8重新编码；然后添加一个交互，判断是否成功获取到资源（状态码为200），输出获取状态

请求详情分析

（除了content，还有text方法，其返回unicode字符集，直接使用text方法遇到中文的话容易出现乱码）

Xpath语法解析

获取到数据之后，需要对网页内容进行解析，常用的工具有正则表达式、Beautiful Soup、Xpath等等；其中Xpath又快又方便。此处我们通过Xpath解析资源获取到了前220条短评的用户名、短评分数、短评内容等数据。（可借助chrome的强大功能直接复制Xpath，Xpath语法学习http://www.runoob.com/xpath/xpath-tutorial.html）

数据处理

获取到数据之后，我们通过list构造dictionary，然后通过dictionary构造dataframe，并通过pandas模块将数据输出为csv文件

结语与彩蛋

本例通过requests+Xpath的方案，成功爬取了电影《黑豹》的部分豆瓣短评数据，为文本分析或其他数据挖掘工作打好了数据地基。本文作为demo，仅展示了简单的爬虫流程，更多彩蛋如请求头、请求体信息获取、cookie、vwin 登录、分布式爬虫等请关注后期文章更新哟。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

代码

代码

+关注

关注
30

文章
4779

浏览量
68518
python

python

+关注

关注
56

文章
4792

浏览量
84624
爬虫

爬虫

+关注

关注
0

文章
82

浏览量
6867

原文标题：12行Python暴力爬《黑豹》豆瓣短评

文章出处：【微信号：magedu-Linux，微信公众号：马哥Linux运维】欢迎添加关注！文章转载请注明出处。

Python数据爬虫学习内容

，利用爬虫，我们可以解决部分数据问题，那么，如何学习Python数据爬虫能？1.学习Python基础知识并实现基本的爬虫过程一般获取数据的过

发表于 05-09 17:25

Python爬虫与Web开发库盘点

Python爬虫和Web开发均是与网页相关的知识技能，无论是自己搭建的网站还是爬虫爬去别人的网站，都离不开相应的Python库，以下是常用的Pyth

发表于 05-10 15:21

Python 爬虫：8 个常用的爬虫技巧总结！

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过

发表于 01-02 14:37

什么是爬虫？

什么是爬虫？爬虫的价值？最简单的python爬虫爬虫基本架构

发表于 11-05 06:13

0基础入门Python爬虫实战课

学习资料良莠不齐爬虫是一门实践性的技能，没有实战的课程都是骗人的！所以这节Python爬虫实战课，将帮到你！课程从0基础入门开始，受众人群广泛：如毕业大学生、转行人群、对Python

发表于 07-25 09:28

Python爬虫简介与软件配置

Python爬虫练习一、爬虫简介1. 介绍2. 软件配置二、爬取南阳理工OJ题目三、爬取学校信息通知四、总结五、参考一、爬虫简介1. 介绍网络爬虫

发表于 01-11 06:32

完全自学指南Python爬虫BeautifulSoup详解

完全自学指南Python爬虫BeautifulSoup详解

发表于 09-07 08:55 •39次下载

python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎

本文档的主要内容详细介绍的是python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎

发表于 08-28 15:32 •29次下载

python为什么叫爬虫

　作为一门编程语言而言，Python是纯粹的自由软件，以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱。举一个例子：完成一个任务的话，c语言一共要写1000行代码，java要写

发表于 12-27 16:46 •15.4w次阅读

python为什么叫爬虫 python工资高还是java的高

要写1000行代码，java要写100行，而python则只需要写20行的代码。使用

发表于 02-19 17:56 •544次阅读

python实现简单爬虫的资料说明

本文档的主要内容详细介绍的是python实现简单爬虫的资料说明。

发表于 11-02 17:53 •21次下载

荣耀手表GS Pro秘境星空版发布：首销1299元

，将于今天 12 点开售。荣耀手表 GS Pro 秘境星空版灵感来自 Discovery 对未知星空的探索，将金星的璀璨颜色运用到了表圈和侧面按键的设计，同时以手工抛光、拉丝、不锈钢精工和蚀刻工艺搭配

发表于 01-22 13:52 •1814次阅读

用Python写网络爬虫

用Python写网络爬虫的方法说明。

发表于 06-01 11:55 •21次下载

利用Python编写简单网络爬虫实例

利用 Python编写简单网络爬虫实例2 实验环境python版本：3.3.5（2.7下报错

发表于 02-24 11:05 •14次下载

crawlerdetect：Python 三行代码检测爬虫

是否担心高频率爬虫导致网站瘫痪？别担心，现在有一个Python写的神器——crawlerdetect，帮助你检测爬虫，保障网站的正常运转。 1.准备开始之前，你要确保Python和

发表于 11-02 11:31 •579次阅读

搜索历史

12行简单的Python代码，初窥爬虫的秘境

评论

Python数据爬虫学习内容

Python爬虫与Web开发库盘点

Python 爬虫：8 个常用的爬虫技巧总结！

什么是爬虫？

0基础入门Python爬虫实战课

Python爬虫简介与软件配置

完全自学指南Python爬虫BeautifulSoup详解

python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎

python为什么叫爬虫

python为什么叫爬虫 python工资高还是java的高

python实现简单爬虫的资料说明

荣耀手表GS Pro秘境星空版发布：首销1299元

用Python写网络爬虫

利用Python编写简单网络爬虫实例

crawlerdetect：Python 三行代码检测爬虫