Python爬虫：爬取人人都是产品经理的数据

爬取内容：

人人都是产品经理首页（www.woshipm.com）左侧【最新文章】下如图样式的文章标题、浏览量和缩略图。

思路：

1. 用BeautifulSoup解析网页

变量名 = BeautifulSoup(网页信息,'lxml')

2. 描述要爬取的内容在哪儿

变量名 = 变量名.select()

3. 爬取出我们想要的内容

接下来看具体实现。

1. 我们需要先安装将使用到的库：BeautifulSoup、requests、lxml，安装方法参见我之前的一篇文章：《Python入门：如何使用第三方库？》。其中BeautifulSoup和lxml是常用的第三方库，用来解析网页。然后插入BeautifulSoup和requests库。

 from bs4 import BeautifulSoup
 import requests

2. 插入好第三方库后，需要描述我们想要爬取的信息在哪儿。

 url = 'http://www.woshipm.com'
 web_data = requests.get(url)
 soup = BeautifulSoup(web_data.text,'lxml')
 titles = soup.select('h2.stream-list-title > a')
 pageviews = soup.select('footer > span.post-views')
 imgs = soup.select('div.stream-list-image > a > img')

我们逐行来看下。

第一行：写明我们是从哪个网页中获取信息；

第二行：web_data为变量名，用requests库的get来请求这个网页中的信息；

第三行：soup为变量名，调用BeautifulSoup和lxml库来解析网页，其中web_data.text为我们要获取的网页的文本信息；

第四行：写明变量titles的具体位置，使用select方法来实现，括号内为标题在网页中的位置，位置的获取方法如下：

用Google浏览器打开该页面——鼠标移入标题处，右键选择【检查】——右侧可以看到标题对应的代码，鼠标放置代码处右键【Copy】——选择【Copy selector】。BeautifulSoup支持selector，不支持XPath。

这时可以获得标题的路径，复制出来的路径应该是个比较长的路径，我删去了前面的部分，保留了标题前的2-3层来代表其路径。

第五行pageviews、第六行imgs方法同上。

3. 做好上面两步后，接下来我们要爬取出我们的目标信息，并将它们装入字典中，关于字典的用法在文章《Python入门：数据结构的4种基本类型》中有说明。

 for title,pageview,img in zip(titles,pageviews,imgs):
     data = {
         'title':title.get_text(),
         'pageview':pageview.get_text(),
         'img':img.get('src')
     }
     print(data)

本案例中我们爬取的数据有3个，标题（titles）、浏览量（pageviews）、图片（imgs），我们可以将三个数据放在一起用zip来实现。关于for循环的使用在文章《Python入门：for循环、while循环》中有提到。

运行程序后，可以得到我们想要的结果（woshipm首页默认加载的10篇文章数据）。

最后，附完整代码：

 from bs4 import BeautifulSoup
 import requests

 url = 'http://www.woshipm.com'
 web_data = requests.get(url)
 soup = BeautifulSoup(web_data.text,'lxml')
 titles = soup.select('h2.stream-list-title > a')
 pageviews = soup.select('footer > span.post-views')
 imgs = soup.select('div.stream-list-image > a > img')

 for title,pageview,img in zip(titles,pageviews,imgs):
     data = {
         'title':title.get_text(),
         'pageview':pageview.get_text(),
         'img':img.get('src')
     }
     print(data)

建议大家可以使用类似的方法去爬取下比如作者信息、收藏量等，或换个网页做新的尝试。Learning by doing。

操作环境：Python版本，3.6；PyCharm版本，2016.2；电脑：Mac

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

Python爬虫：爬取人人都是产品经理的数据的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

phprpc的使用示例以及报错Fatal error: Cannot redeclare gzdecode() in D:\wamp\www\immoc\phprpc\compat.php 处理
今天看书,发现了PHPRPC这个好东东,故在此写下来以作笔记. PHPRPC 是一个轻型的.安全的.跨网际的.跨语言的.跨平台的.跨环境的.跨域的.支持复杂对象传输的.支持引用参数传递的.支持内容输出 ...
ubuntu 打开eclipse出现A Java Runtime Environment (JRE) or Java Development Kit (JDK) must be ... 解决方法（转载）
原创作者:http://www.cnblogs.com/jerome-rong/archive/2013/02/19/2916608.html Java RunTime Environment (JR ...
ant.design React使用Echarts，实力踩坑
最近项目用到Echarts(以下用ec代替),于是照猫画虎得引入到团队的antd项目中,但是遇到2个棘手问题: 1. ec对dom不渲染,检查后发现,原来是全局存在id重复,所以使用React时,最好 ...
dp 洛谷P1977 出租车拼车线性dp
题目背景话说小 x 有一次去参加比赛,虽然学校离比赛地点不太远,但小 x 还是想坐出租车去.大学城的出租车总是比较另类,有“拼车”一说,也就是说,你一个人坐车去,还是一堆人一起,总共需要支付的钱 ...
007_Mac上安装Node和NPM
一.推荐brew来对node和npm版本进行管理. <1>确保brew是安全可靠的,代码如下: $ brew doctor #直接install node会有以下报错https://git ...
GoldenGate OGG-01032 There Is a Problem in Network Communication Error in Writing to Rmt Remote Trail Rmttrail (Doc ID 1446621.1)
GoldenGate OGG-01032 There Is a Problem in Network Communication Error in Writing to Rmt Remote Trai ...
Node.js读取文件内容并返回值(非异步)
主要解决的问题的,以最近VsCode插件开发为例,每次请求都需要token,而vscode并不支持cookie这样的存储,所以就采用粗暴点办法,存到某个用户目录下并读取. 源码如下: var fs=r ...
redis list 清空记录小技巧
redis list 清空记录小技巧 redis中的list操作命令中删除指定key中的所有记录命令: ltrim key 1 0 即 ltrim key start end 中的start要比e ...
HTTP协议、HTTP请求方法、常见状态码、HTTP消息
HTTP协议客户端请求,服务端响应.浏览器与服务器不建立持久连接,响应后连接失效. HTTP请求方法一.GET GET方法用于获取请求页面的指定信息. 二.HEAD 除了服务器不能在响应里返回消息 ...
Android测试（一）：在Android中测试App
原文:https://developer.android.com/training/testing/index.html 测试你的App是开发过程中的重要组成部分.通过对应用程序持续的运行测试,你可以 ...

Python爬虫：爬取人人都是产品经理的数据

Python爬虫：爬取人人都是产品经理的数据的更多相关文章

随机推荐

热门专题