Python爬虫初识

本文章是对网易云课堂中的Python网络爬虫实战课程进行总结。感兴趣的朋友可以观看视频课程。课程地址

爬虫简介

一段自动抓取互联网信息的程序

非结构化数据

没有固定的数据格式，如网页资料。

必须通过ETL(Extract,Transformation,Loading)工具将数据转化为结构化数据才能使用。

工具安装

Anaconda

pip install requests

pip install BeautifulSoup4

pip install jupyter

打开jupyter

jupyter notebook

requests 网络资源截取插件

取得页面

import requests

url = ''

res = requests.get(url)

res.encoding = 'utf-8'

print (res.text)

将网页读进BeautifulSoup中

from bs4 import BeautifulSoup

soup  = BeautifulSoup(res.text, 'html.parser')

print (soup.text)

使用select方法找找出特定标签的HTML元素，可取标签名或id，class返回的值是一个list

select('h1')   select('a')

id = 'thehead' select('#thehead')

alink = soup.select('a')

for link in alink:

    print (link['href'])

例子

1、取得新浪陕西的新闻时间标题和连接

import requests

from bs4 import BeautifulSoup

res = requests.get('http://sx.sina.com.cn/')

res.encoding = 'utf-8'

soup = BeautifulSoup(res.text, 'html.parser')

for newslist in soup.select('.news-list.cur'):

    for news in newslist:

        for li in news.select('li'):

            title = li.select('h2')[0].text

            href = li.select('a')[0]['href']

            time = li.select('.fl')[0].text

            print (time, title, href)

2、获取文章的标题，来源，时间和正文

import requests

from bs4 import BeautifulSoup

from datetime import datetime

res = requests.get('http://sx.sina.com.cn/news/b/2018-06-02/detail-ihcikcew5095240.shtml')

res.encoding = 'utf-8'

soup = BeautifulSoup(res.text, 'html.parser')

h1 = soup.select('h1')[0].text

source = soup.select('.source-time span span')[0].text

timesource = soup.select('.source-time')[0].contents[0].text

date = datetime.strptime(timesource, '%Y-%m-%d %H:%M')

article = []

for p in soup.select('.article-body p')[:-1]:

    article.append(p.text.strip())

' '.join(article)

简写为：

' '.join([p.text.strip() for p in soup.select('.article-body p')[:-1]])

说明：

datatime 包用来格式化时间

[:-1]去除最后一个元素

strip() 移除字符串头尾指定的字符（默认为空格或换行符）

' '.join(article) 将列表以空格连接

3、获取文章的评论数，评论数是通过js写入，不能通过上面的方法获取到，在js下，找到文章评论的js

import requests

import json

comments = requests.get('http://comment5.news.sina.com.cn/cmnt/count?format=js&newslist=sx:comos-hcikcew5095240:0')

jd = json.loads(comments.text.strip('var data ='))

jd['result']['count']['sx:comos-hcikcew5095240:0']['total']

4、将获得评论的方法总结成一个函数

import re

import json

commenturl = 'http://comment5.news.sina.com.cn/cmnt/count?format=js&newslist=sx:comos-{}:0'

def getCommentCounts(url):

    m = re.search('detail-i(.+).shtml' ,url)

    newsid = m.group(1)

    comments = requests.get(commenturl.format(newsid))

    jd = json.loads(comments.text.strip('var data ='))

    return jd['result']['count']['sx:comos-'+newsid+':0']['total']

news = 'http://sx.sina.com.cn/news/b/2018-06-01/detail-ihcikcev8756673.shtml'

getCommentCounts(news)

5、输入地址得到文章的所有信息（标题、时间、来源、正文等）的函数（完整版）

import requests

import json

import re

from bs4 import BeautifulSoup

from datetime import datetime

commenturl = 'http://comment5.news.sina.com.cn/cmnt/count?format=js&newslist=sx:comos-{}:0'

def getCommentCounts(url):

    m = re.search('detail-i(.+).shtml' ,url)

    newsid = m.group(1)

    comments = requests.get(commenturl.format(newsid))

    jd = json.loads(comments.text.strip('var data ='))

    return jd['result']['count']['sx:comos-'+newsid+':0']['total']

def getNewsDetail(newsurl):

    result = {}

    res = requests.get(newsurl)

    res.encoding = 'utf-8'

    soup = BeautifulSoup(res.text, 'html.parser')

    result['title'] = soup.select('h1')[0].text

    result['newssource'] = soup.select('.source-time span span')[0].text

    timesource = soup.select('.source-time')[0].contents[0].text

    result['date'] = datetime.strptime(timesource, '%Y-%m-%d %H:%M')

    result['article'] = ' '.join([p.text.strip() for p in soup.select('.article-body p')[:-1]])

    result['comments'] = getCommentCounts(newsurl)

    return result

news = 'http://sx.sina.com.cn/news/b/2018-06-02/detail-ihcikcew8995238.shtml'

getNewsDetail(news)

Python爬虫初识的更多相关文章

孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
Python爬虫--初识爬虫
Python爬虫一.爬虫的本质是什么? 模拟浏览器打开网页,获取网页中我们想要的那部分数据浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务 ...
@1-2初识Python爬虫
初识Python爬虫 Python爬虫(入门+进阶) DC学院环境搭建: Python2与Python3的差异:python2与python3整体差异不大,大多是一些语法上的区别,考虑到py ...
初识python爬虫框架Scrapy
Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速.简单.可扩展的方式从网站提取所需的数据. 我们一开始上手爬虫的时候,接触的是urllib.r ...
初识Python和使用Python爬虫
一.python基础知识了解: 1.特点: Python的语言特性: Python是一门具有强类型(即变量类型是强制要求的).动态性.隐式类型(不需要做变量声明).大小写敏感(var和VAR代表 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
python爬虫系列序
关于爬虫的了解,始于看到这篇分析从数据角度解析福州美食,和上份工作中的短暂参与. 长长短短持续近一年的时间,对其态度越来越明晰,噢原来这就是我想从事的工作. 于是想要系统学习的心理便弥散开来…… 参考 ...
python 爬虫简介
初识Python爬虫互联网简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现 ...
Python正则表达式初识（二）
前几天给大家分享了Python正则表达式初识(一),介绍了正则表达式中的三个特殊字符“^”.“.”和“*”,感兴趣的伙伴可以戳进去看看,今天小编继续给大家分享Python正则表达式相关特殊字符知识点. ...

随机推荐

git code 初次上传
http://blog.csdn.net/hanhailong726188/article/details/46738929 1 cd到当前项目的跟目录执行 git init 2 将当前项目的所有文 ...
Flask从入门到精通之模型定义
模型这个术语表示程序使用的持久化实体.在ORM 中,模型一般是一个Python 类,类中的属性对应数据库表中的列. Flask-SQLAlchemy 创建的数据库实例为模型提供了一个基类以及一系列辅助 ...
[AIR] AIR程序调用本地默认应用程序打开本地文件
摘要: File类提供了一个方法openWithDefaultApplication可以用本地默认应用程序打开指定路径下的文件. 当我用下面语句的时候,可以成功打开桌面文件夹下面的文件: v ...
解决org.hibernate.QueryException illegal attempt to dereference collection 异常错误
今天做项目的时候,有两个实体:款式.品牌两者关系是多对多的关联关系,实现的功能是:通过选择款式,显示出该款式的所有品牌.HQL语句如下: 运行时出现这个异常错误:org.hibernate.Query ...
缓存行和cpu缓存实例
并发框架Disruptor译文剖析Disruptor:为什么会这么快?(一)锁的缺点剖析Disruptor:为什么会这么快?(二)神奇的缓存行填充剖析Disruptor:为什么会这么快?(三)伪 ...
jvm内存结构(一)(结构总览)
jvm内存结构:<Java虚拟机原理图解>3.JVM运行时数据区程序计数器: ,是执行的字节码的行号指示器,记录的是正在执行的虚拟机字节码指令的地址. ,每个线程都有独立计数器,互不干扰 ...
Android中获取正在运行的服务-------ActivityManager.RunningServiceInfo的使用
关于PackageManager和ActivityManager的使用 ,自己也写了一些DEMO 了,基本上写的线路参考了Settings模块下的应用程序,大家如果真正的有所兴趣,建议大家看看源码, ...
Sublime Text 乱码解决（Package Control 和 ConvertToUTF8插件安装）
Sublime Text的界面正如她的名字sublime一样,充满极客感觉的高大上,而且拥有强大的功能.但是她默认是不支持GBK编码的. 本来安装一个Package Control插件管理,再安装其他 ...
【洛谷P4934】礼物，拓扑排序
题目大意:给你$n$个不重复的数,其值域为$[0,2^k)$,问你至少需要将这$n$个数拆成多少个集合,使得它们互相不是对方的子集,并输出方案. 数据范围:$n≤10^6$,$k≤20$. $MD$我 ...
AngularJS学习之旅
开篇最近由于项目上可能需要用到AngularJS,公司将技术学习.调研的任务安排了下来,因此开始了我的AngularJS学习之路. 在这之前没写过技术博客,主要是由于太懒,另外自愧文笔不好,因此一直 ...

Python爬虫初识

爬虫简介

非结构化数据

工具安装

requests 网络资源截取插件

取得页面

将网页读进BeautifulSoup中

使用select方法找找出特定标签的HTML元素，可取标签名或id，class返回的值是一个list

例子

1、取得新浪陕西的新闻时间标题和连接

2、获取文章的标题，来源，时间和正文

3、获取文章的评论数，评论数是通过js写入，不能通过上面的方法获取到，在js下，找到文章评论的js

4、将获得评论的方法总结成一个函数

5、输入地址得到文章的所有信息（标题、时间、来源、正文等）的函数（完整版）

Python爬虫初识的更多相关文章

随机推荐

热门专题