python爬取网页内容demo

 #html文本提取

 from bs4 import BeautifulSoup

 html_sample = '\

 <html> \

 <body> \

 <h1 id = "title">Hello world</h1>\

 <a href = "#www.baidu.com" class = "link"> This is link1</a>\

 <a href = "#link2" class = "link"> This is link2</a> \

 </body> \

 </html>'

 soup = BeautifulSoup(html_sample,'html.parser')

 print(soup.text)

 soup.select('h1')

 print(soup.select('h1')[0].text)

 print(soup.select('a')[0].text)

 print(soup.select('a')[1].text)

 for alink in soup.select('a'):

     print(alink.text)

 print(soup.select('#title')[0].text)

 print(soup.select('.link')[0].text)

 alinks = soup.select('a')

 for link in alinks:

     print(link['href'])

demo2:

 import requests

 from bs4 import BeautifulSoup

 res = requests.get('http://news.qq.com/')

 soup = BeautifulSoup(res.text,'html.parser')

 newsary = []

 for news in soup.select('.Q-tpWrap .text'):

     newsary.append({'title':news.select('a')[0].text, 'url':news.select('a')[0]['href']})

 import pandas

 newsdf = pandas.DataFrame(newsary)

 newsdf.to_excel('news.xlsx')

推荐使用：Jupyter Notebook 做练习，很方便。

python爬取网页内容demo的更多相关文章

python 爬取网页内容
#encoding:UTF-8 import urllib import urllib.request import bs4 from bs4 import BeautifulSoup as bs d ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
python爬取豆瓣首页热门栏目详细流程
记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路. 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
python 爬取网页内的代理服务器列表（需调整优化）
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...

随机推荐

Ubuntu18.04应用程序安装集锦
整理网上的资源: Python Web开发工具箱 ubuntu美化及超NB的zsh配置 api文档查询工具:zeal,dash(收费)
MySQL学习11 - MySQL创建用户和授权
权限管理权限管理我们知道我们的最高权限管理者是root用户,它拥有着最高的权限操作.包括select.update.delete.update.grant等操作.那么一般情况在公司之后DBA工程师 ...
spark基础知识（1）
一.大数据架构并发计算: 并行计算: 很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术.并发更偏向于底层.并发通常指的是单机上的并发运行,通过多线程来实现.而并行计算的范围更广,他是 ...
Map的几种取值方法
public static void main(String[] args) throws IOException,ParseException { Map<String,String> ...
vue适配移动端px自动转化为rem
1.下载lib-flexible 我使用的是vue-cli+webpack,所以是通过npm来安装的 npm i lib-flexible --save 2.引入lib-flexible 在main. ...
如何做一个项目.ppt
链接:https://pan.baidu.com/s/1q8Ogj0xYQV_vk-HGcszxqw 提取码:0a82 复制这段内容后打开百度网盘手机App,操作更方便哦
Git开发工作流
1.1 master分支主分支,产品的功能全部实现后,最终在master分支对外发布. 1.2 develop分支开发分支,基于master分支克隆,产品的编码工作在此分支进行. 1.3 rele ...
anylogic 使用
1.智能体群的用法有人会问:请问怎么给生成的两个对象赋予属性,比如在分叉的时候一个进入sink1,另一个进入sink2?我想source生成不同的实体,而且各个实体都有不同的属性,请问应该怎么设置呢? ...
微软将把Windows Defender防火墙传递给 Linux 子系统
前不久,微软以 Azure Sphere OS 的形式发布了自己的 Linux 版本.而在最新的开发中,该公司又决定将其 Windows Defender 防火墙的传递给 Linux 子系统(WSL) ...
手动安装sublime text3 文本编辑器是控制台
1 本来想安装一个体积小.功能又强大的文本编辑器,百度了一圈sublime text3 的口碑不错,然后就安装试试吧, 下了以后安装成功后,看到介绍sublime text3功能强大是因为他可以安装多 ...

python爬取网页内容demo

python爬取网页内容demo的更多相关文章

随机推荐

热门专题