python 爬取网页内容

 #encoding:UTF-8

 import urllib

 import urllib.request

 import bs4

 from bs4 import BeautifulSoup as bs

 def test1():

     url = "http://www.stylusstudio.com/edifact/D95B/CODECO.htm"

     resp = urllib.request.urlopen(url)

     data = resp.read().decode('UTF-8')

     soup = bs(data, 'html.parser')

     segment11= soup.find_all('table')

     segment1=segment11[7].find_all('tr')#表示第几个table，此时表示进去html网页中的第7个table

     f2=open('./text1.txt','a',encoding='cp852')

     for item in segment1:

             print(item)

             '''

             <tr class="FrameTreeFont"><td><span class="FrameDrawFont">│

             <span class="FrameHideFont">─</span>│<span class="FrameHideFont">─</span>├─</span>

             <a class="FrameItemFont" href="DAM_.htm" target="classFrame" title="Damage">DAM</a>

             Damage</td><td align="right"><span class="FrameDetailFont"> ×1 

             </span></td><td><span class="FrameDetailFont">(M)</span></td></tr>

             '''

             print(item.get_text())#以文本方式呈现

             '''

             │─│─├─DAM Damage ×1 (M)

             '''

             # print(item.td.span.get_text())#获取具体标签内部内容

             print([text for text in item.stripped_strings] )#以列表方式呈现

             '''

             ['│', '─', '│', '─', '├─', 'DAM', 'Damage', '×1', '(M)']

             '''

             '''

             soup.get_text("|")#u'\nI linked to |example.com|\n'进一步，通过strip去除掉文本每个位的头尾空白。

             soup.get_text("|", strip=True)#u'I linked to|example.com'

             '''

             f2.writelines(str([text for text in item.stripped_strings])+'\n')

     f2.close()

 if __name__=='__main__':

     test1()

python 爬取网页内容的更多相关文章

python爬取网页内容demo
#html文本提取 from bs4 import BeautifulSoup html_sample = '\ <html> \ <body> \ <h1 id = & ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
python爬取豆瓣首页热门栏目详细流程
记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路. 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
python 爬取网页内的代理服务器列表（需调整优化）
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...
第14.1节通过Python爬取网页的学习步骤
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的: 一. 了解HTML语言及css知识这方面的知识请大家通过w3school 去学习,老猿对于html总 ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

随机推荐

windows下的java项目打jar分别编写在windows与linux下运行的脚本( 本人亲测可用！)
前言: 最近公司做了一个工具,要将这个工具打包成一个可运行的程序,编写start.bat和start.sh在windows和linux下都可以运行. 在网上找了很多资料,最后终于找到一个可靠的资料,记 ...
UGUI RectTransform
RectTransform解析当 Anchor 在同一点时,显示的是物体的座标与大小Pos X.Pos Y.Width.Height ,当 Anchor 不在同一点时(此时会形成矩形),显示的会是 ...
pyspark dataframe 格式数据输入做逻辑回归
该方法好处是可以调节阈值,可调参数比其他形式模型多很多. [参照]http://blog.csdn.net/u013719780/article/details/52277616 [3种模型效果比较: ...
Windows驱动手动卸载与安装
彻底卸载的流程 1.删除C:\windows\inf\oem.inf路径下的所有oem文件 2.删除c:\windows\system32\drivers路径下对应的sys文件 3.(重要) 第一步: ...
MYSQL 备份及还原数据库
二.还原 1.NEW DB
python3 django连接mysql，同步表结构
第一步:安装PyMySQ代替MySQLdb pip3 install PyMySQL 然后在工程目录的__init__.py中填写下面两句话 import pymysql pymysql.inst ...
阿里云SSL证书tomcat配置
1. SSL证书申请登录阿里云控制台,查看购买域名中有SSL证书的申请,ssl证书申请中有单域名的申请,配置要申请的域名信息(注意:一个域名下,一次只能添加一个证书,最多申请3个免费证书用于测试), ...
虚拟机安装Centos6.5服务器系统
前言: 工作需要,研究Linux数日,写下此教程,意在给其他初学者参考学习,亦是给自己留作备用.好记性不如烂笔头,毕竟只是偶尔使用,留下教程,以备不时之需. 对于学习研究Linux的新手,个人推荐VM ...
YAML教程
一.简介 YAML是一种人们可以轻松阅读的数据序列化格式,并且它非常适合对动态编程语言中使用的数据类型进行编码.YAML是YAML Ain't Markup Language简写,和GNU(" ...
Vue.js 生命周期的应用
生命周期示意图值得注意的几个钩子函数 activated 类型:Function 详细: keep-alive 组件激活时调用. 该钩子在服务器端渲染期间不被调用. 参考: 构建组件 - keep- ...

python 爬取网页内容

python 爬取网页内容的更多相关文章

随机推荐

热门专题