首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
python学习_新闻联播文字版爬虫(V 1.0版)
】的更多相关文章
python学习_新闻联播文字版爬虫(V 1.0版)
python3的爬虫练习,爬取的是新闻联播文字版网站 #!/usr/bin/env python # -*- coding: utf-8 -*- ''' __author__ = 'wyf349' __mtime__ = '2019/12/20' ''' '''第一个版本,用来获取文件的链接和信息,并存储在txt文件中''' #import 相关的库 import requests from bs4 import BeautifulSoup import io import sys import…
python学习_新闻联播文字版爬虫(V 1.0.1版)
更新记录: 1.新增了headers头的随机获取: 2.新增了logging模块添加日志信息(学习用): #!/usr/bin/env python # -*- coding: utf-8 -*- ''' __author__ = '王益夫' __mtime__ = '2019/12/20' ''' ''' 版本修改: V 1.0:用来获取文件的链接和信息,并存储在txt文件中: V 1.0.1:参照调整headers,新增logging模块输入日志信息: ''' #import 相关的库 im…
python学习_数据处理编程实例(二)
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年月 数据准备:分别建立四个文本文件 james2.txt James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie2.txt Julie Jones,2002-8-17,2.59,2.11,2:…
python学习_循环结构 and 类型判断
# 循环结构 ### 循环结构(while) - 格式 ```python while 表达式: 语句块 ``` > 执行流程:当程序执行到while语句时,首先判断表达式的真假.若表达式的值为真,则执行缩进的语句块,然后返回while,继续判断表达式的真假,直到表达式的值为假:若表达式的值为假,则直接跳过语句块,执行后面的代码. - 说明: - 表达式:也叫循环条件 - 语句块:也叫循环体 - 死循环:循环条件一直成立 - break:跳出循环 - continue:结束本次循环,进入下次循环…
Python 学习(1) 简单的小爬虫
最近抽空学了两天的Python,基础知识都看完了,正好想申请个联通日租卡,就花了2小时写了个小爬虫,爬一下联通日租卡的申请页面,看有没有好记一点的手机号~ 人工挑眼都挑花了. 用的IDE是PyCharm,首先下载一些需要用到的包和模块: requests 和 beautifulsoup4. 不过发现请求的url返回的是json数据,就没用beautifulsoup4而是直接用正则提取手机号了. 注释写的还是很详细的,打分的方法非常简陋,一般这种便宜的套餐也没啥好号,今天太晚了,就这样吧,哪天…
python学习_应用pickle模块封装和拆封数据对象
学习文件数据处理的时候了解到有pickle模块,查找官方文档学习了一些需要用到的pickle内容. 封装是一个将Python数据对象转化为字节流的过程,拆封是封装的逆操作,将字节文件或字节对象中的字节流转化为Python数据对象,不要从不收信任的数据源中拆封数据.可以封装和拆封几乎任何Python数据对象,主要包括: None , True,False 整数,浮点数,复数 字符串,字节,ByteArray对象 元组,列表,集合,包含可封装对象的字典 在一个模块的顶层定义的函数 在一个模块的顶层定…
python学习笔记(14)--爬虫下载漫画图片修改版
说明: 1. 2017.3.12,周六从中午吃完包子12点多折腾了一下午加一个晚上,试了4个网站的爬虫,发现都不能下载!甚至前几天测试能下载的都不能用了! 2. 到晚上发现煎蛋网的可以用了,立即试了下漫画网,尼玛居然也能用了!不过下载了几个之后又不能用了!真是法克了! 3. 过了一会,又是一会儿能用一会儿不能用.又过了一会儿,完全不能用了.真是草你麻痹了!能不能有个准了? 4. 从网上找的代理ip,各种不靠谱,反正只要代码里用了代理,就不能用,访问被拒绝.不过还是放上一个代理地址,万一以后用到h…
python学习笔记(11)--爬虫下载漫画图片
说明: 1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧! 2. 我是明天,我来写总结了! 3. 这个网站的结构是这样的: 主页: 主页-第1页-漫画1封面-漫画1地址 -漫画2封面-漫画2地址 -漫画3封面-漫画3地址 -漫画4封面-漫画4地址 -漫画5封面-漫画5地址 -......... -第2页-漫画1封面-漫画1地址 -漫画2封面-漫画2地址 -漫画3封面-漫画3地址 -漫画4封面-漫画4地址 -漫画5封面-漫画5地址 -.........…
Python学习_数据排序方法
Python对数据排序又两种方法: 1. 原地排序:采用sort()方法,按照指定的顺序排列数据后用排序后的数据替换原来的数据(原来的顺序丢失),如: >>> data1=[4,2,6,432,78,43,22,896,42,677,12] >>> data1.sort() >>> data1 #原来的顺序被替换 [2, 4, 6, 12, 22, 42, 43, 78, 432, 677, 896] 2. 复制排序:采用sorted()内置函数,按照…
Python学习_从文件读取数据和保存数据
运用Python中的内置函数open()与文件进行交互 在HeadFirstPython网站中下载所有文件,解压后以chapter 3中的“sketch.txt”为例: 新建IDLE会话,首先导入os模块,并将工作目录却换到包含文件“sketch.txt”的文件夹,如C:\\Python33\\HeadFirstPython\\chapter3 >>> import os >>> os.getcwd() #查看当前工作目录 'C:\\Python33' >>…