如果我们这样读取html页面 soup= BeautifulSoup(rsp.text,'html.parser',from_encoding='utf-8')  # 粗体部分多余了 就会出现下面的警告: UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored. warnings.warn("You provid…
1.01-1.03版本都有多线程争抢DB的问题,线程数一多问题就严重了. 这个版本把各线程要添加数据的SQL放到数组里,等最后一次性完成,这样就好些了.但乱码问题和未全部完成即退出现象还在,而且速度上应该大力提高. 本该就是把DB操作尽可能一次性完成,节约时间又安全,不该是各个线程自己去开关数据库存取的模式.是我事先没考虑好. 现在代码如下: # 理想论坛爬虫1.04,用于爬取主贴再爬子贴 from bs4 import BeautifulSoup import requests import…
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # -*- coding: gbk -*- import urllib import urllib2 from bs4 import BeautifulSoup import time import re import os,sys import chardet def req(url): #url='…
写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一.字符的编码和解码 和网页打交道,首先解决的就是web页面的编码方式,不幸的是不同网站的页面编码方式基本不相同,有的是gb2312,有的是utf-8,有的是gbk,下面是我查看我以后需要的网站源码后得出的web页面的编码方式: di = { 'gb2312':['http://www.sina.co…
Python的open文件的读取方式有以下几种方法: read([size]):读取文件,如果传了size参数,则读取size字节,否则读取全部 readline([size]):读取一行 readlines([size]):读取完文件,返回文件每一行所组成的列表 例: 假如我有一个blogCblog.txt文件,文件内容为: blogCblog blog1Cblog blog2Cblog 用read来读取一下 f = open('blogCblog.txt') #首先先创建一个文件对象 fr…
python 文件的打开与读取 其实网上其他人写的都挺好的,我也是看他们的.办公室用的2.7.笔记本用的3.6.发现没有file 类,尴尬了 with open(r'C:\Users\HBX\Documents\新建文件夹\baixi.txt' , 'r') as f: print (f.read()) f.close() if f.close()==1: print ('sucess') else: print ('filue') python 3 没有file 类,都是用open,没有就创建…
python文本 去掉字符串前后空格 场景: 去掉字符串前后空格 可以使用strip,lstrip,rstrip方法 >>> a="abc".center (30)    >>> a    '             abc              '    >>> b=a.lstrip ()    >>> b    'abc              '    >>> c=a.rstrip (…
注:内容来自网络 本文实例讲述了python中readline判断文件读取结束的方法.分享给大家供大家参考.具体分析如下: 大家知道,python中按行读取文件可以使用readline函数,下面现介绍一个按行遍历读取文件的方法,通过这个方法,展开我们要讨论的问题:复制代码 代码如下:filename = raw_input('Enter your file name') #输入要遍历读取的文件路径及文件名file = open(filename,'r')done = 0while not don…
Python模块之: ConfigParser 配置文件读取   ConfigParser用于读写类似INI文件的配置文件,配置文件的内容可组织为组,还支持多个选项值(option-value)类型. ConfigParser使用用的配置文件格式由一个或多个命名的节(section)组成,每一节包含由key和value构成的选项(option). 在一节中每行列出一个选项.行以选项名开头,选项名与值之间用一个冒号(:)或一个等号(=)分开. 1.读取配置文件 -read(filename) 直接…
Python编码格式导致的csv读取错误(pandas.read_csv) 本文记录python小白我今天遇到的这两个问题(csv.reader和pandas.csv_read): pandas模块“CParserError: Error tokenizing data. C error: Expected 1 fields in line 4, saw 2”错误 csv模块“line contains NULL byte”错误 今天处理数据时疏忽了,而且还偷懒把数据复制到xlsx保存后,直接修…