简单的python2.7基于bs4和requests的爬虫

python的编码问题比较恶心。

decode解码
encode编码

在文件头设置

# -*- coding: utf-8 -*-
让python使用utf8.

# -*- coding: utf- -*-

__author__ = 'Administrator'

from bs4 import BeautifulSoup

import requests

import os

import sys

import io

def getHtml(url):

    r = requests.get(url)

    content = r.content.decode('utf8')

    #print(content)

    soup = BeautifulSoup(content)

    print(soup.find_all('h2'))

    print(soup.find_all('p'))

if __name__=="__main__":

    print(sys.getdefaultencoding())

    print("start.......")

    url = "http://www.jiakaobaodian.com/mnks/exercise/0-c1-kemu1-chengdu.html?id=800000"

    getHtml(url)

    print("end.......")

简单的python2.7基于bs4和requests的爬虫的更多相关文章

Python3下基于bs4和sqlalchemy的爬虫实现
本文来自网易云社区作者:王贝小学生现在都在学python了,作为专业程序员当然不能落下了,所以,快马加鞭,周六周末在家学起了python3,python3的基本语法比较简单,相比于Java开发更加 ...
简单实现接口自动化测试(基于python+unittest)
简单实现接口自动化测试(基于python+unittest) 简介本文通过从Postman获取基本的接口测试Code简单的接口测试入手,一步步调整优化接口调用,以及增加基本的结果判断,讲解Pytho ...
基于bs4库的HTML查找方法
基于bs4库的HTML查找方法 find_all方法 <>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,内部存储查找的结 ...
基于bs4库的HTML标签遍历方法
基于bs4库的HTML标签遍历方法 import requests r=requests.get('http://python123.io/ws/demo.html') demo=r.text HTM ...
基于bs4库的HTML内容查找方法
一.信息提取实例提取HTML中所有的URL链接思路:1)搜索到所有的<a>标签 2)解析<a>标签格式,提取href后的链接内容 >>> import r ...
解决python2.7.9以下版本requests访问https的问题
在python2.7.9以下版本requests访问https连接后,总会报一些关于SSL warning. 解决法子可以参考:https://urllib3.readthedocs.io/en/la ...
最简单的视频编码器：基于libx265（编码YUV为H.265）
===================================================== 最简单的视频编码器系列文章列表: 最简单的视频编码器:编译最简单的视频编码器:基于libx ...
最简单的视频编码器：基于libvpx（编码YUV为VP8）
===================================================== 最简单的视频编码器系列文章列表: 最简单的视频编码器:编译最简单的视频编码器:基于libx ...
最简单的视频编码器：基于libx264（编码YUV为H.264）
===================================================== 最简单的视频编码器系列文章列表: 最简单的视频编码器:编译最简单的视频编码器:基于libx ...

随机推荐

NVIDIA DIGITS 学习笔记（NVIDIA DIGITS-2.0 + Ubuntu 14.04 + CUDA 7.0 + cuDNN 7.0 + Caffe 0.13.0）
转自:http://blog.csdn.net/enjoyyl/article/details/47397505?from=timeline&isappinstalled=0#10006-we ...
[目标检测]RCNN系列原理
1 RCNN 1.1 训练过程 (1) 训练时采用fine-tune方式: 先用Imagenet(1000类)训练,再用PASCAL VOC(21)类来fine-tune.使用这种方式训练能够提高8个 ...
想弄一弄tensorflow，先弄numpy
现在晚上凉快点了, 下班回家可以学会东东了.. 这次的书是一个印度人写的. 按着示例代码弄起先.. #!/usr/bin/env python # -*- coding: utf-8 -*- impo ...
Asp.net vNext 学习之路（一）
概述 asp.net vNext 也叫 asp.net 5.0,意思是微软推出的下一个版本的asp.net.可以说是微软对asp.net的一个比较重大的重新设计, asp.net vNext是一个比 ...
未能从程序集“Elmah”中加载类型“Elmah.ErrorLogModule”错误
项目名与Elmah重名了,以为是配置文件的问题,搞了好久.
Django Suit v2-dev 使用
转:链接:https://www.jianshu.com/p/84fa8219fb48 官方文档: 链接 Git: 链接 install Django Suit 为了适配 Django 有许多不同的版 ...
转：使用python的Flask实现一个RESTful API服务器端
提示:可以学习一下flask框架中对于密码进行校验的部分.封装了太多操作. 最近这些年,REST已经成为web services和APIs的标准架构,很多APP的架构基本上是使用RESTful的形式了 ...
maven的认识
>>>>>>>>>> 安装完成后,设置为环境变量命令行输入,如下图片就表明成功 >>>>>>>& ...
【记录】mysql 5.7.20安装出现...mysql-5.7.20-winx64\data\is_writable’ Errcode: 2 - No such file or directory
新到一家公司,安装mysql5.7.20时候出现一个问题(安装步骤可以参考这个): ...mysql-5.7.20-winx64\data\is_writable’ Errcode: 2 - No s ...
隐马尔可夫模型(Hidden Markov Model)
隐马尔可夫模型(Hidden Markov Model) 隐马尔可夫模型(Hidden Markov Model, HMM)是一个重要的机器学习模型.直观地说,它可以解决一类这样的问题:有某样事物存在 ...

简单的python2.7基于bs4和requests的爬虫

简单的python2.7基于bs4和requests的爬虫的更多相关文章

随机推荐

热门专题