python爬虫简介

一、什么是网络爬虫？

　　网络爬虫，是一种按照一定规则，自动的抓取万维网信息的程序或者脚本。

二、python网络爬虫，

　　需要用到的第三方包 requests和BeautifulSoup4

　　pip install requests

　　pip install BeautifulSoup4

　　常用方法总结：

response = requests.get('URL') #获取网

response.text     #文本内容（字符串

response.content  #文件内容，比如图

response.encoding  #设置编

response.aperant_encoding  #显示下载时候的编

response.status_code #状态码

response.cookies.get_dict()

requests.get('http://www.autohome.com.cn/news/',cookie={'xx':'xxx'})

　　beautifulsoup4模块　　

soup = BeautifulSoup('htmlstr',features='html.parser')

v1 = soup.find('div')

v1 = soup.find(id = 'i1')

v1 = soup.find('div',id = 'i1')

v2 = soup.find_all('div')

v2 = soup.find_all(id = 'i1')

v2 = soup.find_all('div',id = 'i1')

v1.text  #字符串

v1.attr #属性

#v2是个列表

v2[0].attr

三、初始demo

import requests

from bs4 import BeautifulSoup

response = requests.get(url = 'https://www.autohome.com.cn/news/') #下载页面

response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text,features='html.parser') #创建Beautisoup对象

target = soup.find(id='auto-channel-lazyload-article') #找到新闻栏

#print(target)

li_list = target.find_all('li')

for i in li_list:

    a = i.find('a')

    if a:

        print(a.attrs.get('href'))

        txt = a.find('h3').text

        imagurl = a.find('img').attrs.get('src')

        print(imagurl)

        img_response = requests.get(url = 'https:'+imagurl)

        import uuid

        file_name = str(uuid.uuid4())+'.jpg'

        with open(file_name,"wb") as f:

            f.write(img_response.content)

四、抽屉登录并点赞

'''

抽屉小套路，用户认证的cookie不是登录用户密码返回的cookie

而是第一次get返回的cookie，然后登陆的时候把这个cookie带过去进行授权操作

'''

import requests

headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

post_data = {

    'phone':'8615191481351',

    'password':'11111111',

    'oneMonth':1

}

ret1 = requests.get(

    url = 'https://dig.chouti.com',

    headers = headers

)

cookie1 = ret1.cookies.get_dict()

print(cookie1)

ret2 = requests.post(

    url = 'https://dig.chouti.com/login',

    data = post_data,

    headers = headers,

    cookies = cookie1

)

cookie2 = ret2.cookies.get_dict()

print(cookie2)

ret3 = requests.post(

    url = 'https://dig.chouti.com/link/vote?linksId=21910661',

    cookies = {

        'gpsd':cookie1['gpsd']

        #'gpsd': 'f59363bb59b30fe7126b38756c6e5680'

    },

    headers = headers

)

print(ret3.text)

ret = requests.post(

    url = 'https://dig.chouti.com/vote/cancel/vote.do',

    cookies = {

        'gpsd': cookie1['gpsd']

    },

    data = {'linksId': 21910661},

    headers = headers

)

print(ret.text)

更多关于request参数的介绍：http://www.cnblogs.com/wupeiqi/articles/6283017.html

python爬虫简介的更多相关文章

python 爬虫简介
初识Python爬虫互联网简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现 ...
python 爬虫简介以及使用方法
阶段大纲: 一. 爬虫 1. 基本操作 - 登录任意网站(伪造浏览器的任何行为) 2. 性能相关 - 并发方案: - 异步IO: gevent/Twisted/asyncio/aiohttp - 自定 ...
Python爬虫入门
Python爬虫简介(来源于维基百科): 网络爬虫始于一张被称作种子的统一资源地址(URLs)列表.当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张＂待访列表＂,即 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-04-response简介
Spider-04-response简介本小节介绍urlopen的返回对象,和简单调试方法案例v3 研究request的返回值,输出返回值类型,打印内容 geturl:返回请求对象的url inf ...
Python爬虫教程-20-xml 简介
本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接:http://www.w3school.com.cn/xmld ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python爬虫和情感分析简介
摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果. 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着 ...
Python爬虫教程-21-xpath 简介
本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn ...

随机推荐

sublime tab转4个空格配置
打开Sublime Text3,选择菜单Preferences->Settings-User,打开用户配置文件然后在大括号里加上下面两行代码: "tab_size": 4, ...
EasyUI中对于Grid的隐藏与显示
$('#div_Grid').datagrid('hideColumn', 'mtnDate'); $('#div_Grid').datagrid('showColumn', 'mtnDate');
js获取当前时间，并格式化为"yyyy-MM-dd HH:mm:ss"
/** * Created by Administrator on 2019/11/15. *指尖敲打着世界 ----一个阳光而又不失帅气的少年!!!. */ // js获取当前时间,并格式化为&qu ...
YJango的卷积神经网络——介绍
原文地址:https://zhuanlan.zhihu.com/p/27642620 如果要提出一个新的神经网络结构,首先就需要引入像循环神经网络中“时间共享”这样的先验知识,降低学习所需要的训练数据 ...
CL_GUI_FRONTEND_SERVICES 使用问题
CL_GUI_FRONTEND_SERVICES(SAP操作Windows文件) 这个类下面的方法均为静态方法,引用的时候以=>来引用方法注意:在执行CL_GUI_FRONTEND_SERVI ...
2019.06.05 ABAP EXCEL 操作类代码 OLE方式（模板下载，excel上传，内表下载）
一般使用标准的excel导入方法9999行,修改了标准的excel导入FM 整合出类:excel的模板下载,excel上传,ALV内表下载功能. 在项目一开始可以SE24创建一个类来供整体开发使用, ...
dokcer部署code-server web版vscode
#dokcer部署code-server web版vscode codercom/code-server:latest不支持插件在线安装 codercom/code-server:v2目前为最新版1. ...
算法之顺序、二分、hash查找
算法之顺序.二分.hash查找一.查找/搜索 - 我们现在把注意力转向计算中经常出现的一些问题,即搜索或查找的问题.搜索是在元素集合中查找特定元素的算法过程.搜索通常对于元素是否存在返回 Tru ...
【css】纯css实现文字循环滚动效果
不用js来实现. html: <div class="box"> <p class="animate"> 文字滚动的内容文字滚动的内容文 ...
SQL- 将一张表的数据插入到另一张表，表结构不一致（加条件）
公司业务需要,在对表进行操作的时候将操作人和操作记录记录到日志表里.记录下来以供参考和学习. 首先准备两张测试表:Info以及InfoLog 1.表结构相同的情况下: insert into Info ...

python爬虫简介

python爬虫简介的更多相关文章

随机推荐

热门专题