Python爬虫（五）

源码：

 import requests

 from lxml import etree

 from my_mysql import MysqlConnect

 mc = MysqlConnect('127.0.0.1','root','','homework')

 sql = 'insert into lianjia(title,addr,shape,area,dire,price) values(%s,%s,%s,%s,%s,%s)'

 for page in range(3):

     url = 'https://bj.lianjia.com/zufang/pg{}rp2rp1/'.format(page)

     response = requests.get(url)

     html = etree.HTML(response.text)

     li_list = html.xpath('//ul[@id="house-lst"]/li')

     # print(li_list)

     for li_ele in li_list:

         title = li_ele.xpath('./div[2]/h2/a')[0].text

         addr = li_ele.xpath('./div[2]/div[1]/div[1]/a/span')[0].text

         shape = li_ele.xpath('./div[2]/div[1]/div[1]/span[1]/span')[0].text

         area = li_ele.xpath('./div[2]/div[1]/div[1]/span[2]')[0].text

         dire = li_ele.xpath('./div[2]/div[1]/div[1]/span[3]')[0].text

         price = li_ele.xpath('./div[2]/div[2]/div[1]/span')[0].text

         # print(title,addr,shape,area,price)

         data = (title,addr,shape,area,dire,price)

         print(data)

         mc.exec_data(sql,data)

         # break

Python爬虫（五）的更多相关文章

python爬虫(五)_urllib2:Get请求和Post请求
本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urll ...
Python 爬虫五进阶案例-web微信登陆与消息发送
首先回顾下网页微信登陆的一般流程 1.打开浏览器输入网址 2.使用手机微信扫码登陆 3.进入用户界面 1.打开浏览器输入网址首先打开浏览器输入web微信网址,并进行监控: https://wx.qq ...
Python 爬虫 (五)
# 头条街拍图片爬取 1 import re import requests from urllib import request import json import os i = 0 header ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫进阶五之多线程的用法
前言我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
转 Python爬虫入门五之URLError异常处理
静觅 » Python爬虫入门五之URLError异常处理 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中, ...
小白学 Python 爬虫（15）：urllib 基础使用（五）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

转:发一个自己用过的makefile .
#gcc test.cpp -L. -Wl,-Bdynamic -ltestlib -Wl,-Bstatic -ltestlib -Wl,-Bdynamic #make clean; make in ...
Eclipse怎样连接并打开oracle等数据库？
http://jingyan.baidu.com/article/a501d80cea3ed4ec630f5e2f.html
winform通过网络获取用户信息
1.获取当前部署: public static NameValueCollection GetQueryStringParameters() { NameValueCollection nameVal ...
机器学习基石第三讲：types of learning
博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕机器学习基石的第三讲.这一讲主要介绍了机器学习的分类.对何种问题应该使用何种 ...
MS SQL server中的isnull函数
一.ISNULL语法格式 ISNULL ( check_expression , replacement_value ) 二.参数简介 check_expression:将被检查是否为 NULL的表达 ...
find_if查找vector内对象的成员作为菜鸟一直不会用也不敢用
用stl的find方法查找一个包含简单类型的vector中的元素是很简单的,例如 vector<string> strVec; find(strVec.begin(),strVec.end ...
如何使用VIM的列编辑模式 [转]
如何使用VIM的列编辑模式? * windows 我使用的VIM FOR WINDOWS,一直都听说VIM有列编辑模式,一直没有使用过,试了几次都失败了.今天又因为工作需要,到网上查了一下,经过不断的 ...
C# 改变无边框窗体尺寸大小的方法
; ; ; ; ; ; const int HTBOTTOMLEFT = 0x10; ; protected override void WndProc(ref Message m) { switch ...
应用DataAdapter对象填充DataSet数据集
private void Form1_Load(object sender, EventArgs e) { string strCon = "Server=localhost;User Id ...
网页抓取信息（php正則表達式、php操作excel）
1.问题描写叙述实现对固定网页上自己须要的信息抓取,以表格形式存储. 我是拿wustoj上的一个排行榜来练习的,地址:wustoj 2.思路网页自己就简单学习了一下php,刚好用它来做点事情吧,我 ...

Python爬虫（五）

Python爬虫（五）的更多相关文章

随机推荐

热门专题