python - 爬虫入门练习爬取链家网二手房信息

import requests

from bs4 import BeautifulSoup

import sqlite3

conn = sqlite3.connect("test.db")

c = conn.cursor()

for num in range(1,101):

    url = "https://cs.lianjia.com/ershoufang/pg%s/"%num

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/64.0.3282.140 Safari/537.36',

    }

    req = requests.session()

    response = req.get(url, headers=headers, verify=False)

    info = response.text

    f1 = BeautifulSoup(info,'lxml')

    f2 = f1.find(class_='sellListContent')

    f3 = f2.find_all(class_='clear LOGCLICKDATA')

    for i in f3:

        data_id = i.find(class_="noresultRecommend").get('data-housecode')

        href = i.find( class_ ="noresultRecommend img ").get('href')

        title = i.find(class_ ="title").get_text()

        adress = i.find(class_="houseInfo").get_text().split("|")

        jage = i.find(class_="totalPrice").get_text()

        # print(k,data_id, '|', title, '|', adress, '|', jage, '|', href)

        # print("---")

        dz = ''

        fx = ''

        dx = ''

        cx = ''

        zx = ''

        dt = ''

        if len(adress) == 6:

            dz = adress[0]

            fx = adress[1]

            dx = adress[2]

            cx = adress[3]

            zx = adress[4]

            dt = adress[5]

        elif len(adress) ==5:

            dz = adress[0]

            fx = adress[1]

            dx = adress[2]

            cx = adress[3]

            zx = adress[4]

            dt = 'None'

        # print(dz,fx,dx,cx,zx,dt)

        elif len(adress) < 5:

            print(dz, fx, dx, cx, zx, dt)

        info = {'nid':int(data_id),

                'title':title,

                'dz':dz,

                'fx':fx,

                'dx':dx,

                'cx':cx,

                'zx':zx,

                'dt':dt,

                'jg':jage,

                'url':href}

        # print(info)

        x = info

        sql = "insert into rsf(nid,dz,fx,dx,cx,zx,dt,jg,title,url)values(%d,'%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (x['nid'], x['dz'], x['fx'], x['dx'], x['cx'], x['zx'], x['dt'], x['jg'], x['title'], x['url'])

        cursor = c.execute(sql)

        conn.commit()

        # print("OK")

conn.close()

    # import json

    # file_path = 'info%s.txt'%num

    # json_data = json.dumps(info_list).encode('utf8')

    # with open(file_path,'wb') as f:

    #     f.write(json_data)

sqlite3 读取数据

import sqlite3

conn = sqlite3.connect("test.db")

c = conn.cursor()

#sqlit3 查询数据

cursor = c.execute("SELECT * from rsf")

k = 1

for row in cursor:

    num = float(row[7].split('万')[0])

    if 30.0 < num < 50.0:

        print(k,row[1],row[3],num,row[-2])

        k +=1

conn.close()

python - 爬虫入门练习爬取链家网二手房信息的更多相关文章

Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
43.scrapy爬取链家网站二手房信息-1
首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套 ...
44.scrapy爬取链家网站二手房信息-2
全面采集二手房数据: 网站二手房总数据量为27650条,但有的参数字段会出现一些问题,因为只给返回100页数据,具体查看就需要去细分请求url参数去请求网站数据.我这里大概的获取了一下筛选条件参数,一 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

随机推荐

python学习笔记－列表和字典
由于最近在看深度学习的代码,看到需要建立字典和列表来存储什么东西的时候,就想要去把字典和列表好好的了解清楚,其应用范围,差别,等等东西首先我们来介绍,在python中存在如下的数据结构:列表list ...
函数式编程 lodash 常用api
1.forEach _.forEach({ 'a': 1, 'b': 2 }, function(value, key) { console.log(key); }); _.forEach([3,4] ...
HTML学习笔记Day9
一.宽高自适应网页布局中经常要定义元素的宽和高:但很多时候我们希望元素的大小能够根据窗口或父元素自动调整,这就是自适应,元素自适应在网页布局中非常重要,tanenggou它能够使网页显示更灵活,可以 ...
最短路经算法简介(Dijkstra算法，A*算法，D*算法)
据 Drew 所知最短路经算法现在重要的应用有计算机网络路由算法,机器人探路,交通路线导航,人工智能,游戏设计等等.美国火星探测器核心的寻路算法就是采用的D*(D Star)算法. 最短路经计算分静态 ...
(string 数组) leetcode 804. Unique Morse Code Words
International Morse Code defines a standard encoding where each letter is mapped to a series of dots ...
ZooKeeper集群详细安装教程
1. 安装JDK 1.1 官网下载JDK 进入网址<a href="http://www.oracle.com/technetwork/java/javase/downloads/jd ...
python正则提取关键字
python使用正则表达式提取关键字 import sys reload(sys) sys.setdefaultencoding("utf-8") import re ss = & ...
HTML常用提交按钮
1. 标签=元素 disabled(不可操作) readonly(只读) placeholder(提示文本) autofocus(自动获焦) autocomplete=”on(默认.规定启用自动 ...
关于SSM的小感悟
这周用SSM框架写了个小项目,真是各种百度啊,最后总算是实现了个登陆功能.刚才一直在修改,想实现登陆进去可以对id进行搜索,出现搜索的整体数据,无奈,一直没能实现.所以就只能留到下周了,到时候会把这个 ...
hadoop datanode 启动出错
FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block po ...

python - 爬虫入门练习 爬取链家网二手房信息

python - 爬虫入门练习 爬取链家网二手房信息的更多相关文章

随机推荐

热门专题

python - 爬虫入门练习爬取链家网二手房信息

python - 爬虫入门练习爬取链家网二手房信息的更多相关文章