python 之爬普房网

from bs4 import BeautifulSoup
import re
import requests
import pandas
## pa pufangwang
class down(object):
    def __init__(self):
         self.calls = []
         self.urls = []
         self.nums = 0
    def get_down_urls(self):
        self.urls = []
        htmls =["http://www.0594.com/list-117---1_90-90_120-2----3361---1.html?pb=&od=&hasphoto=1&ft=0"
        ,'http://www.0594.com/list-117---1_90-90_120-2----3361---2.html?pb=&od=&hasphoto=1&ft=0']

        for html in htmls:
            req = requests.get(html)
            bea = BeautifulSoup(req.text)
            find_url = bea.find_all("div",class_="houseList")

            urlss =  BeautifulSoup(str(find_url))
            kkk = urlss.find_all("a")
            self.nums = int(len(kkk))
            for eatch in kkk:
                self.urls.append(eatch.get("href"))
        set(self.urls)

    def get_down_data(self,straget):
        self.calls=[]
        html = straget # 网页
        req = requests.get(html) # 获取本地相应
        bea =  BeautifulSoup(req.text) # 创建实例
        allss = bea.find_all("div",class_="inforTxt")
        dls1 = BeautifulSoup(str(allss))
        dl = dls1.find_all("dl")

        for eatch in dl:
            self.calls.append(eatch.text.replace("\n", ""))
        print(self.calls)

ds = down()
ds.get_down_urls()
dss =list(set(ds.urls))
'''for i in range(ds.nums):
  ds.get_down_data(ds.urls[i])
'''

for i in range(ds.nums):
  ds.get_down_data(dss[i])

python 之爬普房网的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python学习之路（五）爬虫（四）正则表示式爬去名言网
爬虫的四个主要步骤明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 什么是正则表达式 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

随机推荐

java代码实现网络远程开机
http://my.oschina.net/kingfire/blog/156764 概述远程开机(Wake onLAN)是指通过网络实现对服务器或者pc启动运行,现在很多网卡都支持的这个功能. 其 ...
mybatis与hibernate不同（重要）
Mybatis和hibernate不同,它不完全是一个ORM框架,因为MyBatis需要程序员自己编写Sql语句,不过mybatis可以通过XML或注解方式灵活配置要运行的sql语句,并将java对象 ...
MicroRNA in Control of Gene Expression: An Overview of Nuclear Functions 微RNA控制基因表达：核功能概述
MicroRNA in Control of Gene Expression:An Overview of Nuclear Functions微RNA控制基因表达:核功能概述抽象:小的非编码RNA( ...
struts2下velocity做视图如何访问request,session等内置对象，如：原来webwork的$req
struts2下velocity做视图如何访问request,session等内置对象(转) velocity 内置对象 struts2 requestStruts2环境下用velocity做视图时访 ...
【转载】RHEL / CentOS 7 用 Yum 安裝 MySQL 5.6
久久未更新... 换好工作出去玩耍了一趟, 现在安装机器啦~ 装一个mysql 到centos 7, 一次转载一篇文章, 记录下: 原文地址:http://www.phpini.com/mysql/r ...
tp5主从数据库设置读写分离
// 数据库类型 'type' => 'mysql', // 服务器地址 'hostname' => '192.168.0.5,192.168.0.6', // 数据库名 'databas ...
编译hadoop的libhdfs.a
进入hadoop-hdfs-project/hadoop-hdfs/src目录,执行cmake以生成Makefile文件. 如果遇到如下的错误: ~/hadoop-2.7.1-src/hadoop-h ...
OpenGL中的像素包装理解
OpenGL中的像素包装理解像素包装位图和像素图很少会被紧密包装到内存中.在许多硬件平台上,考虑到性能的原因位图和像素图的每一行的数据会从特殊的字节对齐地址开始.绝大多数编译器会自动把变量和缓冲 ...
Linux C 网络编程——3. TCP套接口编程
1. 基本流程 2. socket() int socket(int domain, int type, int protocol); socket()打开一个网络通讯端口,如果成功的话,就像open ...
Android各国语言Values文件夹命名规则
android多国语言文件夹文件汇总如下: 中文(中国):values-zh-rCN 中文(台湾):values-zh-rTW 中文(香港):values-zh-rHK 英语(美国):values-e ...

python 之 爬普房网

python 之 爬普房网的更多相关文章

随机推荐

热门专题

python 之爬普房网

python 之爬普房网的更多相关文章