Python爬网获取全国各地律师电话号

[本文出自天外归云的博客园]

从64365网站获取全国各地律师电话号，用到了python的lxml库进行对html页面内容的解析，对于xpath的获取和正确性校验，需要在火狐浏览器安装firebug和firepath插件。页面内容如下（目标是爬“姓名+电话”）：

代码如下：

# coding:utf-8

from lxml import etree

import requests,lxml.html,os

class MyError(Exception):

    def __init__(self, value):

        self.value = value

    def __str__(self):

        return repr(self.value)

def get_lawyers_info(url):

    r = requests.get(url)

    html = lxml.html.fromstring(r.content)

    phones = html.xpath('//span[@class="law-tel"]')

    names = html.xpath('//div[@class="fl"]/p/a')

    if(len(phones) == len(names)):

        list(zip(names,phones))

        phone_infos = [(names[i].text, phones[i].text_content()) for i in range(len(names))]

    else:

        error = "Lawyers amount are not equal to the amount of phone_nums: "+url

        raise MyError(error)

    phone_infos_list = []

    for phone_info in phone_infos:

        if(phone_info[1] == ""):

            #print phone_info[0],u"没留电话"

            info = phone_info[0]+": "+u"没留电话\r\n"

        #print phone_info[0],phone_info[1]

        else:

            info = phone_info[0]+": "+phone_info[1]+"\r\n"

        print info

        phone_infos_list.append(info)

    return phone_infos_list

def get_pages_num(url):

    r = requests.get(url)

    html = lxml.html.fromstring(r.content)

    result = html.xpath('//div[@class="u-page"]/a[last()-1]')

    pages_num = result[0].text

    if pages_num.isdigit():

        return pages_num

def get_all_lawyers(cities):

    dir_path = os.path.abspath(os.path.dirname(__file__))

    print dir_path

    file_path = os.path.join(dir_path,"lawyers_info.txt")

    print file_path

    if os.path.exists(file_path):

        os.remove(file_path)

    #input()

    with open("lawyers_info.txt","ab") as file:

        for city in cities:

            #file.write("City:"+city+"\n")

            #print city

            pages_num = get_pages_num("http://www.64365.com/"+city+"/lawyer/page_1.aspx")

            if pages_num:

                for i in range(int(pages_num)):

                    url = "http://www.64365.com/"+city+"/lawyer/page_"+str(i+1)+".aspx"

                    info = get_lawyers_info(url)

                    for each in info:

                        file.write(each.encode("gbk"))

if __name__ == '__main__':

    cities = ['beijing','shanghai','guangdong','guangzhou','shenzhen','wuhan','hangzhou','ningbo','tianjin','nanjing','jiangsu','zhengzhou','jinan','changsha','shenyang','chengdu','chongqing','xian']

    get_all_lawyers(cities)

这里对热门城市进行了爬网，输入结果如下（保存到了当前目录下的“lawyers_info.txt”文件中）：

Python爬网获取全国各地律师电话号的更多相关文章

Python爬网——获取安卓手机统计数据
[本文出自天外归云的博客园] 1. 在安卓网上对热门机型进行爬网,取前五十: # -*- coding: utf-8 -*- import requests,re from bs4 import Be ...
Docker最全教程之Python爬网实战(二十一)
Python目前是流行度增长最快的主流编程语言,也是第二大最受开发者喜爱的语言(参考Stack Overflow 2019开发者调查报告发布).笔者建议.NET.Java开发人员可以将Python发展 ...
python下载文件（图片）源码，包含爬网内容（爬url），可保存cookie
#coding=utf-8 ''' Created on 2013-7-17 @author: zinan.zhang ''' import re import time import httplib ...
Jsoup获取全国地区数据（省市县镇村）(续) 纯干货分享
前几天给大家分享了一下,怎么样通过jsoup来从国家统计局官网获取全国省市县镇村的数据.错过的朋友请点击这里.上文说到抓取到数据以后,我们怎么转换成我们想要格式呢?哈哈,解析方式可能很简单,但是有一点 ...
python爬取天气后报网
前言大二下学期的大数据技术导论课上由于需要获取数据进行分析,我决定学习python爬虫来获取数据.由于对于数据需求量相对较大,我最终选择爬取天气后报网,该网站可以查询到全国各地多年的数据,而且相对 ...
Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
全国315个城市，用python爬取肯德基老爷爷的店面信息
我觉得我生活在这世上二十多年里,去过最多的餐厅就是肯德基小时候逢生日必去,现在长大了,肯德基成了我的日常零食下班后从门前路过饿了便会进去点分黄金鸡块或者小吃拼盘早上路过,会买杯咖啡.主要快捷美味且饱腹 ...

随机推荐

iscoll制作顶部可以左右滑动的tab
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name ...
poi获取合并单元格内的第一行第一列的值
当读取如图所示的excel时,显示为第1行第1列的内容是:合并单元格其它在合并单元格区域内的单元格不显示示例代码如下: import java.io.FileInputStream; impo ...
iOS程序中的内存分配栈区堆区全局区
在计算机系统中,运行的应用程序的数据都是保存在内存中的,不同类型的数据,保存的内存区域不同.一.内存分区栈区(stack) 由编译器自动分配并释放,存放函数的参数值,局部变量等.栈是系统数据结构,对 ...
CORS浏览器跨域
在SO上发现一个解释跨域很棒的,忍不住拿过来链接在此:http://stackoverflow.com/questions/10636611/how-does-access-control-allo ...
sqlite3 命令
然后使用下列操作打开并进入数据库 1 2 3 $./adb shell $cd sdcard/path/subdir $sqlite3 dsxniubility.db 终端内进入数据库一般操作也就是 ...
Unity 延迟执行一段代码的较为优雅的方式
在Unity中,延时执行一段代码或者一个方法或者几个方法的情况非常普遍. 一般会用到Invoke和InvokeRepeating方法.顾名思义,第一个是执行一次,第二个是重复执行. 看下定义: voi ...
jQuery源代码学习之九—jQuery事件模块
jQuery事件系统并没有将事件坚挺函数直接绑定在DOM元素上,而是基于事件缓存模块来管理监听函数的. 二.jQuery事件模块的代码结构 //定义了一些正则 // // //jQuery事件对象 j ...
CentOS6.6安装及配置vsftpd文件服务器
1.安装vsftpd和db4-utils,后者用来生成密码库文件,命令如下: # yum install -y vsftpd db4* 2.修改SELINUX,命令如下: # vim /etc/sys ...
在 Apache Ant中设置Proxy服务器
<target name="proxy"> <property name="proxy.host" value="https://m ...
css加载优化
<head> <script> // https://github.com/filamentgroup/loadCSS !function(e){"use stric ...

Python爬网获取全国各地律师电话号

Python爬网获取全国各地律师电话号的更多相关文章

随机推荐

热门专题