[python]爬取手机号码前缀和地区信息

概述

使用python爬取手机号码前缀7位、区号和地区。

小网站不容易，对爬虫也挺友好，就不放链接了。

代码

import requests

from lxml import etree

from fake_useragent import UserAgent

import time

def parse_page(url,header,cookie):

    """ 解析url，并写到文件中 """

    resp = requests.get(url,headers=header,cookies=cookie)

    html = etree.HTML(resp.text)

    filename = "phonenum.txt"

    # 爬取手机前缀

    phone_number_1 = html.xpath("//tr[@class='even']/td[1]/a/text()")

    # 爬取所在地区

    phone_number_1_city = html.xpath("//tr[@class='even']/td[2]/text()")

    # 爬取地区区号

    phone_number_1_citynum = html.xpath("//tr[@class='even']/td[4]/text()")

    phone_number_2 = html.xpath("//tr[@class='odd']/td[1]/a/text()")

    phone_number_2_city = html.xpath("//tr[@class='odd']/td[2]/text()")

    phone_number_2_citynum = html.xpath("//tr[@class='odd']/td[4]/text()")

    # 使用zip()组合爬取结果，并追加到文件中

    for i,j,k in zip(phone_number_1,phone_number_1_citynum,phone_number_1_city):

        with open(filename,"a",encoding="utf-8") as f_obj:

            f_obj.write(f"{i},{j},{k}\n")

    for x,y,z in zip(phone_number_2,phone_number_2_citynum,phone_number_2_city):

        with open(filename,"a",encoding="utf-8") as f_obj:

            f_obj.write(f"{x},{y},{z}\n")

def cookie_to_dict(cookie_src):

    cookie_dict = {}

    for i in cookie_src.split('; '):

        cookie_dict[i.split('=')[0]] = i.split('=')[1]

    return cookie_dict

def main():

    """ 执行主程序 """

    ua = UserAgent()

    # 地址很简单，直接range

    for page in range(1,1234):

        # 网站地址

        phone_url = "...........%d"%page

        phone_headers = {"User-Agent": ua.random}

        # 填写自己的cookie

        cookie_src = ""

        cookie = cookie_to_dict(cookie_src)

        parse_page(phone_url,phone_headers,cookie)

        print(f"page: {page}")

        # 暂停2秒，防止目标网站宕机

        time.sleep(2)

if __name__ == '__main__':

    main()

结果

爬取了463600条数据，部分数据如下：

...

...

1999451,0776,广西 百色

1999449,0772,广西 来宾

1999447,0774,广西 梧州

1999445,0778,广西 河池

1999443,0776,广西 百色

1999441,0771,广西 南宁

1999438,0931,甘肃 兰州

1999436,0931,甘肃 兰州

1999434,0943,甘肃 白银

1999432,0943,甘肃 白银

1999430,0943,甘肃 白银

1999418,0931,甘肃 兰州

1999416,0931,甘肃 兰州

1999414,0941,甘肃 甘南

1999412,0941,甘肃 甘南

...

...

[python]爬取手机号码前缀和地区信息的更多相关文章

使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬取“美团美食”汕头地区的所有店铺信息
一.目的获取美团美食每个店铺所有的评论信息,并保存到数据库和本地二.实现步骤获取所有店铺的poiId 首先观察详情页的url,后面是跟着一串数字的,而这一串数字代表着每个店铺特有的id号,我们称 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好
网易商品评论爬取分析网页评论分析进入到网易精选官网,搜索“文胸”后,先随便点进一个商品. 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页Python入门到精通学 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取所有微信好友的信息
''' 爬取所有T信好友的信息 ''' import itchat from pandas import DataFrame itchat.login() friends=itchat.get_fri ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频 ...

随机推荐

2020-11-20：java中，听说过CMS的并发预处理和并发可中断预处理吗？
福哥答案2020-11-20:[答案来自此链接:](http://bbs.xiangxueketang.cn/question/391)1.首先,CMS是一个关注停顿时间,以回收停顿时间最短为目标的垃 ...
2022-05-28：某公司计划推出一批投资项目。 product[i] = price 表示第 i 个理财项目的投资金额 price 。客户在按需投资时，需要遵循以下规则：客户在首次对项目 pr
2022-05-28:某公司计划推出一批投资项目. product[i] = price 表示第 i 个理财项目的投资金额 price . 客户在按需投资时,需要遵循以下规则: 客户在首次对项目 pr ...
Django中多个app放置同一文件夹中
在pycharm中新建一个管理app的python package目录:apps 将存在的app用拖拽到apps目录下,此时会弹出对话框,取消勾选Search for references(搜索索引) ...
weekday
# 模块中的方法weekday()# 可用于检索星期几,结果返回0 - 6# 之间的整数,用来代表"星期一"到"星期日".# self.wt_w = self. ...
Redis数据结构三之压缩列表
本文首发于公众号:Hunter后端原文链接:Redis数据结构三之压缩列表本篇笔记介绍压缩列表. 在 Redis 3.2 版本之前,压缩列表是列表对象.哈希对象.有序集合对象的的底层实现之一. 因 ...
2013年蓝桥杯C／C++大学A组省赛真题（颠倒的价牌）
题目描述: 小李的店里专卖其它店中下架的样品电视机,可称为:样品电视专卖店. 其标价都是4位数字(即千元不等). 小李为了标价清晰.方便,使用了预制的类似数码管的标价签,只要用颜色笔涂数字就可以了(参 ...
STM32H5移植zbar记录
ZBar是一种流行的二维码扫描和解码工具,它在嵌入式系统中拥有广泛的应用.在嵌入式系统中,我们面临着有限的资源和更严格的性能要求,因此,选择适当的库来完成特定的任务非常重要. ZBar适用于各种嵌入式 ...
电赛控制类PID算法实现
一.什么是PID 学过自动控制原理的对PID并不陌生,PID控制是对偏差信号e(t)进行比例.积分和微分运算变换后形成的一种控制规律.PID 算法的一般形式: PID控制系统原理框图二.PID离散化 ...
Linux 服务器更换主板后，网卡识别失败的处理方法
上周日,由于断电,公司所在的集群服务器在关机断电重启后,发现唯一的一个登陆节点主板出现了故障,以致于 log 登陆节点的 Red Hat Enterprise 6 系统无法启动. 由于集群是生信所有分 ...
zabbix监控服务器php
1 修改php配置文件 /apollo/env/php/thirdparty.php-7.3/etc/php-fpm.conf,添加pm.status pm.status_path = /phpfpm ...

[python]爬取手机号码前缀和地区信息

概述

代码

结果

[python]爬取手机号码前缀和地区信息的更多相关文章

随机推荐

热门专题