使用python抓取美团商家信息

抓取美团商家信息

import requests

from bs4 import BeautifulSoup

import json

url = 'http://bj.meituan.com/'

url_shop = 'http://bj.meituan.com/shop/{}'

headers = {

    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

    'Accept-Encoding':'gzip, deflate, sdch',

    'Accept-Language':'zh-CN,zh;q=0.8',

    'Cache-Control':'max-age=0',

    'DNT':'1',

    'Host':'bj.meituan.com',

    'Proxy-Connection':'keep-alive',

    'Referer':'http://bj.meituan.com/shop/286725?acm=UwunyailsW15518532529028663069.286725.1&mtt=1.index%2Fdefault%2Fpoi.pz.1.j4cijrmg&cks=58899',

    'Upgrade-Insecure-Requests':'1',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

}

# 得到所有的二级菜单url

def get_start_menu_links():

    html = requests.get(url).text

    soup = BeautifulSoup(html, 'lxml')

    links = [link.find('div').find('div').find('dl').find('dt').find('a')['href'] for link in soup.find_all('div',class_='J-nav-item') ]

    return links

def get_shop_ids(url, headers=None):

    html = requests.get(url, headers=headers).text

    soup = BeautifulSoup(html, 'lxml')

    content_id = json.loads(soup.find('div', class_='J-scrollloader cf J-hub')['data-async-params'])

    return json.loads(content_id.get('data')).get('poiidList')

def main():

    start_menu_links = get_start_menu_links()

    for link in start_menu_links:

        for pageNum in range(4,5):

            category_url = link + '/all/page{}'.format(pageNum)

            for shop_id in get_shop_ids(category_url, headers=headers):

                html = requests.get(url_shop.format(shop_id), headers=headers).text

                soup = BeautifulSoup(html, 'lxml')

                shop_detail = soup.find('div', class_='summary biz-box fs-section cf')

                print("==================================pageNum %d  shop_id: %d===================================================" % (pageNum,shop_id ))

                try:

                    shop_detail.find('div', class_='fs-section__left').find('h2').find('span').text

                except:

                    continue

                print("名称：      " + shop_detail.find('div', class_='fs-section__left').find('h2').find('span').text)

                print("地址：      " + shop_detail.find('div', class_='fs-section__left').find('p', class_='under-title').find('span').text)

                print("联系方式：   " + shop_detail.find('div', class_='fs-section__left').find('p', class_='under-title').find_next_sibling().text)

if '__main__' == __name__:

    main()

使用python抓取美团商家信息的更多相关文章

用python抓取求职网站信息
本次抓取的是智联招聘网站搜索“数据分析师”之后的信息. python版本: python3.5. 我用的主要package是 Beautifulsoup + Requests+csv 另外,我将招聘内 ...
Python抓取成都房价信息
Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python抓取贝壳房源信息
分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的 https://tj.ke.com/chengjiao/a3l4/ a3 实际表示的 l4 表示的是然后将复合条件拼成一个字符串,带过去 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

随机推荐

LGOJ1861 星之器
前置扯淡我对这个题目的评价和网上各位大佬的一样:人类智慧题 (显然我不具有人类智慧--) Description link 现在有一个 $n \times m$ 的矩阵$A$,里面的每个元素 ...
常见 Web 安全攻防总结
Web 安全的对于 Web 从业人员来说是一个非常重要的课题,所以在这里总结一下 Web 相关的安全攻防知识,希望以后不要再踩雷,也希望对看到这篇文章的同学有所帮助.今天这边文章主要的内容就是分析几种 ...
Opencv笔记（二十）——直方图（二）
直方图均衡化原理: 想象一下如果一副图像中的大多是像素点的像素值都集中在一个像素值范围之内会怎样呢?例如,如果一幅图片整体很亮,那所有的像素值应该都会很高.但是一副高质量的图像的像素值分布应该很广泛 ...
Flink（六） —— 配置文件详解
基础配置 #============================================================================== # Common #===== ...
xcode垃圾目录以及Mac隐藏显示文件快捷键
~/Library/Developer/Xcode/DerivedData 显示:defaults write com.apple.finder AppleShowAllFiles -bool tru ...
关于ping命令的批处理问题
需求描述:假设你的IP保存在名字为IP.txt的文本文档里,且每行一条ip.你想ping这些IP并得到结果解决方案:用下面的批处理代码即可实现,将下面的代码保存为后缀为.bat的文件,比如test. ...
itop4412开发版-安卓系统卸载默认apk使用文档
itop4412开发版的安卓系统默认不是最高权限,可以看见后面最后一个是$符号,如下图 1,所以想我们需要进入 root 权限,可以看见后面最后一个是#符号,如下图所示.在这个变换中只需要在超级终 ...
VS2010 保护视力背景色设置
vs2010——工具——选项---环境——字体和颜色——纯文本——项背景色——自定义色调:88 饱和度:92 亮度:209
day39-进程-队列
#队列Queue:进程之间数据是隔离的,不共享的,但是通过multiprocessing的Queue可以实现进程之间的通信. #1.先进先出:把1 2 3放到队列里,按1 2 3的顺序拿出来. fro ...
day17-反射
#反射最常用的两个方法:hasattr getattr # 1. 反射对象属性,反射对象方法: class Goods: def __init__(self,name): self.name = na ...

使用python抓取美团商家信息

使用python抓取美团商家信息的更多相关文章

随机推荐

热门专题