58同城职位分类数据 json

{ "level0": {"0": "销售", "1": "客服", "2": "人事/行政/后勤", "3": "餐饮", "4": "旅游", "5": "酒店", "6": "超市/百货/零售", &qu…

爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import requests,pymongo main_url = 'http://bj.58.com/sale.shtml' client = pymongo.MongoClient('localhost',27017) tc_58 = client['58tc'] tab_link_list = tc_58['link_…

Python爬虫(二)——对开封市58同城出租房数据进行分析

出租房面积(area) 出租房价格(price) 对比信息代码 import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pad import seaborn as sns import numpy as np sns.set_style('dark') kf = pad.read_csv('kf.csv') def sinplotone(): fig,ax = plt.subplots() ax.vio…

Python爬虫(四)——开封市58同城数据模型训练与检测

前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现这里有5个数据,这里有两个特征(房租是否少于2000,房屋面积是否大于50)来划分这5个出租房是否租借. 现在我们要做的就是是要根据第一个特征,第二个特征还是第三个特征来划分数据,进行分类. def createDataSet(): dataSet = [[1, 1, 'ye…

以人为本打造“超职季”IP，58同城精准匹配企业招聘与打工人

撰文 |懂懂编辑 | 秦言来源:懂懂笔记在大手笔培育IP的背后,58同城是如何考量的? 在餐厅当服务员的李阿姨今年54岁了.她的女儿马上研究生毕业,非常喜欢陈伟霆,手机屏保都是他.李阿姨没想到,有一天竟然穿上了她女儿偶像设计的工装,以这种奇妙的方式跟她女儿产生了新的交集. 这是58同城"超职季"活动的一部分,7月27日,58同城超职季"潮改工装计划"正式发布,58同城品牌代言人&潮改工装联合发起人陈伟霆与时尚集团四位设计师一起,对快递员.房地产经纪.餐…

利用python爬取58同城简历数据

利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但是在制作的时候,发现内容不能被存储在本地变量 response 中.当我通过shell载入网页后,虽然内容能被储存在response中,用xpath对我需要的数据进行获取时,返回的都是空值.考虑到数据都在源码中,于是我使用python里的beautifulSou…

转载：MongoDB 在 58 同城百亿量级数据下的应用实践

为什么要使用 MongoDB? MongoDB 这个来源英文单词“humongous”,homongous 这个单词的意思是“巨大的”.“奇大无比的”,从 MongoDB 单词本身可以看出它的目标是提供海量数据的存储以及管理能力.MongoDB 是一款面向文档的 NoSQL 数据库,MongoDB 具备较好的扩展性以及高可用性,在数据复制方面,支持 Master-Slaver(主从)和 Replica-Set(副本集)等两种方式.通过这两种方式可以使得我们非常方便的扩展数据. MongoDB 较…

python3爬虫-爬取58同城上所有城市的租房信息

from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, datetime import base64, json, pymysql from fontTools.ttLib import TTFont ua = UserAgent() class CustomException(Exception): def __init__(self, status, ms…

58同城AES签名接口分析

背景:需要获取58同城上面发布的职位信息,其中的包括职位的招聘要求,薪资福利,公司的信息,招聘者的联系方式.(中级爬虫的难度系数) 职位详情页分析某个职位详情页的链接 https://qy.m.58.com/m_detail/29379880488200/ 打开以上链接并且F12进入开发者模式我们可以看见联系方式需要登陆后才可以查看. 登陆后,右击鼠标查看页面的源码,发现html页面并没有电话号码,这里初步的猜测是通过ajax来加载渲染的(一般都是这种套路) 全局搜索分析由上面可见联系方式…

scrapy爬取58同城二手房问题与对策

测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有效ip不够多,因此从xxx网站批量获取了800多个免费https代理,然后开线程池测试访问58同城网站,将有效ip保存到json文本中,在scrapy代码加proxy中间件,每次从json中random一个代理; 请求头:网上搜集各种网站的User-Agent,在scrapy中加UserAgent中…