lagou数据爬取

1. 使用的工具

selenium+xpath+ 手动输入登录

2. 实现的功能：

　　 1.手动登录后，按终端提示，就能下载所需要的内容

import requests

import json

import time

import random

from lxml import etree

from concurrent.futures import ThreadPoolExecutor

from selenium import webdriver

import pymongo

# 连接mongo 数据库

client = pymongo.MongoClient()

db = client.lougou

collention =db.lou

# 进入拉钩首页

url ='https://www.lagou.com/'

bro = webdriver.Chrome()

bro.get(url)

input('在登录页面手动登录后，按回车键：')

# 进入了自己登录页面

#  找到收缩框

search_input = bro.find_element_by_id('search_input')

# 找到搜索按钮

search_button = bro.find_element_by_id('search_button')

# 输入你需要搜索的职位

search_msg = input('请输入你要搜索的职位：')

# 在输入框自动填入搜索内容

search_input.send_keys(search_msg)

# 自动点击搜索按钮

search_button.click()

def get_data():

    '''

    提取页面数据

    将数据存入 mongo 数据库

    '''

    time.sleep(1)

    # 获取页面内容

    page=bro.page_source

    time.sleep(2)

    tree = etree.HTML(page)

    li_list =tree.xpath("//ul[@class='item_con_list']/li")

    for li in li_list:

        item={}

        item['title'] =li.xpath('.//h3/text()')[0]  # 职位标题

        item['position_link'] = li.xpath(".//a[@class='position_link']/@href")[0] # 职位详情链接

        item['addr'] = li.xpath(".//span[@class='add']/em/text()")[0].strip()  # 公司区域

        item['money'] = li.xpath(".//div[@class='li_b_l']/span/text()")[0]  # 岗位工资

        item['work_year'] = li.xpath(".//div[@class='p_bot']/div[@class='li_b_l']//text()") #

        item['work_year'] = [i.strip() for i in item['work_year'] if i.strip()]

        item['work_year'] =item['work_year'][1]  # 工作经历

        item['company_name'] = li.xpath(".//div[@class='company_name']/a/text()")[0]  # 公司名字

        item['industry'] = li.xpath(".//div[@class='industry']/text()")[0].strip()  # 公司所属行业

        print(item)

        # 将数据存到MongoDB 中

        collention.insert(item)

get_data()

# 翻页下载该搜索也的所有页的数据

while 1:

    try:

        # 下一页

        next =bro.find_element_by_xpath('//span[@class="pager_next "]')

        next.click()

        get_data()

    except :

        print('没有下一页了。。。。。')

        break

# 进入循环 ，实现 用户再次 输入 不同职位进行下载该类职位的信息  ，用户可以按 q 或 Q 退出下载

while 1:

    keyword_input = bro.find_element_by_id('keyword') # 搜索框

    submit_btn = bro.find_element_by_id('submit') # 搜索按钮

    # 清空输入搜索框的内容

    keyword_input.clear()

    # 重新进行搜索

    msg2 =input('请输入你要下载的职位信息：')

    # 退出循环条件，退出下载

    if msg2.upper()=='Q':

        break

    keyword_input.send_keys(msg2)

    # 点击搜索

    submit_btn.click()

    # 下载该页面的数据

    get_data()

    while 1:

        try:

            # 下一页

            next =bro.find_element_by_xpath('//span[@class="pager_next "]')

            next.click()

            # 进入下一页，进行下载该页的数据

            get_data()

        except :

            print('没有下一页了。。。。。')

            break

# 关闭数据库

client.close()

# 关闭浏览器

bro.quit()

代码

　　2. 你第一次输入的职位下载完会提醒你，你可以再次下载你所需要的其他职位的数据

3. 数据保存在了 mongo中，此处没有做扩展，存文件或其他数据库

lagou数据爬取的更多相关文章

爬虫1.5-ajax数据爬取
目录爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码爬虫-ajax数据爬取 ...
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...
芝麻HTTP：JavaScript加密逻辑分析与Python模拟执行实现数据爬取
本节来说明一下 JavaScript 加密逻辑分析并利用 Python 模拟执行 JavaScript 实现数据爬取的过程.在这里以中国空气质量在线监测分析平台为例来进行分析,主要分析其加密逻辑及破解 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
Ajax数据爬取
Ajax的基本原理以菜鸟教程的代码为例: XMLHTTPRequest对象是JS对Ajax的底层实现: var xmlhttp; if (window.XMLHttpRequest) { // IE ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
基于 PHP 的数据爬取（QueryList）
基于PHP的数据爬取官方网站站点简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...

随机推荐

【LeetCode】581. Shortest Unsorted Continuous Subarray 解题报告（Python & C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述解题方法方法一:排序比较日期题目地址:https://leetco ...
ZOJ 3960：What Kind of Friends Are You?
What Kind of Friends Are You? Time Limit: 1 Second Memory Limit: 65536 KB Japari Park is a large zoo ...
[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错
[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错目录 [源码解析] PyTorch 分布式之弹性训练(6)---监控/容错 0x00 摘要 0x01 总体逻辑 1.1 Node集 ...
EBGAN
目录概主要内容 Zhao J., Mathieu M. & LeCun Y. Energy-based generative adversarial networks. ICLR, 201 ...
Essentially No Barriers in Neural Network Energy Landscape
目录梗概主要内容 path的定义 path的逼近 Mechanical Model Nudged Elastic Band 局部最优 Draxler F, Veschgini K, Salmhof ...
以简御繁——介绍IOC
1.IOC的理论背景大家开发理念,一直都是奔着架构稳定.低耦合性.而IOC初衷,就是为了解决模块依赖问题,理解<六大设计原则(SOLID)> 如图所示,在我们开发中,业务的实现,就是靠着 ...
vue递归过滤树结构数组
let arr=[{ title:'1', key:'1', type:0, children:[{ title:'1-1', key:'1-1', type:0, }] },{ title:'2', ...
JSP的数据从数据库中获取导入type=date的input标签中
jsp 页面最开始加上 <%@ taglib prefix="c" uri="http://java.sun.com/jstl/core" %> & ...
EntityFrameworkCore数据迁移（二）
接上一篇 EntityFrameworkCore数据迁移(一) 其实上一篇该写的都已经写完了,但是后来又想到两个问题,想了想还是也写出来吧问题一上一篇介绍的迁移过程,都是通过在程序包管理器控制台使 ...
IntelliJ IDEA 2020.1.1 x64 Debug 断点调试模式详解
前言对于初入职场的萌新们来说,很多都还不会 Debug 断点模式.记得我刚写代码的时候,也是通过 System.out.println() 一行一行的把变量打印出来看.其实强大的编辑器已经帮我们做好 ...

lagou数据爬取

lagou数据爬取的更多相关文章

随机推荐

热门专题