爬取拉勾网所有python职位并保存到excel表格对象方式

# 1.把之间案例，使用bs4,正则，xpath，进行数据提取。

# 2.爬取拉钩网上的所有python职位。

from urllib import request,parse

import json,random

#导入xlsxwriter  主要用于生成excel表格对象

import xlsxwriter

#创建python的职位类

class python_position:

    def __init__(self,page,number):

        self.page = page

        self.number = number

        #调用创建excel对象的函数

        self.create_book()

        self.page_chuli()

        print(self.page,self.number)#1 0

    #创建excel对象函数

    def create_book(self):

        #创建excel对象

        self.workbook_attr = xlsxwriter.Workbook('test1.xlsx')

        #创建表对象,用于写入字符串

        self.worksheet = self.workbook_attr.add_worksheet('test1')

    #处理页码数量函数

    def page_chuli(self):

        #每次页码不一样 也就是number不一样

        for page in range(1, 31):

            self.page = page

            self.user_agent()

            self.number += 1

        self.workbook_attr.close()

    def user_agent(self):

        #浏览器列表,每次访问可以用不同的浏览器访问

        user_agent_list = [

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',

        'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0) Gecko/20100101 Firefox/58.0',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0',

        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0',

        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',

        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36',

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"

        ]

        #随机选取一个浏览器访问

        self.user_agent_str = random.choice(user_agent_list)

        #调用拉钩函数

        self.lagou()

    def lagou(self):

        #职位请求地址

        base_url = "https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0"

        #判断是否是第一次访问,第二次访问data的值不一样

        if self.page == 1:

            first = 'true'

        else:

            first = 'false'

        data = {

            'first':first,

            'pn':self.page,

            'kd':'python'

        }

        print('page:',self.page)

        #参数拼接及转码,生成是字符串格式,  注意:长度下面的headers用的到

        data = parse.urlencode(data)

        #一定要比较每次page不一样的时候headers的各项的细微差别  这个很重要 也是能否爬取数据的关键

        #在这里Content-Length,User-Agent的值相对来说比较重要

        headers = {

            'Accept': 'application/json, text/javascript, */*; q=0.01',

            # Accept-Encoding:gzip, deflate

            'Accept-Language': 'zh-CN,zh;q=0.8',

            'Connection': 'keep-alive',

            'Content-Length': len(data),

            'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

            'Cookie': 'user_trace_token=20180310205250-ccfd21f6-5b57-4e04-b90c-5e547e18d391; LGUID=20180310205255-f3afa6e4-2461-11e8-a8b5-525400f775ce; hideSliderBanner20180305WithTopBannerC=1; X_HTTP_TOKEN=673c8ae0b29d830c65e9812a6aeeb211; ab_test_random_num=0; JSESSIONID=ABAAABAAADEAAFI0BD8484557BF60A48BF2BDD6AA4C5D33; _putrc=318C0D90043747B6123F89F2B170EADC; login=true; unick=%E5%BC%A0%E6%B3%A2; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; gate_login_token=d46c3e3008cb0364e7b47d9d261956a39273c72d679a1b0eb644e03620c100fa; TG-TRACK-CODE=index_navigation; _gid=GA1.2.1883607132.1520686376; _ga=GA1.2.2068283511.1520686375; LGSID=20180310215122-1e408aca-246a-11e8-a8ed-525400f775ce; LGRID=20180310233852-22b0d3ee-2479-11e8-a921-525400f775ce; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1520686378,1520689884; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1520696337; SEARCH_ID=458b8d44186948ceb472c3d662f08528; index_location_city=%E5%8C%97%E4%BA%AC',

            'Host': 'www.lagou.com',

            'Origin': 'https://www.lagou.com',

            'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',

            "User-Agent": self.user_agent_str,

            'X-Anit-Forge-Code': 0,

            'X-Anit-Forge-Token': 'None',

            'X-Requested-With': 'XMLHttpRequest'

        }

        req = request.Request(url=base_url,data=bytes(data,encoding='utf-8'),headers=headers)

        response = request.urlopen(req)

        html = response.read()

        html = html.decode('utf-8')

        #使用json格式化,生成一个字典,然后从字典里头取值就可以,下面就是取值的过程,想要啥就可以啥

        json_data = json.loads(html)

        # print(json_data)

        positionResult = json_data['content']['positionResult']

        # print(positionResult)

        self.result_list = positionResult['result']

        print(self.result_list)

        self.workbook()

    def workbook(self):

        for result in self.result_list:

            # print(len(result))

            # print(len(result))

            # print(result)

            self.worksheet1(result)

            self.number += 1

            print(self.number)

            print('~~~~~~~~~~~~~~~~~~~~~haha~~~~~~~~~~~~~~~~~~~~~~~')

        # self.workbook_attr.close()

        # print(self.number)

    def worksheet1(self,result):

        # print(self.worksheet,result,self.number)

        keys = list(result.keys())

        if self.number == 0:

            self.keys_list = keys

            for i in range(len(keys)):

                # 向work中添加数据 def write(self, row, col, *args):

                # write第一个参数是行,第二个参数是列,第三个是要写入的参数名称

                print(keys[i], type(keys[i]),i)

                self.worksheet.write(0, i, str(keys[i]))

                print('~~~~~~~~~~~~~~~~~~~~0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~')

        values = []

        for k in self.keys_list:

            values.append(result[k])

        # print(type(keys))

        # values = list(result.values())

        # print(type(values))

        for i in range(len(values)):

            # 向work中添加数据 def write(self, row, col, *args):

            # write第一个参数是行,第二个参数是列,第三个是要写入的参数名称

            print(str(values[i]),i,len(values))

            self.worksheet.write(self.number+1, i, str(values[i]))

            print('------------------------1-------------------------------')

        # workbook.close()

if __name__ == '__main__':

    lagou_python = python_position(1,0)

爬取拉勾网所有python职位并保存到excel表格对象方式的更多相关文章

Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
爬取前尘无忧python职位信息并保存到mongo数据库
1．re实现 import re,os import requests from requests.exceptions import RequestException MAX_PAGE = 10 # ...
爬取淘宝商品数据并保存在excel中
1.re实现 import requests from requests.exceptions import RequestException import re,json import xlwt,x ...
python 数据如何保存到excel中--xlwt
第一步:下载xlwt 首先要下载xlwt,(前提是你已经安装好了Python) 下载地址: https://pypi.python.org/pypi/xlwt/ 下载第二个第二步:安装xl ...
自动网页截图并指定元素位置裁剪图片并保存到excel表格
# coding=utf-8 import os import time from selenium import webdriver from selenium.webdriver.chrome.o ...
将查询列表内容保存到excel表格中，并保存到相应的盘中
1.先导入相应的jar包 2.一个小的Demo测试[实体类+测试类:保存excel的方法] Student实体类 public class Student{ private int id; priva ...

随机推荐

Robot Framework 常见问题处理方式
1.运行testcase报错error 2解决办法打开python的scripts目录,看看是否有pybot.bat文件,没有则创建一个 pybot.bat内容: @Echo off python ...
python——列表操作函数和方法
1.添加新元素 1.1 append()函数描述:append() 方法用于在列表末尾添加新的对象. 语法:list.append(obj) 参数:obj -- 添加到列表末尾的对象. 返回值:该方 ...
BFS+打印路径
题目是给你起点sx,和终点gx:牛在起点可以进行下面两个操作: 步行:John花一分钟由任意点X移动到点X-1或点X+1. 瞬移:John花一分钟由任意点X移动到点2*X. 你要输出最短步数及打印路径 ...
C#面试笔试题五
1.什么是受管制的代码? 答:unsafe:非托管代码.不经过CLR运行. 2.net Remoting 的工作原理是什么? 答:服务器端向客户端发送一个进程编号,一个程序域编号,以确定对象的位置. ...
Java 8实战之读书笔记四：高效Java 8编程
三.高效Java 8编程第8章重构.测试和调试 Java 8的新特性也可以帮助提升代码的可读性:  使用Java 8,你可以减少冗长的代码,让代码更易于理解  通过方法引用和S ...
Ajax爬取豆瓣电影目录（Python）
下面的分析相当于一个框架,搞懂之后,对于类似的文字爬取,我们也可以实现.就算不能使用Ajax方法,我们也能够使用相同思想去爬取我们想要的数据. 豆瓣电影排行榜分析网址:https://movie.d ...
JS的连等赋值
参考自,我再整理一遍. 题目如下: var a = {n:1}; var b = a; a.x = a = {n:2}; alert(a.x); alert(b.x): 输出为 undefined, ...
Ajax —— 服务器端发送JSON数据
重点需要解决的问题:服务器端如何构建JSON数据思考:JavaBean转JSON数据,集合转JSON数据,普通java对象(String,Number)转JSON数据一.Gson开源jar包 ...
Failed to load C:\ProgramFilesTwo\Android\sdk\build-tools\27.0.3\lib\dx.jar
Eclipse遇到如下错误: Failed to load C:\ProgramFilesTwo\Android\sdk\build-tools\27.0.3\lib\dx.jar 原因: eclip ...
2018-4-30-win2d-CanvasRenderTarget-vs-CanvasBitmap
title author date CreateTime categories win2d CanvasRenderTarget vs CanvasBitmap lindexi 2018-04-30 ...

爬取拉勾网所有python职位并保存到excel表格 对象方式

爬取拉勾网所有python职位并保存到excel表格 对象方式的更多相关文章

随机推荐

热门专题

爬取拉勾网所有python职位并保存到excel表格对象方式

爬取拉勾网所有python职位并保存到excel表格对象方式的更多相关文章