python 网页爬虫，带登陆信息

注意点：

1. 用Fiddler抓取登陆后的headers,cookies;

2. 每抓取一次网页暂停一点时间防止反爬虫;

3. 抓取前，需要关闭Fiddler以防止端口占用.

还需解决的问题：

爬取记录较多时，会触发反爬虫机制。

用Fiddler抓取登陆后的headers,cookies

也可使用火狐F12查看

#-*- coding: utf-8 -*-

import sys

import time

import urllib

import bs4

import re

import random  

import requests  

def main(startUrl):

    print(startUrl)

    global csvContent

    headers = {'Accept': 'text/html, application/xhtml+xml, */*',

               'Accept-Encoding':'gzip, deflate',

               'Accept-Language':'zh-CN',

               'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'

               }  

    cookies = {

               '_csrf':'iN90P1mtdXxv/ZWpt8W8kg==',

               '_csrf_bk':'b095b5ac898229ebf3adc8f0e901523a',

               'aliyungf_tc':'AQAAAAoHdhpO9Q4AHJUE2sFxGtgWCuH9',

               'auth_token':'eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxODU1MDEzNTUyMSIsImlhdCI6MTUxNzE5MTI3OSwiZXhwIjoxNTMyNzQzMjc5fQ.z9l-sSAyPlLFsD97Yrs7khD1dRBCyyByb-sijUgorQzgR5HdVykD1_W_gn8R2aZSUSRhR_Dq0jPNEYPJlI22ew',

               'bannerFlag':'true',

               'csrfToken':'9_lfoqS9eAThxvDa8XjDHA6B',

               'Hm_lpvt_e92c8d65d92d534b0fc290df538b4758':'1517191269',

               'Hm_lvt_e92c8d65d92d534b0fc290df538b4758':'1516864063',

               'OA':'TkU7nzii8Vwbw4JYrV6kjTg0WS645VnS6CIervVVizo=',

               'ssuid':'360989088',

               'TYCID':'709b5a10019e11e89c185fb756815612',

               'tyc-user-info':'%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxODU1MDEzNTUyMSIsImlhdCI6MTUxNzE5MTI3OSwiZXhwIjoxNTMyNzQzMjc5fQ.z9l-sSAyPlLFsD97Yrs7khD1dRBCyyByb-sijUgorQzgR5HdVykD1_W_gn8R2aZSUSRhR_Dq0jPNEYPJlI22ew%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252218550135521%2522%257D',

               'undefined':'709b5a10019e11e89c185fb756815612'   

               }  

    resultPage = requests.get(startUrl, headers= headers, cookies = cookies)

    randomTime= random.random()*10+5

    print('randomTime    '+str(randomTime))

    time.sleep(randomTime)  

    soup = bs4.BeautifulSoup(resultPage.text,'html.parser')

    industry = soup.find_all(attrs={'class': 'in-block overflow-width vertival-middle sec-c2'})[0].string;

    companys= soup.find_all(attrs={'class': 'search_right_item ml10'})

    for company in companys:

        tempCsvContent=''

        tempCsvContent+=industry+','

        tempCsvContent+=company.contents[0].a.string+','

#         if(company.contents[0].a.string=='昆山市大千园艺场'):

#             break;

        for child in company.contents[1].div.children:

            content= str(child.get_text);

            if None!=re.search("法定代表人",content):

                try:

                    tempCsvContent+=child.a.string+','

                except:

                    tempCsvContent+=','

            elif None!=re.search("注册资本",content):

                try:

                    tempCsvContent+=child.span.string+','

                except:

                    tempCsvContent+=','

            elif None!=re.search("注册时间",content):

                try:

                    tempCsvContent+=child.span.string+','

                except:

                    tempCsvContent+=','

            elif None!=re.search("江苏",content):

                try:

                    tempCsvContent+=re.match('^.*?f20">(\d+).*$',content).group(1)+','

                except:

                    tempCsvContent+=','

            else:

                None

        try:

            tempCsvContent+=company.contents[0].a.attrs['href']  +',' 

            link = company.contents[0].a.attrs['href']

            linkResult = requests.get(link, headers= headers, cookies = cookies)

            randomTime2= random.random()*10+5

            print('randomTime 2    '+str(randomTime2)+'        '+link)

            time.sleep(randomTime2)  

            linkSoup = bs4.BeautifulSoup(linkResult.text,'html.parser')

            location = linkSoup.find_all(attrs={'colspan': '4'})[0].text.replace('附近公司','');

            tempCsvContent+=location+',';

            selfRisk = linkSoup.find(attrs={'class': 'new-err selfRisk pl5 pr5'}).string;

            tempCsvContent+=selfRisk+',';

            roundRisk = linkSoup.find(attrs={'class': 'new-err roundRisk pl5 pr5'}).string;

            tempCsvContent+=roundRisk+',';

            riskItems = linkSoup.find(attrs={'class': 'navigation new-border-top new-border-right new-c3 js-company-navigation'}).find(attrs={'class': 'over-hide'}).find_all(attrs={'class': 'float-left f14 text-center nav_item_Box'});

            for content in riskItems[2].contents[1]:

                value = str(content)

                try:

                    if('<span class="c9">' in value):

                        tempCsvContent+=content.span.string+',';

                    else:

                        tempCsvContent+='0'+',';

                except:

                    tempCsvContent+='0'+',';

            for content in riskItems[3].contents[1]:

                value = str(content)

                try:

                    if('<span class="c9">' in value):

                        tempCsvContent+=content.span.string+',';

                    else:

                        tempCsvContent+='0'+',';

                except:

                    tempCsvContent+='0'+',';

            for content in riskItems[4].contents[1]:

                value = str(content)

                try:

                    if('<span class="c9">' in value):

                        tempCsvContent+=content.span.string+',';

                    else:

                        tempCsvContent+='0'+',';

                except:

                    tempCsvContent+='0'+',';        

            for content in riskItems[5].contents[1]:

                value = str(content)

                try:

                    if('<span class="c9">' in value):

                        tempCsvContent+=content.span.string+',';

                    else:

                        tempCsvContent+='0'+',';

                except:

                    tempCsvContent+='0'+',';  

            tempCsvContent=tempCsvContent.rstrip(',')

            tempCsvContent+='\r'

            csvContent+=tempCsvContent

        except:

            print('exception')

            tempCsvContent=''

        print(csvContent)

        print()

        print()

        print()

        print()

        print()

if __name__ == '__main__':  

    for i in range(3,4):

        name=str(i).zfill(2)

        file = open('D:\\result-'+name+'.csv','w')

        csvContent='行业分类,企业描述,法定代表人,注册资本,注册时间,分数, 细节, 注册地址, 天眼风险-自身风险, 天眼风险-周边风险, 法律诉讼, 法院公告, 失信人, 被执行人, 开庭公告, 经营异常, 行政处罚, 严重违法,股权出质,动产抵押,欠税公告,司法拍卖, 招投标,债券信息,购地信息,招聘,税务评级,抽查检查,产品信息,进出口信用,资质证书,微信公众号,商标信息,专利,软件著作权,作品著作权,网站备案\r'

        for j in range(1,6):

#             randomTime= random.random()*10+10

#             print('randomTime  header  '+str(randomTime))

#             time.sleep(randomTime)  

            main('https://szh.tianyancha.com/search/oc'+str(i).zfill(2)+'/p'+str(j))

        file.write(csvContent)

        file.close

        csvContent=''

    print(csvContent)

运行结果示例

代码链接

python 网页爬虫，带登陆信息的更多相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...
python 网页爬虫+保存图片+多线程+网络代理
今天,又算是浪费了一天了.python爬虫,之前写过简单的版本,那个时候还不懂原理,现在算是收尾吧. 以前对网页爬虫不了解,感觉非常神奇,但是解开这面面纱,似乎里面的原理并不是很难掌握.首先,明白一个 ...
python网页爬虫
1. 静态页面爬取这类最简单啦,右键->查看页面源码时,想下载的信息都能够显示在这里,这时只需要直接down页面源码,代码如下: # Simple open web import urllib ...
python网页爬虫小项目开发
这是我最近接的一个小项目,花了是整整四天多时间. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类, ...
python网页爬虫开发之二
1.网站robots robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页. 2.识别网站技术 3.下载网页使用urlli ...
python 网页爬虫基础篇
首先要连接自己的数据库 import pymysql import requests #需要导入模块 db = pymysql.connect('localhost', 'root', '****** ...
python网页爬虫开发之六-Selenium使用
chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢.如果可以不加 ...

随机推荐

Android开发之五大布局篇
一.Android中常用的5大布局方式有以下几种: 线性布局(LinearLayout):按照垂直或者水平方向布局的组件. 相对布局(RelativeLayout):相对其它组件的布局方式. 绝对布局 ...
《Java并发编程实战》笔记-状态依赖方法的标准形式
void stateDependentMethod() throws InterruptedException { //必须通过一个锁来保护条件谓词 synchronized(lock) { whil ...
word搜狗输入失效切换方法
Butter Knife 使用方法
获取控件 @InjectView(R.id.image_show_password)ImageView image_show_password; 控件事件 @OnClick(R.id.btn_subm ...
CyclicBarrier循环屏障相关
简介 CyclicBarrier 的字面意思是可循环使用(Cyclic)的屏障(Barrier).它要做的事情是,让一组线程到达一个屏障(也可以叫同步点)时被阻塞,直到最后一个线程到达屏障时,屏障才会 ...
mdm9607 gpio12~17改成普通gpio的方法
qualcomm mdm9607的gpio12~gpio17定义如下: 现在如果想要设置GPIO_12~GPIO_17为普通GPIO口. 需要修改如下: 顺便附上qualcomm的说明: Remove ...
sas基础系列（3）-表格标颜色示例
以下代码可以直接在SAS执行查看效果 ods path reset;ods path show;ods html close;options nodate;ods pdf file="Pro ...
http note
http 多媒体传输协议 HyperText Transfer Protocol 超文本传输协议 https Hyper Text Transfer Protocol over Secure Sock ...
_mysql.c(42) : fatal error C1083: Cannot open include file: 'config-win.h':问题的解决
在win7下安装了python后,想安装python-mysql,使用pip安装出现如下问题: >pip install MySQL-python _mysql.c(42) : fatal er ...
如何用两块硬盘做磁盘阵列的教程Raid 1
如今,市面上的大部分服务器都自带有阵列卡.只要有两块以上硬盘,我们就可以利用服务器自带的阵列卡做磁盘阵列.Raid 1 为例.Raid 1 是磁盘阵列的其中一个系列,将两块硬盘构成磁盘阵列,可以保证数 ...

python 网页爬虫，带登陆信息

python 网页爬虫，带登陆信息的更多相关文章

随机推荐

热门专题