模拟登陆+数据爬取 (python+selenuim)

以下代码是用来爬取LinkedIn网站一些学者的经历的，仅供参考，注意：不要一次性大量爬取会被封号，不要问我为什么知道

#-*- coding:utf-8 -*-

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

from bs4 import BeautifulSoup

diver=webdriver.Chrome()

diver.get('https://www.linkedin.com/')

#等待网站加载完成

time.sleep(1)

#模拟登陆

diver.find_element_by_id('login-email').send_keys(用户名)

diver.find_element_by_id('login-password').send_keys(密码)

# 点击跳转

diver.find_element_by_id('login-submit').send_keys(Keys.ENTER)

time.sleep(1)

#查询

 diver.find_element_by_tag_name('input').send_keys(学者名)

diver.find_element_by_tag_name('input').send_keys(Keys.ENTER)

time.sleep(1)

#获取当前页面所有可能的人

soup=BeautifulSoup(diver.page_source,'lxml')

items=soup.findAll('div',{'class':'search-result__wrapper'})

n=0

for i in items:

n+=1

title=i.find('div',{'class':'search-result__image-wrapper'}).find('a')['href']

diver.get('https://www.linkedin.com'+title)

time.sleep(3)

Soup=BeautifulSoup(diver.page_source,'lxml')

# print Soup

Items=Soup.findAll('li',{'class':'pv-profile-section__card-item pv-position-entity ember-view'})

print str(n)+':'

for i in Items:

    print i.find('div',{'class':'pv-entity__summary-info'}).get_text().replace('\n','')

diver.close()

模拟登陆+数据爬取 (python+selenuim)的更多相关文章

模拟登陆并爬取Github
因为崔前辈给出的代码运行有误,略作修改和简化了. 书上例题,不做介绍. import requests from lxml import etree class Login(object): def ...
大规模数据爬取 -- Python
Python书写爬虫,目的是爬取所有的个人商家商品信息及详情,并进行数据归类分析整个工作流程图: 第一步:采用自动化的方式从前台页面获取所有的频道 from bs4 import Beautiful ...
新浪微博模拟登陆+数据抓取(java实现)
模拟登陆部分实现: package token.exe; import java.math.BigInteger; import java.util.Random; import org.apache ...
腾讯微博模拟登陆+数据抓取(java实现)
不多说,贴出相关代码. 参数实体: package token.def; import java.io.Serializable; import java.util.Properties; publi ...
芝麻HTTP：JavaScript加密逻辑分析与Python模拟执行实现数据爬取
本节来说明一下 JavaScript 加密逻辑分析并利用 Python 模拟执行 JavaScript 实现数据爬取的过程.在这里以中国空气质量在线监测分析平台为例来进行分析,主要分析其加密逻辑及破解 ...
人人贷网的数据爬取（利用python包selenium）
记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...

随机推荐

web service 架构
Web services architecture The service provider sends a WSDL file ...
codeforces 678C. Joty and Chocolate(容斥) 2016-10-15 21:49 122人阅读评论(0) 收藏
C. Joty and Chocolate time limit per test 1 second memory limit per test 256 megabytes input standar ...
Mysql工作記錄之修改默認存儲引擎及重設root用戶密碼
1>修改默認存儲引擎方法修改配置文件,然後重啟mysql服務: [root@CHW mysql]# cat /etc/my.cnf [my ...
pl/sql 语言设置
1.select * from v$nls_parameters 查询nls的参数,获得数据库服务器端的字符编码 NLS_LANGUAGE NLS_CHARACTERSET 2.修改本地环境变量 NL ...
Toad 实现 SQL 优化
It is very easy for us to implement sql tuning by toad. We need to do is just give complex sql stat ...
Intellij Idea 14编译golang 插件
最近项目实在太赶了,很久没有写过博文了. 公司新配了一台笔记本电脑,原装win8的.于是又从linux回到了windows.不想用win命令行来搞go了,win下太折腾了.还是用一直使用的idea. ...
java 集合stream操作
分组 Map<Integer, List<T>> group = List.stream().collect(Collectors.groupingBy(T::getField ...
NLayerAppV3--基础结构层（Cross-Cutting部分）
回顾:NLayerAppV3是一个使用.net 2.1实现的经典DDD的分层架构的项目. NLayerAppV3是在NLayerAppV2的基础上,使用.net core2.1进行重新构建的:它包含了 ...
[ASP.NET]大文件无法上传排查经验分享
最近我们标桥下载模块,在经过正常更新后,发现软件包无法上传. 临时解决方案因为问题结点在于文件无法上传到服务器,所以我们临时手动将文件丢到服务器,通过测试服务器将数据造出来,然后再更新到正式数据库, ...
WebService 工作原理及实例教程
一.WebService到底是什么? 先来看下标准的定义:Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统 ...

模拟登陆+数据爬取 (python+selenuim)

模拟登陆+数据爬取 (python+selenuim)的更多相关文章

随机推荐

热门专题