Python实现爬取需要登录的网站完整示例

 from selenium import webdriver

 dirver = webdriver.Firefox()

 dirver.get('https://music.douban.com/')

 for i in dirver.find_elements_by_css_selector('.new-albums .album-title'):

     print(i.text)

读取页面整合后的结果

 import requests

 from lxml import html

 # 创建 session 对象。这个对象会保存所有的登录会话请求。

 session_requests = requests.session()

 # 提取在登录时所使用的 csrf 标记

 login_url = "https://bitbucket.org/account/signin/?next=/"

 result = session_requests.get(login_url)

 tree = html.fromstring(result.text)

 authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]

 payload = {

   "username": "<你的用户名>",

   "password": "<你的密码>",

   "csrfmiddlewaretoken": authenticity_token # 在源代码中，有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。

 }

 # 执行登录

 result = session_requests.post(

   login_url,

   data = payload,

   headers = dict(referer=login_url)

 )

 # 已经登录成功了，然后从 bitbucket dashboard 页面上爬取内容。

 url = 'https://bitbucket.org/dashboard/overview'

 result = session_requests.get(

   url,

   headers = dict(referer = url)

 )

 # 测试爬取的内容

 tree = html.fromstring(result.content)

 bucket_elems = tree.findall(".//span[@class='repo-name']/")

 bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]

 print(bucket_names)

 from bs4 import BeautifulSoup

 import requests

 class CSDN(object):

     def __init__(self, headers):

         self.session = requests.Session()

         self.headers = headers

     def get_webflow(self):

         url = 'http://passport.csdn.net/account/login'

         response = self.session.get(url=url, headers=self.headers)

         soup = BeautifulSoup(response.text, 'html.parser')

         lt = soup.find('input', {'name': 'lt'})['value']

         execution = soup.find('input', {'name': 'execution'})['value']

         soup.clear()

         return (lt, execution)

     def login(self, account, password):

         self.username = account

         self.password = password

         lt, execution = self.get_webflow()

         data = {

             'username': account,

             'password': password,

             'lt': lt,

             'execution': execution,

             '_eventId': 'submit'

         }

         url = 'http://passport.csdn.net/account/login'

         response = self.session.post(url=url, headers=self.headers, data=data)

         if (response.status_code == 200):

             print('正常')

         else:

             print('异常')

     def func(self):

         headers1={

             'Host':'write.blog.csdn.net',

             'Upgrade-Insecure-Requests':'',

             'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'

         }

         response=self.session.get(url='http://write.blog.csdn.net/postlist',headers=headers1,allow_redirects=False)

         print(response.text)

 if __name__ == '__main__':

     headers = {

         'Host': 'passport.csdn.net',

         'Origin': 'http://passport.csdn.net',

         'Referer':'http://passport.csdn.net/account/login',

         'Upgrade-Insecure-Requests':'',

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',

     }

     csdn = CSDN(headers=headers)

     account = ''

     password = ''

     csdn.login(account=account, password=password)

     csdn.func()

 #coding=utf-

 import requests

 import re

 import time

 import json

 from bs4 import BeautifulSoup as BS

 import sys 

 headers = {

     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',

 }  

 def Get_Movie_URL():

     urls = []

     for i in range(,):

         # 第一页的URL是不一样的，需要另外进行处理

         if i != :

             url = "http://www.mtime.com/top/movie/top100/index-%d.html" % i

         else:

             url = "http://www.mtime.com/top/movie/top100/"

         r = requests.get(url=url,headers=headers)

         soup = BS(r.text,'lxml')

         movies = soup.find_all(name='a',attrs={'target':'_blank','href':re.compile('http://movie.mtime.com/(\d+)/'),'class':not None})

         for m in movies:

             urls.append(m.get('href'))

     return urls  

 def Create_Ajax_URL(url):

     movie_id = url.split('/')[-]

     t = time.strftime("%Y%m%d%H%M%S0368", time.localtime())

     ajax_url = "http://service.library.mtime.com/Movie.api?Ajax_CallBack=true&Ajax_CallBackType=Mtime.Library.Services&Ajax_CallBackMethod=GetMovieOverviewRating&Ajax_CrossDomain=1&Ajax_RequestUrl=%s&t=%s&Ajax_CallBackArgument0=%s" % (url,t,movie_id)

     return ajax_url  

 def Crawl(ajax_url):

     r = requests.get(url=ajax_url,headers=headers)

     if r.status_code == :

         r.encoding = 'utf-8'

         result = re.findall(r'=(.*?);',r.text)[]

         if result is not None:

             value = json.loads(result)  

             movieTitle = value.get('value').get('movieTitle')

             TopListName = value.get('value').get('topList').get('TopListName')

             Ranking = value.get('value').get('topList').get('Ranking')

             movieRating = value.get('value').get('movieRating')

             RatingFinal = movieRating.get('RatingFinal')

             RDirectorFinal = movieRating.get('RDirectorFinal')

             ROtherFinal = movieRating.get('ROtherFinal')

             RPictureFinal = movieRating.get('RPictureFinal')

             RStoryFinal = movieRating.get('RStoryFinal')

             print(movieTitle)

             if value.get('value').get('boxOffice'):

                 TotalBoxOffice = value.get('value').get('boxOffice').get('TotalBoxOffice')

                 TotalBoxOfficeUnit = value.get('value').get('boxOffice').get('TotalBoxOfficeUnit')

                 print('票房：%s%s' % (TotalBoxOffice,TotalBoxOfficeUnit))

             print('%s——No.%s' % (TopListName,Ranking))

             print('综合评分：%s 导演评分：%s 画面评分：%s 故事评分：%s 音乐评分：%s' %(RatingFinal,RDirectorFinal,RPictureFinal,RStoryFinal,ROtherFinal))

             print('****' * )  

 def main():

     urls = Get_Movie_URL()

     for u in urls:

         Crawl(Create_Ajax_URL(u))  

     # 问题所在，请求如下单个电影链接时时不时会爬取不到数据

     # Crawl(Create_Ajax_URL('http://movie.mtime.com/98604/'))  

 if __name__ == '__main__':

     main()

Python实现爬取需要登录的网站完整示例的更多相关文章

如何用 Python 爬取需要登录的网站
[原文地址:]http://python.jobbole.com/83588/ import requests from lxml import html # 创建 session 对象.这个对象会保 ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
requests库爬取需要登录的网站
#!usr/bin/env python #-*- coding:utf-8 _*- """ @author:lenovo @file: 登录人人网.py @time: ...
Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

随机推荐

python开发：python基本数据类型
运算符 1.算数运算: 2.比较运算: 3.赋值运算: 4.逻辑运算: 5.成员运算: 基本数据类型 1.数字 int(整型) 在32位机器上,整数的位数为32位,取值范围为-2**31-2**31- ...
【webGL入门2】点线面的绘制
用js绘制webGL的点: THREE.Vector3 = function ( x, y, z ) { //用THREE声明的变量都是全局变量.this.x = x || 0;this.y = y ...
Hive:表１inner join表２结果group by优化
问题背景最近遇到一个比较棘手的事情:hive sql优化: lib表(id,h,soj,noj,sp,np) --一个字典表 mitem表(md,mt,soj,noj,sp,np)- ...
Ubuntu+vscode打不开
前沿: vscode链接参考链接问题: 之前在Ubuntu上安装chrome, 结果chrome没装成功, 还把vscode给qiu坏了, 貌似是当时安装chrome时提示要升级一个包. 后来发现 ...
C# 枚举器
1:枚举器和可枚举类型我们知道使用foreach可以遍历数组中的元素.那么为什么数组可以被foreach语句处理呢,下面我们就进行讨论一下这个问题. 2:使用foreach语句我们知道当我们使用f ...
string [] 去除重复字符两个方法
不废话直接看图结果代码: this.txtListHTML.Text = String.Join(",", list.Replace("\r\n", &qu ...
WebApi-路由机制
一.WebApi路由机制是什么? 路由机制通俗点来说:其实就是WebApi框架将用户在浏览器中输入的Url地址和路由表中的路由进行匹配,并根据最终匹配的路由去寻找并匹配相应的Controller和Ac ...
2018年Java后端面试经历
楼主16年毕业,16年三月份进入上一家公司到今年3月底,所以这是一份两年工作经验面经分享. 都说金三银四,往些年都是听着过没啥特别的感觉.今年自己倒是确确实实体验了一把银四,从3月26裸辞到4月17号 ...
[NOI 2014]魔法森林
Description 为了得到书法大家的真传,小E同学下定决心去拜访住在魔法森林中的隐士.魔法森林可以被看成一个包含个N节点M条边的无向图,节点标号为1..N,边标号为1..M.初始时小E同学在号节 ...
noip2017"退役"记
day0 口胡了一下去年的六道题,感觉很稳,看了6集动漫,0点钟就去睡了. day1 早上被一阵革命练习曲吵醒,而我还是窝在被子里不想起床(-﹃-)~zZ.于是室友开始放起了lost river... ...

Python实现爬取需要登录的网站完整示例

Python实现爬取需要登录的网站完整示例的更多相关文章

随机推荐

热门专题