用Python制作新浪微博爬虫

【用Python制作新浪微博爬虫】的更多相关文章

用Python制作新浪微博爬虫

早上刷空间发现最近好多人过生日诶~ 仔细想想,好像4月份的时候也是特别多人过生日[比如我那么每个人生日的月份有什么分布规律呢...突然想写个小程序统计一下最简单易得的生日数据库大概就是新浪微博了: 但是电脑版的新浪微博显然是动态网页...如果想爬这个应该要解析JS脚本[就像上次爬网易云音乐..然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有利于爬虫注意上面的网址:http://weibo.cn/5156584529/info 经测试不同的用户仅仅是…

利用python实现新浪微博爬虫

第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码: #! /usr/bin/env python # -*- coding: utf-8 -*- import sys import urllib import urllib2 import cookielib import base64 import re import json import hashlib class weiboLogin: cj = cookielib.LWPCookieJar() cook…

Windows 环境下运用Python制作网络爬虫

import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名称(chrome.exe)') i += 1 else: print 'happly day!' 代码和简单仅仅要一个第三方的函数和调用系统的文件就OK了. 记住给要刷的次数定值,不然电脑就不好受了!…

dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用

首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是page->model->result,从网页中提取数据,组成有意义的数据结构,再拿这数据结构做点什么. 在这个项目中,爬虫的用处是从游久网dota数据库上抓取dota英雄和物品的数据和照片存到本地磁盘,数据存为json格式,方便在网页应用中直接使用. 2.网页应用,使用dota英雄数据.自己编写的小伙…

利用aiohttp制作异步爬虫

asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块.关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架--aiohttp,它可以帮助我们异步地实现HTTP请求,从而使得我们的程序效率大大提高. 本文将会介绍aiohttp在爬虫中的一个简单应用. 我们的项目来源于:Scrapy爬虫(5)爬取当当网图书畅销榜,在原来的项目中,我们是利用Python的爬虫框架scrapy来爬取当当网图书畅销榜的图书信息…

Python 开发轻量级爬虫08

Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介. 2.分析这个目标,即需要确定抓取这些网站数据的策略. 有三部分需要分析. 1)需要分析这些目标页面的url格式,用来限定我们要抓取页面的范围. 如果这个范围不进行限定的话,我们的爬虫就会抓取互联网上很多不相关的网页,造成资源的浪费. 2)…

Python 开发轻量级爬虫07

Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip install BeautifulSoup4 BeautifulSoup语法分为三个部分. 首先根据下载好的html网页字符串,我们创建一个BeautifulSoup这个对象,创建这个对象的同时就将整个文档字符串下载成一个DOM树. 然后根据这个dom树,我们就可以进行各种节点的搜索,这里有两个方法…

Python 开发轻量级爬虫06

Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有价值数据的一种工具,对于搜索引擎来说它会提取出网页所有的url,用于后续的访问. 但是,对于我们定向爬虫来说,除了提取出待爬取的url之外,会提取出我们感兴趣的想要的有价值的数据. 也就是说,网页解析器会以下载好的HTML网页字符串作为输入,然后提取出有价值的数据和新的待爬取的url列表. Pyth…

Python 开发轻量级爬虫05

Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器是爬虫的核心组件. 网页下载器类似于网页浏览器,会将url对应的互联网网页,以HTML的形式下载到本地存储一个本地文件或者本地字符串,然后才能进行后续的分析和处理. Python有哪几种网页下载器呢? Urllib2 – python官方的基础模块,它支持直接的url下载, 或者说向网页提交一些需要…

Python 开发轻量级爬虫04

Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容,为什么还要对url进行管理呢? 是为了防止重复抓取.防止循环抓取. 我们都知道,每一个网页都有很多指向其它网页的url,其它网页的url也会指向本网页.这样不同url之间就存在一种循环指向的问题. 如果不对这些url进行管理,那么我们的爬虫就在循环不断抓取这两个url,形成一个死循环.重复抓取.循…