背景 有时候,我们有些内部网站希望不被外部抓取,那么我们可以借助vuepress-plugin-robots来生成robots.txt文件,来告诉爬虫不要抓取页面. 安装 npm install vuepress-plugin-robots 项目地址:https://github.com/HiYue/vuepress-plugin-robots 配置 准备一个sitemap.xml文件,位置随意,路径和下文对应上就行. <xml version="1.0" encoding=&q…
from bs4 import BeautifulSoupimport sys,os,requests,pymongo,timefrom lxml import etreedef get_fenlei(url,headers): """ 获取妹子图的分类链接,并创建相对应的分类文件夹 :param url: :param headers: :return: """ response = requests.get(url,headers=heade…
背景 有时候,我们也希望VuePress构建的文档中心能支持离线访问,这时候我们需要给他添加渐进式Web应用(PWA,Progressive Web App)的支持,根据官方文档指引,我们可以借助插件vuepress/plugin-pwa来添加PWA的支持. PWA(Progressive Web Apps,渐进式 Web 应用)运用现代的 Web API 以及传统的渐进式增强策略来创建跨平台 Web 应用程序.这些应用无处不在.功能丰富,使其具有与原生应用相同的用户体验优势. 安装 npm i…
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面) 2.下面我们就来说一说如何设置robots.txt文件 1).robots.txt文件必须是放在文件根目录上: 例如: ├─admin │  └─templates │    …
人生苦短,我用Python && C#. 1.引言 最近初学Python,写爬虫上瘾.爬了豆瓣练手,又爬了公司的论坛生成词云分析年度关键词.最近琢磨着2017又仅剩两月了,我的年度关键词是啥? 所以自然想到爬取下自己的微信朋友圈,来个词频分析,生成属于自己的年度关键词词云. 朋友圈的爬取是非常有难度的,因为微信根本没有暴露API入口去爬取数据. 但它山之石,可以攻玉. 通过各种搜索发现,已经有第三方工具可以做到朋友圈的导出.其中微信公众号[出书啦]就提供了这样一种服务,支持朋友圈导出,并排…
今天用scrapy框架爬取一下所有知乎用户的信息.道理很简单,找一个知乎大V(就是粉丝和关注量都很多的那种),找到他的粉丝和他关注的人的信息,然后分别再找这些人的粉丝和关注的人的信息,层层递进,这样下来,只要有关注的人或者有粉丝的账号,几乎都能被爬下来.话不多说,进入正题. 1.首先按照上篇博客的介绍,先建立项目,然后建一个spider文件,scrapy  genspider  zhihu  www.zhihu.com. 进入settings.py,修改内容 ROBOTSTXT_OBEY = F…
前言 本次主题分两篇文章来介绍: 一.数据采集 二.数据分析 第一篇先来介绍数据采集,即用python爬取网站数据. 1 运行环境和python库 先说下运行环境: python3.5 windows 7, 64位系统 python库 本次智联招聘的网站爬取,主要涉及以下一些python库: requests BeautifulSoup multiprocessing pymongo itertools 2 爬取的主要步骤 根据关键字.城市.以及页面编号生成需要爬取的网页链接 用requests…
昨天帮一个商科同学爬取去哪儿网站的所有广州如家快捷酒店的所有入住信息. 就是上面的商务出行 xxx年入住这些东西 然而去哪儿的前端很强,在获取所有如家快捷酒店的时候就遇到了问题. 他显示的酒店列表是js动态加载的,按了下一页之后,网站本来的url不变的.所以更新了的那部分内容获取不到. 抓包看了一下,返回的酒店信息竟然都是加密的. Selenium试了也不行. 所以通过爬取获取所有酒店网页的url是不行咯. 只能通过手动打开酒店的url ,在获取下面的评论信息.第一页的酒店URL可以直接获得的,…
- 中国空气质量在线监测分析平台是一个收录全国各大城市天气数据的网站,包括温度.湿度.PM 2.5.AQI 等数据,链接为:https://www.aqistudy.cn/html/city_detail.html,网站显示为: 该网站所有的空气质量数据都是基于图表进行显示的,并且都是出发鼠标滑动或者点动后才会显示某点的数据,所以如果基于selenium进行数据爬取也是挺吃力的,因此我们采用requests模块进行数据爬取. - 基于抓包工具展开分析: - 通过分析发现,只有在页面中设置了查询的…
前期准备,首先要有python环境+scrapy环境+pycharm环境 一.建立爬虫所需的环境,在命令行输入: scrapy startproject doubantv #命名自定义就好 会生成一个名为doubantv的文件夹,cd进入doubantv文件夹,在进入spiders文件夹,执行命令,新建爬虫文件: scrapy gensipder tv "https://movie.douban.com" #注明爬虫文件名,要爬取的网址域 然后就可以用pycharm打开doubantv…
全站爬取1 基于管道的持久化存储 数据解析(爬虫类) 将解析的数据封装到item类型的对象中(爬虫类) 将item提交给管道, yield item(爬虫类) 在管道类的process_item中接手收item对象, 并进行任意形式的持久化存储操作(管道类) 在配置文件中开启管道 细节: 将爬取到的数据进行备份:一个管道类对应一种平台的持久化存储 有多个管道类是否意味着多个管道类都可以接收到爬虫文件提交的item? 只有优先级最高的管道才会接收到item,其余的管道是从优先级最高的管道类中接收i…
iOS 全局禁止横屏,但UIWebView 全屏播放视频,横屏,解决办法 时间 2015-07-14 20:59:00  博客园-原创精华区 原文  http://www.cnblogs.com/fengtengfei/p/4646562.html 主题 UIWebViewGitHubJavaScript iOS 全局禁止横屏,但UIWebView 全屏播放视频,横屏,解决办法 UIWebview在播放网页视频的时候我们需要进行是否全屏状态的监听. 一般的需求是在播放视频时候需要横屏,退出全屏的…
第一步: 第二步:执行以下命令: 第三步:找到/c/Users/Administrator/.ssh 目录,里面有两个文件:id_rsa和id_rsa.pub 第四步:配置ssh[这里是id_rsa.pub里面的内容啊] 配置好了后,你就可以愉快地commit && push 第五步:添加全局凭据…
获取起始位置 Path.Combine(AppDomain.CurrentDomain.BaseDirectory); 添加全局资源 string temp = "this is a string resource"; // 添加或更新资源字典 Application.Current.Resources["temp"] = temp;…
VC添加全局热键的方法 这个方法靠谱 http://blog.csdn.net/lujianfeiccie2009/article/details/7498704 VC添加全局热键的方法 标签: bufferclass 2012-04-25 17:09 2771人阅读 评论(0) 收藏 举报  分类: C/C++(50)  MFC(32)  版权声明:本文为博主原创文章,未经博主允许不得转载. 全局热键定义 VirtualKey.h /******************************…
flutter安装好了之后 要添加全局环境变量才可以在终端通过flutter命令来操作 安装flutter环境变量 vim ~/.bash_profile (不存在就创建,添加下面一行命令) export PATH=/Users/admin/flutter/bin:$PATH source ~/.bash_profile 其中/Users/admin/flutter为flutter安装路径,这个要根据你本地实际环境来替换…
一.自定义模块 自定义模块 参考 Joomla - 模块系统(新建模块.模块类别.自定义模块)第三点 自定义模块部分 自定义模块布局 参考 Joomla - T3模板(非常好用的4屏响应式模板) 的第十一点 T3 自定义模块 2.修改原有模块样式 以下以面包屑导航为例子 编写CSS样式表,创建一个命名空间 找到面包屑模块,添加模块 CSS类后缀 在全局中链入 CSS样式表 到前端相应位置查看模块 3.添加全局JS 参考 Joomla - T3模板(非常好用的4屏响应式模板) 的第六点 T3 模板…
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/article/details/52818…
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才 本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标 本节要实现的内容有: 从一个大V用户开始,通过递归抓取粉丝列表和关注列表,实现知乎所有用户的详细信息的抓取. 将抓取到的结果存储到 MongoDB,并进行去重操作. 思路分析 我们都知道每个人都有关注列表和粉丝列表,尤其对于大V来说,粉丝和关注尤其更多. 如果我们从一个大V开始,首先可以获取他的个人信息,然后我们获取…
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht…
在家呆着也是呆着,不如做点什么消磨时间呗~ 试试用django+pyecharts实现疫情数据可视化web页面 这里要爬疫情数据 来自丁香园.搜狗及百度的疫情实时动态展示页 先看看劳动成果: 导航栏: 疫情地理热力图: 治愈/死亡折线图 舆论词云: 至于项目完整代码我会上传到github,有兴趣可以点左上角直达了解下~ 链接:https://github.com/dao233/Django 在一个压缩包内,上传太慢了只能压缩了... 丁香园要爬的数据,这些数据用在那个地理热力图上: 丁香园疫情实…
一.前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录.一共是三篇博客,记录了我爬取淘宝网的经历.期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多,直接加载用户配置又很笨重,效率低下.所以这次尝试构造post请求表单,模拟登录. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案…
本文借鉴了@平胸小仙女的知乎回复 https://www.zhihu.com/question/36081767 写在前面: 文章有点长,操作有点复杂,需要代码的直接去文末即可.想要学习的需要有点耐心.当我理清所有逻辑后,我抑郁的(震惊的)发现,只需要改下歌曲ID就可以爬取其他任意歌曲的评论了!生成的TXT文件在程序同一目录. 有基础的可能觉得我比较啰嗦,因为我写博客一是为了记录下知识点,在遗忘的时候可以查看回顾下.二是因为我学编程的时候,搜到的很多帖子都是半残的,有些人是为了引流到自己的公众号…
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面进行爬取,大体思路如下图所示. # coding:utf-8 import scrapy import re import os import sqlite3 from myspider.items import SpiderItem class ZolSpider(scrapy.Spider):…
这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作为一名老司机觉得还是应该以练带学,1024在程序员界这么流行的网站,当然拿来先练一练. python自称是以自然语言的视角来编程,特点是开发快,语言简洁,没那么多技巧,大名鼎鼎的豆瓣.youtube都是使用python开发的网站,看来python在大规模使用这个方面来讲应该没有啥子问题:python…
一些废话 看了一眼上一篇日志的时间 已然是5个月前的事情了 不禁感叹光阴荏苒其实就是我懒 几周前心血来潮想到用爬虫爬些东西 于是先后先重写了以前写过的求绩点代码 爬了草榴贴图,妹子图网,后来想爬婚恋网上的数据分析 结果在第一步模拟登陆就卡住了 于是改爬知乎 因为有现成代码参考. 1. 模拟登陆 1.1 查看post参数 我用的是Chrome浏览器 按F12打开开发者工具 选到NetWork 然后登陆一次观察在登陆过程中post了哪些参数 collect估计是用来收集要发送的数据 email用来p…
useragentstring.com 网站几乎廊括了所有的User-Agent,刚学了scrapy,打算那它练手,把上面的 user-agent 爬取下来. 本文只爬取常见的 FireFox, Chrome, Opera, Safri, Internet Explorer 一.创建爬虫项目 1.创建爬虫项目useragent $ scrapy startproject useragent 2.进入项目目录 $ cd useragent 3.生成爬虫文件 ua 这一步不是必须的,不过有了就方便些…
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器.HTML解析器.数据存储器三大模块. step1:首先打开我们要爬取的网站url:http://maoyan.com/board/4: step2:简单的分析一下网页的源代码,找到我们要爬取的相关信息,以及信息在html源码中的位置…
图虫网-写在前面 经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写完,常见的反反爬后面也会写的,还有fuck login类的内容. 图虫网-爬取图虫网 为什么要爬取这个网站,不知道哎~ 莫名奇妙的收到了,感觉图片质量不错,不是那些妖艳贱货 可以比的,所以就开始爬了,搜了一下网上有人也在爬,但是基本都是py2,py3的还没有…
27270图片----获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说. 为了以后的网络请求操作方向,我们这次简单的进行一些代码的封装操作. 在这里你可以先去安装一个叫做 retrying 的模块 pip install retrying 这个模块的具体使用,自己去百度吧.嘿嘿哒~ 在这里我使用了一个随机产生user_…