一.环境准备 远程服务器必须装有scapyd,我们使用的机器必须有scrapy-client(我这里是windows),并确保这两者正常安装并启动. 二.客户端准备上传 首先进入到爬虫项目的根文件夹: scrapyd-deploy 这样就是成功了. 三.配置爬虫项目 打开爬虫项目中的scrapy.cfg文件,这个文件就是给scrapyd-deploy使用的将url这行代码解掉注释,并且给设置你的部署名称 再次执行scrapyd-deploy -l 启动服务,可以看到设置的名称 四.打包项目 1.…
第一步: 需要远程服务器上安装Web Deploy ,下载地址:http://www.iis.net/downloads/microsoft/web-deploy PS.安装时选择完全安装. 第二步: 2.安装Web Deploy之后,还需要启用IIS 的——管理服务. 第三步: 配置好管理服务之后,接下来需要进入IIS中通过管理服务来进行相应的设置: 双击管理服务,对IIS进行配置,这里我保持了默认的设置,您可以根据自己的情况进行设置: 第四步: 配置远部署Web项目的账户 基于安全考虑,我们…
1.从远程服务器上下载文件到本机 scp <服务器用户名>@<服务器地址>:<服务器中要下载的文件路径> <下载到本机的绝对路径> 2.从本机上传本地文件到服务器 scp <本机文件的绝对路径> <服务器用户名>@<服务器地址>:<上传到服务器的绝对路径> 3.从远程服务器下载整个目录到本机 scp -r <服务器用户名>@<服务器地址>:<服务器中要下载的目录路径> <…
1.准备好爬虫程序 2.修改项目配置 找到项目配置文件scrapy.cnf,将里面注释掉的url解开来 本代码需要连接数据库,因此需要修改对应的数据库配置 其实就是将里面的数据库地址进行修改,变成远程数据库服务器地址,需要保证scrapy服务器能够连接数据库服务器 3.部署项目 在部署项目之前要保证scrapyd服务是开启状态. 进入本地爬虫工程的目录 执行对应的部署命令 4.调度爬虫 调度爬虫需要使用curl,以下的命令可以在dos窗口对应的项目目录下面执行,也可以在pycharm中的命令行执…
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报,这里就以此为例,创建scrapy爬虫 网址:http://www.yangtse.com/] 第一步:安装scrapy框架 (这里不做详细介绍了,要是安装遇到问题的朋友们,可以参考下面链接 http://www.cnblogs.com/wj-1314/p/7856695.html) 第二步:创建s…
最近公司弄一个项目,jenkins在本地服务器,需要打包发布到远程的阿里云服务器上,弄了好一阵子. 这里记录下中间的几个坑. 这个Remote DIrectory 很重要,到时候时候会拷贝到这个目录下面的. 这里我弄了很久. 下面的Source files 是需要找的war包的目录,这里要注意:项目打包的地址是打包到这里. [INFO] Building war: /var/lib/jenkins/workspace/CPEDU_BRANCHES/cpeducloud/target/cpeduc…
# -*- coding: utf-8 -*- import paramikohostname='192.168.76.10'username='root'password='123456'paramiko.util.log_to_file('syslogin.log') ssh=paramiko.SSHClient()ssh.load_system_host_keys()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())ssh.c…
pom.xml中的配置依赖有两种: 一.tomcat-maven.plugin <plugin> <groupId>org.codehaus.mojo</groupId> <artifactId>tomcat-maven-plugin</artifactId> <version>1.1</version> <configuration> <!-- <warFile>target/serverd…
远程服务端Scrapyd先要开启 远程服务器必须装有scapyd,并开启. 这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传 先修爬虫项目文件scrapy.cfg:如下图 cd  到爬虫项目文件夹下,后执行: scrapyd-deploy       # 上传 scrapyd-deploy  -l       #  查看 打包项目 1.打包前先查看项目下的爬虫文件: 说明可以开始打包了 2.执行打包命令: scrapyd-deploy  部署名称  -p  …
C# DateTime的11种构造函数   别的也不多说没直接贴代码 using System; using System.Collections.Generic; using System.Globalization; using System.Linq; using System.Text; using System.Text.RegularExpressions; using System.Threading; using System.Threading.Tasks; namespace…
今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装 在进行今天的任务之前我们需要安装二个框架,分别是Scrapy (1.1.0)和pymongo (3.2.2). scrapy 如果你运行的的系统是osx或者linux,可以直接通过pip进行安装,而windows需要另外安装一些依赖,因为电脑的原因不对此进行讲解. $ pip install Scrapy 一旦安装完成之后你可以直接在pytho…
文章参考 自学MVC看这里——全网最全ASP.NET MVC 教程汇总 图文详解远程部署ASP.NET MVC 5项目 配置Web部署处理程序 设备及环境 一台装有windows server 2012的台式机 一台装有win10的台式机 win10上软件使用:visual studio2017(2015也试过是可以的) windows server上的部署(多图预警) 第一步.安装windows server 2012,并开始配置环境 1.安装完毕后,会出现服务器仪表盘,开始添加角色和功能 2…
1.scrapy基本了解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫. Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证.内容的分析处理.重复抓取.分布式爬取等等很复杂的事.   Scrapy主要包括了以下组件: 引擎(Scrapy): 用来处理整个系统的数…
1.安装IIS的时候需要将这两个选项勾选起来 2.确保 管理服务委派 这个选项存在 3.添加委派规则 4.配置IIS管理用户,后续需要用这个用户进行发布连接 5.配置站点的IIS权限 选择刚才在前面设置的IIS用户 6.安装web Deploy  安装包的下载地址  https://www.iis.net/downloads/microsoft/web-deploy 这个安装 要选择完整安装 安装完以后 服务列表里面就会出现这两个服务,需要将他们启动起来 这里还需要启动Web Deploy ,配…
visual studio发布到远程服务器的IIS 1.打开项目,选中发布的项目. 2.右键发布的项目,点击菜单中的“发布”,弹出发布配置窗体,如下图 3.选择“自定义”,如下图 4.填写发布配置的名称,如下图 5.选择“发布方法”,选择“文件系统”将方便发布到其他服务器上.如下图 6.选择目标位置,选择本地一个文件夹,建议统统放到一个文件夹里面,发布的网站在这里建立一个子文件,如下图的文件夹结构, E:\WebPub\ForumWeb WebPub文件夹作为根目录,ForumWeb文件夹是本次…
一.本地服务器 参考链接:https://blog.csdn.net/shuai_wy/article/details/69221858 1.要实现 IIS Express域名.IP的访问,关键在于需要配置项目的applicationhost.config文件,Server 为项目名称,配置文件的路径位于 D:\Documents\Visual Studio 2015\Projects\Server\.vs\config 中. 需要配置 Binding节点,IP 配置和域名配置需要写在 Bind…
原文:SQLServer 远程服务器不存在,未被指定为有效的发布服务器,或您无权查看可用的发布服务器 创建了事务发布,在初始化时出现错误,查看相关代理信息如下: 日志读取器代理错误: 状态: 0,代码: 20015,文本: '远程服务器 "serverName" 不存在,未被指定为有效的发布服务器,或您无权查看可用的发布服务器.'. 远程服务器 "serverName" 不存在,未被指定为有效的发布服务器,或您无权查看可用的发布服务器. 快照代理错误: 异常消息:…
最近一个项目中,为App开发后台接口,技术选型为最新 .net core版本,使用.net core开发web api接口过程中,为了方便app团队成员直接在线调用接口,找了公网上的一台服务器做为app后台接口的测试服务器,并做了域名解析.服务器配置为Windows Server 2008 R2企业版,刚购买时,云服务器厂商只是安装了IIS的基本功能.所以接下来咱们基于Windows Server 2008 R2 服务器开始今天的教程. 第一:首先在IIS上安装管理服务,配置好IIS7 允许使用…
本地机器生成公钥和私钥 ssh-keygen -t rsa 一路回车,最后会在~/.ssh目录下生成id_rsa和id_rsa.pub这两个文件. 与远程服务器建立信任机制 ssh-copy-id -i /root/.ssh/id_rsa.pub -p 远程服务器ssh端口 root@远程服务器IP 输入密码,成功连接后.后续再次连接就不需要密码了. 后续在本地机器通过 ssh -p 远程服务器端口 root@远程服务器IP 不需要输入密码也可正常登录远程服务器.…
windows中访问远程服务器的方式有很多种:使用windows系统自带的网络功能,直接输入服务器地址访问:使用putty软件远程访问:使用xftp软件登陆:还可以使用x2go客户端图形界面远程访问.... 下面要说的是,使用python中的jupyter notebook来远程访问.具体配置过程如下; 在服务器中: 1.安装python sudo apt-get install python 2.安装anaconda(登陆服务的conda环境中才需要,如果服务器不需要用到anaconda可忽略…
第一步: 安装ssh:yum  install ssh 第二步: 启动ssh服务:service sshd start 第三步: 连接远程服务器: ssh -p 端口号 用户名@ip地址      然后按下回车 输入对应的密码就能进入到服务器了. 注解:一般情况下,都是有ssh的,其实不用安装,都内置有了ssh.直接连接服务器就ok.…
python中的paramiko模块是用来实现ssh连接到远程服务器上的库,在进行连接的时候,可以用来执行命令,也可以用来上传文件. 1.得到一个连接的对象 在进行连接的时候,可以使用如下的代码: def connect(host): 'this is use the paramiko connect the host,return conn' ssh = paramiko.SSHClient() ssh.set_missing_host_key_policy(paramiko.AutoAddP…
第一个爬虫 这里我用官方文档的第一个例子:爬取http://quotes.toscrape.com来作为我的首个scrapy爬虫,我没有找到scrapy 1.5的中文文档,后续内容有部分是我按照官方文档进行翻译的(广告:要翻译也可以联系我,我有三本英文书籍的翻译出版经验,其中两本是独立翻译LOL),具体的步骤是: 在CMD中,进入你想要存储代码的目录下执行:scrapy startproject myspiders,其中quotes可以是你想要创建的目录名字. Scrapy会自动创建一个名为my…
一.开始的话 使用python简单的实现websocket服务器,可以在浏览器上实时显示远程服务器的日志信息. 之前做了一个web版的发布系统,但没实现在线看日志,每次发布版本后,都需要登录到服务器上查看日志,非常麻烦,为了偷懒,能在页面点几下按钮完成工作,这几天查找了这方面的资料,实现了这个功能,瞬间觉的看日志什么的,太方便了,以后也可以给开发们查日志,再也不用麻烦运维了,废话少说,先看效果吧. 二.代码 需求:在web上弹出iframe层来实时显示远程服务器的日志,点击stop按钮,停止日志…
Spiders 介绍 由一系列定义了一个网址或一组网址类如何被爬取的类组成 具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方 内部行为 #1.生成初始的Requests来爬取第一个URLS,并且标识一个回调函数 第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求默认的回调函数是parse方法.回调函数在下载完成返回response时自动触发 #2.在回调函数中,解析respons…
Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序.它使您能够使用JSON API部署(上传)您的项目并控制其spider. Scrapyd-client Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录\scripts安装一个名为scrapyd-deploy的工具 (其实打开该文件,可以发现它是一个类似setup.py的python脚本,所以可以通过python scrapyd-deploy的方式运行) 下…
一.开始的话 使用python实现websocket服务器,可以在浏览器上实时显示远程服务器的日志. 之前写了一个发布系统,每次发布版本后,为了了解发布情况(进度.是否有错误)都会登录到服务器上查看日志,有点麻烦,如果发布的服务器比较多,难道要登录到每台服务器去看日志吗?作为新时代的运维,太不能接收这种重复操作的体力劳动了,于是一个看日志的功能就这么诞生了.下面是效果图,页面丑陋不堪,将就着吧. 二.行动 打开页面时,自动连接websocket服务器,完成握手,并发送ip和type给服务端,所以…
现在在前后端分离的开发形式中,每次前端将VUE项目打包之后,需要后端程序员部署到服务器上.这过程为何没有用git,因为每次vue打包后的文件都不相同与前一次打包,git为何的话,会包含过大迭代版本,同时git提交过多小文件速度也不快. 传统的方式 windows系统下xshell可以直接用文件管理工具(类似ftp),将压缩包上传服务器(如 /data/www/project1),同时将旧的所有备份到/data/www/project1/bak/ 利用shell编程,一键运行部署 思路: 1.使用…
最近接手了项目组的服务器管理工作,服务器以linux系统为主,项目则搭建在weblogic上面,也算是积累了一些远程管理服务器的心得,决定稍微整理一下: windows系统要如何方便地连接到远程服务器,并且管理其中的项目呢,个人推荐使用ssh远程连接的方式,这里采用了SSH Secure File Transfer Client与SSH Secure Shell Client两个工具,可以视图化上传本地文件,并进行常用的管理工作. 打开SSH Shell Client,点击红圈所示选项开始连接,…
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 最终结果保存为两个文件,一个文件放前面的四个字段信息,一个放具体内容信息 1.网页分析 通过网页源码和F12显示的代码对比发现,该网页属于静态网页. 可以采用xpath解析网页源码,获取tr标签下的相关内容,具体见代码部分. 2.编辑items.py文件 通过scrapy startproject…