主要用到了多进程和多线程的知识,最后结果保存成csv文件格式,如有需要可改成数据库版本. 对用到的库做下简要介绍,具体请参考官方文档: xpinyin.Pinyin:将输入的中文转成拼音 concurrent.futures.ProcessPoolExecutor:多进程 concurrent.futures.ThreadPoolExecutor:多线程 # -*- coding: utf-8 -*- # @Author: Studog # @Date: 2017/5/24 9:27 impor…
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse import urljoin import requests import csv import html5lib URL = 'http://hn.ganji.com/fang1/' #爬取的目标地址 ADDR = 'http://hn.ganji.com/' if __name__ == '__name_…
1. client_code01 2. client_code02 3. 这个时候运行多个client就可以分布式进行数据爬取.…
1. server_code01 2. server_code02 3. server_code03…
本文主要展示的是通过使用python和PyInstaller来构建恶意软件的一些poc. 利用Python编写Windows恶意代码!自娱自乐!勿用于非法用途!众所周知的,恶意软件如果影响到了他人的生活,那就是违法犯罪.切记,不可用于非法用途!而这一点在windows上有很多方法可以实现,最常见的做法是修改以下注册表 项:“SoftwareMicrosoftWindowsCurrentVersionRun”.以下是对利用python去复制程序到%TEMP%目录,然后对注册表进行修改使得这段代码可…
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step 来选取的. 京东网狗粮商品 首先进入京东网,输入自己想要查询的商品,向服务器发送网页请求.在这里小编仍以关键词"狗粮"作为搜索…
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 2.获取单页源码 # -*- coding: utf-8 -*- import requests import time from requests.exceptions import Request…
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(…
描述: 1.基于备份服务器部署的py程序,将需要备份主机目录下的内容下载至备份服务器(服务端和远端都是windows server 2008) 2.py程序部署在windows服务器,后台运行,基于bat脚本启停程序 FTP代码: class Windows_ftp(object): ''' FTP类,基于ftplib模块实现 connect: 连接 login: 登陆 DownLoadFile: 下载文件 DownLoadFileTree: 下载指定目录下的所有文件和目录 UpLoadFile…
1.cmd中添加方式 SET PATH=%PATH%;c:\Program Files (x86)\Wireshark 注:如上代码添加c:\Program Files (x86)\Wireshark至Windows环境变量中 但在python中使用os.system()函数却无法执行该命令,目前还未找到原因. 2.python操作Windows注册表进行更改 import _winreg as wg key_test = wg.OpenKey(wg.HKEY_LOCAL_MACHINE,r"S…
一.环境 系统:win7,64位 python版本:2.7.15 pip版本:10.0.1 二.安装 1. 用pip安装 pip install MySQLdb 报错: Could not find a version that satisfies the requirement MySQLdb (from versions : ) No matching distribution found for MySQLdb 这个问题在网上搜了很久,其中有一篇文章[1]给出了两个原因: PyPI 服务器…
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath提取信息 xpath是一门在 xml文档中查找信息的语言,xpath可用来在 xml 文档中对元素和属性进行遍历.对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但xpath明显比re具有优势.具有如下优点:(1)可在xml中查找信息 :(2)支持html的查找:(3)通过元素和属性…
python安装教程和Pycharm安装详细教程 首先我们来安装python 1.首先进入网站下载:点击打开链接(或自己输入网址https://www.python.org/downloads/),进入之后如下图,选择图中红色圈中区域进行下载. 2.下载完成后如下图所示 3.双击exe文件进行安装,如下图,并按照圈中区域进行设置,切记要勾选打钩的框,然后再点击Customize installation进入到下一步: 4.对于上图中,可以通过Browse进行自定义安装路径,也可以直接点击Inst…
#!/usr/bin/python #coding=utf8 log_file = "/usr/local/nginx/logs/access.log" with open(log_file) as f: contexts = f.readlines() # define ip dict### ip = {} # key为ip信息,value为ip数量(若重复则只增加数量) flow = {} # key为ip信息,value为流量总和 sum = 0 for line in cont…
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了.不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:因此可以说Beautiful Soup库是解析.遍历.维护"标签树"的功能库. 首先进入京东网,输入自己想要查询的商品,向服务器发送网…
前几天小编分别利用Python正则表达式.BeautifulSoup.Xpath分别爬取了京东网商品信息,今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~ CSS选择器 目前,除了官方文档之外,市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多,而在这仅有的资料中介绍CSS选择器的少之又少.在网络爬虫的页面解析中,CCS选择器实际上是一把效率甚高的利器.虽然资料不多,但官方文档却十分详细,然而美中不足的是需要一定的基础才能看懂,而且没有小而精的…
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬取的内容写入到文件里,并实现动态显示爬取进度 实现工具:python的requests库和正则表达式以及bs4库 首先我们爬取的帖子网址为:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,该网址是只看楼主的帖子的网址,因此该网站的源代码内容均为楼…
写python脚本的初衷,每次在windows编辑完文件后,想同步到linux上去,只能够登录服务器,然后再利用网络copy,重复性很大,就想着能不能写一个小脚本帮我同步 逻辑:比对本地和服务器文件的md5,如果md5不一致,则备份服务器上的文件,将本地的给上传上去 代码分为windows端和服务器端,有些东西,都让python一个做了,写着有点累,就想着,能否服务端提供一个端口,windows去调用这个接口,来完成一部分工作 python代码如下: 需要额外安装的包为是paramiko,安装方…
利用bash来获取当前电脑的环境变量,可以写一个.sh文件,里面获取当前环境,然后在调用python文件执行 # -*- coding: utf-8 -*- import logging import urllib import sys import json import string import os import time import getopt import requests sys.path.append('../') from common.monitor_logging im…
系统环境: 1.安装了python 2.安装了pyautogui模块 windows系统:无需安装依赖模块,在cmd中直接输入pip install pyautogui即可完成安装 Mac OS系统:需要先安装pyobjc模块,最后安装pyautogui pip install pyobjc-core pip install pyobjc pip install pyautogui 首先为python安装pyautogui模块 Windows系统直接在cmd下输入pip install pyau…
1. 下载相应的Python软件并安装 python-3.6.0-amd64 2.  配置相应的环境变量path ;C:\Users\Administrator\AppData\Local\Programs\Python\Python36 ;C:\Users\Administrator\AppData\Local\Programs\Python\Python36\Scripts 3.  测试环境变量是否配置成功 4. 安装配置机器学习环境 numpy-1.12.0+mkl-cp36-cp36m-…
至少很长一段时间内,我个人用的一直是pycharm,也感觉挺好用的,也没啥大毛病 但是pycharm确实有点笨重,啥功能都有,但是有很多可能这辈子我也不会用到,并且pycharm打开的速度确实不敢恭维,即使固态硬盘也只能快了那么一丢丢.所以就尝试了很多IDE工具,最终选择了Sublime我也相信,通过我的介绍,你也会爱上它的. 首先其他语言有的sublime也必须得有,并且更好用,主要有: 集成代码分析 代码的自动补全 git功能的集成 Sublime command-line 工具 不过上述的…
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider  patubole patubole.com   三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式,开始编写patubole.py文件.网络的爬取是通过这个文件进行的 以下代码是最终的代码 所建的patubole.py文件必须实现name,parse函数,start_url这三个属性   四.将爬取的数据保存到数据库sufang中. (1)在pycha…
一.  python 安装 1. 下载安装包 1 2 3 https://www.python.org/ftp/python/2.7.14/python-2.7.14.amd64.msi    # 2.7安装包   https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe      # 3.6安装包 2. 安装python3.6 1 增加环境变量 3. 在命令行测试 4. 安装python2.7 5. 将python2增加到环境…
本文出自:https://www.cnblogs.com/2186009311CFF/p/11573094.html 总览 此文分为5个部分 第一:Anaconda(下载和安装) 第二:VSCode(下载和安装) 第三:mongoDB(下载和安装) 第四:install 必要的python包 第五:联合运行 1.Anaconda 1.1引入目的 自由切换python版本 1.2下载文件地址 清华大学镜像网:https://mirror.tuna.tsinghua.edu.cn/help/anac…
安装这个玩意儿真挺坑的,pip直接安装失败,windows的py库压根搜不到.. 搜索良多解决办法终于找到了,在这里贴出来,主要是把这个库下载下来再安装,但它的下载地址HERE位于外面的世界(你懂得),可能在下载这里会让人很烦躁,我把它的windows版本和linux版本都下载并上传到我的百度网盘了,免费供大家下载. 更新:根据网友建议提供py3的下载地址,之前只有py2的. -- py2版本下载(pan) -- py3版本下载(github) windows直接双击安装,如果有虚拟环境的话,在…
工作中有时候会有这种需求: 1. 自动配置组策略的安全基线,这个东西不用你自己写了,微软有这个工具,Microsoft Security Compliance Manager,你可以在下面的地址去下载和学习使用. technet.microsoft.com/library/cc677002.aspx 2. 但是有时候你可能需要自动化的获取服务器上的某些信息,如cpu啊,disk等,以及组策略中的相关设定,这个应该怎么去获取呢,是不是可以完全去访问注册表的值呢,但是貌似有些审核策略是没有注册表值的…
import hashlib import os import time import configparser import uuid def test_file_md5(file_path): test = hashlib.md5() if os.path.isfile(file_path): with open(file_path, "rb") as f: while True: data = f.read(8096) if not data: break else: test.…
1. 需先安装python3.7,anaconda包管理器(类似java的maven),tensorflow,pycharm开发工具.文末附件下载地址. 2. 安装tensorflow,开始-Anaconda3-Anaconda3 Prompt. 打开控制台. conda create -n tensorflow python=3.5.2 Anaconda首页 3. 常用包,Numpy:数学函数库.Scipy:NumPy开发的高级模块. pandas:对数据进行导入.清洗.处理.统计和输出. S…
不知道为什么,加了豆瓣镜像源还是不行 这个命令可以解决! pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com pakegename…