shell抓取

【shell抓取】的更多相关文章

#!/bin/sh ` configDir="$dir/config" ipport="$configDir/ip_port" url="http://www.youdaili.cn/Daili/http/" indexs=$(curl -s --max- "$url" |piconv -f utf8 -t gbk|awk '$0~/http:\/\/www.youdaili.cn\/static\/images\/hot.g…

shell爬虫--抓取某在线文档所有页面

在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取. 以postgresql中文网为例.下面是实例代码 #!/bin/sh start_URL="http://www.postgres.cn/docs/9.6/preface.html" end_URL="http://www.postgres.cn/docs/9.6/bookindex.html" URL=$start_URL w…

Shell脚本 | 抓取log文件

在安卓应用的测试过程中,遇到 Crash 或者 ANR 后,想必大家都会通过 adb logcat 命令来抓取日志定位问题.如果直接使用 logcat 命令的话,默认抓取出的 log 文件包含安卓运行时产生的所有日志,给快速定位问题增加了时间成本. 这个问题可以通过一个简单的 Shell 脚本来解决,依然只有区区 20 行左右的代码. 脚本的编写思路是这样的: 1.通过 date 命令获取当前时间并赋值给变量 "DATE",格式为 "year/month/day/hour/m…

在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况

Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrapy shell命令抓取知乎首页的初步情况,重要的一点是,在项目内抓取时,没有response可用. 在项目[外]执行抓取命令 scrapy shell https://www.zhihu.com 得到结果(部分):因为知乎的反爬虫功能,得到了400错误,访问失败. INFO: Overridden…

写一个shell脚本利用wget抓取股票历史数据

今天,大数据部老大交给我一项任务——抓取股票历史数据.于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具.我已经被深深震撼到了.下面叙述今天的一些过程,还是比较坎坷的. 首先,我利用公司现在存在的股票数据,使用hive查询所有的股票代码并导入本地: hive -e "use stock;select distinct secucode from t_stock_tick_shsz where type='sz';" >> sz_secucode…

shell脚本抓取网页信息

利用shell脚本分析网站数据 # define url time=$(date +%F) mtime=$(date +%T) file=/abc/shell/abc/abc_$time.log http=https://abc.com/abc/abc.do key='tender_sum' log_file=/abc/shell/abc/remind.log check_log=/abc/shell/abc/check.log function Mail(){ mail -s @qq.com…

shell用curl抓取页面乱码，参考一下2方面（转）

批量抓取cisco设备配置脚本编写(expect/sed/awk/shell)

应同事需求自行编写了第一个脚本,中间遇到一些坑. 需求,要求抓取设备"show ip interface brief"信息和"show interface des"描述信息.并且要求VLAN与描述信息在一个文件中显示出来.其实抓取工作很简单,难点在于字符处理中遇到时很多坑,比如关键字"More"抓取之后会有类似于"^[[7m--More--^[[m^M"的多余字符,是因为系统版本原因产生的.要用sed将其处理为awk可以匹配的…

使用python抓取百度搜索、百度新闻搜索的关键词个数

由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过python,只是很久之前用过它,感觉用起来还比较方便,于是这回又把它拾起来使用了.当然这也是考虑到手上有python机器学习的实战书籍,所以估计一段时间后还会再用的缘故. 思路:首先使用python的库函数把网页的内容爬下来,然后使用正则表达式去匹配想要的字符串,最后进行字符串处理就能得到想要的东西了.…

Android APP测试的日志文件抓取

1 log文件分类简介实时打印的主要有:logcat main,logcat radio,logcat events,tcpdump,还有高通平台的还会有QXDM日志状态信息的有:adb shell cat /proc/kmsg ,adb shell dmesg,adb shell dumpstate,adb shell dumpsys,adb bugreport,工程模式等 2 LOG抓取详解 l 实时打印 adb logcat -b main -v…