用于统计的sum.py代码: import re import pymysql # 入口函数 def main(): dic={'00':0,'01':0,'02':0,'03':0,'04':0,'05':0,'06':0,'07':0,'08':0,'09':0,'10':0,'11':0,'12':0,'13':0,'14':0,'15':0,'16':0,'17':0,'18':0,'19':0,'20':0,'21':0,'22':0,'23':0} conn=pymysql.conn…
说明:利用理想论坛爬虫1.07版(http://www.cnblogs.com/xiandedanteng/p/8954115.html) 下载了前十页主贴及子贴,共得到359619条数据,以此数据为基础对2018-4-25一天的情况做统计 #1 2018-4-25 一天的发帖(主贴+子贴)数sql:select count(*) from topic0426 where tdate='2018-4-25'result:5215 #2 2018-4-25 一天的发主贴数sql:select co…
统计数据如下: {': 2451} 图形化后效果如下: 源码: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title> New Document </title> <meta name="Genera…
理想论坛有些长贴,针对这些长贴做统计可以知道某ID什么时段更活跃. 爬虫代码为: #------------------------------------------------------------------------------------ # 理想论坛爬虫长贴版1.00,用于爬取单个长贴,数据存到文件里 # 再由insertDB.py读取插DB,sum.py取出分时段数据,statistics chart显示数据 # 2018年4月27日 #--------------------…
//====================================================== // 理想论坛帖子下载爬虫1.09 // 使用断点续传模式,因为网络传输会因各种原因中断 // 2018年5月4日 //====================================================== var http=require("http"); // http模块 var zlib = require('zlib'); // 用于解析gz…
在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d007230,感觉request可以试试,之前在别的地方也听人夸过. 于是替换了saveTopicDetails函数的访问模块,经测试还不错,一万多条数据能跑下来,出错的几率不算高,不过今天也有休盘理想论坛压力轻的利好因素. 代码如下: //==============================…
#------------------------------------------------------------------------------------ # 理想论坛爬虫1.08,用于爬取主贴再爬子贴,数据存到文件里,再由insertDB.py读取插DB # 增加同网址访问五次异常后退出机制 # 2018年4月27日 #--------------------------------------------------------------------------------…
一直想做一个能把理想论坛指定页范围的帖子都能完整下载下来的爬虫,但未能如愿. 主要的障碍在并发数的控制和长时间任务的突然退出,比如想下载前五页的帖子,分析后可得到大约15000个主贴或子贴,如果用回调函数直接在循环中访问是不行的,程序会报Error:socket hang up异常,大约一次只能并发百个左右(其实这个数很神奇的和Python理想爬虫的最高线程数接近了).如果一次性把一万五千个回调都发出来,那连本机的有线网络都会短时间崩塌,路由器的访问互联网的功能也会中断几分钟. 于是采用了Eve…
下午再接再厉仿照Nodejs版的理想帖子爬虫把Python版的也改造了下,但美中不足的是完成任务的线程数量似乎停滞在100个左右,让人郁闷.原因还待查. 先把代码贴出来吧,也算个阶段性成果. 爬虫代码: # 理想论坛爬虫1.05,用于爬取主贴再爬子贴,数据存到文件里,再由insertDB.py读取插DB from bs4 import BeautifulSoup import requests import threading import re import time import datet…
用Nodejs把Python实现过的理想论坛爬虫又实现了一遍,但是怎么判断所有回调函数都结束没有好办法,目前的spiderCount==spiderFinished判断法在多页情况下还是会提前中止. 代码如下: //====================================================== // 理想论坛帖子下载爬虫1.01 // 目标网址:http://bbs.tianya.cn/post-no05-308123-1.shtml // 2018年4月16日 /…
1.01-1.03版本都有多线程争抢DB的问题,线程数一多问题就严重了. 这个版本把各线程要添加数据的SQL放到数组里,等最后一次性完成,这样就好些了.但乱码问题和未全部完成即退出现象还在,而且速度上应该大力提高. 本该就是把DB操作尽可能一次性完成,节约时间又安全,不该是各个线程自己去开关数据库存取的模式.是我事先没考虑好. 现在代码如下: # 理想论坛爬虫1.04,用于爬取主贴再爬子贴 from bs4 import BeautifulSoup import requests import…
写以下代码的目的是分析一天中各时段理想论坛中用户发帖回帖的活跃程度,获得结尾那张图表是核心. 以下代码两种爬虫协助,论坛爬虫先爬主贴,爬到主贴后启动帖子爬虫爬子贴,然后把每个子贴的发表时间等存入数据库. 再用一个程序对各个时段中发帖次数进行统计,然后用Excel生产图表. 获取数据的爬虫代码如下: # 论坛爬虫,用于爬取主贴再爬子贴 from bs4 import BeautifulSoup import requests import threading import re import py…
#------------------------------------------------------------------------------------ # 理想论坛爬虫1.08, # 增加断点续传模式,这样可以有空再下载了. # 2018年4月29日 #------------------------------------------------------------------------------------ from bs4 import BeautifulSou…
//====================================================== // 理想论坛帖子下载爬虫1.06 // 循环改成了递归,但最多下载千余文件就崩了 // 2018年4月27日 //====================================================== var http=require("http"); // http模块 var zlib = require('zlib'); // 用于解析gzip…
在 https://www.cnblogs.com/mengyu/p/6759671.html 的启示下,解决了乱码问题,在此向作者表示感谢. 至此,困扰我几天的乱码问题和退出问题都解决了,只是处理速度上有点遗憾. 下面是新代码,较原代码多出了两句 rsp.encoding = 'gb18030' 这是解决中文乱码问题的关键. #------------------------------------------------------------------------------------…
昨天认识到在本期同时起一百个回调/线程后程序会崩溃,造成结果不可信. 于是决定用Python单线程操作,因为它理论上就用主线程跑不会有问题,只是时间长点. 写好程序后,测试了一中午,210个主贴,11974个帖子,11974个文件都生成了. 当然,程序没有一蹴而就,原有的对requests属性不加限制时最多跑个四千条就崩了,参考了 “https://blog.csdn.net/shi_weihappy/article/details/51009602”的做法后才知道要将requests.sess…
在1.01版本中,我发现各回调函数找到数据后再插入数据库有个竞争问题不好解决,如果等所有回调都完成也没有好的处理方法,因为启动不止一处启动了新的TopicSpider实例. 于是我决定把读数据和写DB分开,爬虫负责前一部分,insertDB.js负责后一部分. 这样做避免了爬虫写DB竞争和判断所有回调都结束的难点问题. 而insertDB.js中,等待所有读文件的回调都结束是有办法的,那就是并行化控制,毕竟读各个文件比较简单,易于用task控制. 下面是爬虫代码: //=============…
代码: # 单帖爬虫,用于爬取理想论坛单个帖子得到发帖人,发帖时间和回帖时间并存入数据库,url例子见main函数 from bs4 import BeautifulSoup import requests import threading import re import pymysql user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agent':user_agent} # 帖子爬虫类(多线程)…
代码: # 单帖爬虫,用于爬取理想论坛帖子得到发帖人,发帖时间和回帖时间,url例子见main函数 from bs4 import BeautifulSoup import requests import threading import re user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agent':user_agent} # 帖子爬虫类(多线程) class topicCrawler(thr…
2016年12月25日 星期日 --出埃及记 Exodus 21:20 "If a man beats his male or female slave with a rod and the slave dies as a direct result, he must be punished,人若用棍子打奴仆或婢女,立时死在他的手下,他必要受刑.…
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=4528 小明系列故事——捉迷藏 Time Limit: 500/200 MS (Java/Others)    Memory Limit: 65535/32768 K (Java/Others)Total Submission(s): 1464    Accepted Submission(s): 423 Problem Description 小明的妈妈生了三个孩子,老大叫大明, 老二叫…
2016年11月25日 星期五 --出埃及记 Exodus 20:16 "You shall not give false testimony against your neighbor.不可作假见证陷害人.…
2016年10月25日 星期二 --出埃及记 Exodus 19:9 The LORD said to Moses, "I am going to come to you in a dense cloud, so that the people will hear me speaking with you and will always put their trust in you." Then Moses told the LORD what the people had said.…
2016年6月25日 星期六 --出埃及记 Exodus 14:22 and the Israelites went through the sea on dry ground, with a wall of water on their right and on their left.以色列人下海中走乾地,水在他们的左右作了墙垣.…
6月25日OMS,Ihotel上线成功后执行了一个批处理,SOA报警提示某一台IHOTEL机器调用OMS失败率大于阀值,登录这个机器后发现这台机器CPU使用率处于80%以上,调用OMS有的时候超过5秒.tomcat日志显示一直在执行fullGC. tomcat报错: 后联系OPS重启这台机器上的tomcat,系统运行正常. 错误原因分析: 使用MAT分析java_pid20367.hprof文件 pool-8-thread-2这个线程产生了占用了1.6GB的内存.造成下面的错误: 这个线程在执行…
Web安全测试周末公开班计划5月24.25日开课,欢迎报名参加! 课程大纲参考: http://gdtesting.com/product.php?id=107 报名咨询: 黎小姐 QQ:2414488269 Email:AutomationQA@vip.126.com 电话:020 - 87099155 广州亿能测试技术服务有限公司…
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfryf/p/4612609.html 优步奖励低/不挣钱/怎么办?看这里:http://www.cnblogs.com/mfryf/p/4642173.html 打豪车应用:uber详细攻略(附100元优惠码:DL8T6):http://www.cnblogs.com/mfryf/p/4752167.h…
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfryf/p/4612609.html 优步奖励低/不挣钱/怎么办?看这里:http://www.cnblogs.com/mfryf/p/4642173.html 打豪车应用:uber详细攻略(附100元优惠码:DL8T6):http://www.cnblogs.com/mfryf/p/4752167.h…
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfryf/p/4612609.html 优步奖励低/不挣钱/怎么办?看这里:http://www.cnblogs.com/mfryf/p/4642173.html 打豪车应用:uber详细攻略(附100元优惠码:DL8T6):http://www.cnblogs.com/mfryf/p/4752167.h…
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfryf/p/4612609.html 优步奖励低/不挣钱/怎么办?看这里:http://www.cnblogs.com/mfryf/p/4642173.html 打豪车应用:uber详细攻略(附100元优惠码:DL8T6):http://www.cnblogs.com/mfryf/p/4752167.h…