爬虫组NABC】的更多相关文章

Need(需求): 我们小组的研究课题是编写一个更实用的爬虫软件,编写时会应用到学长的部分代码并在其基础上完善创新. 鉴于学长代码已经实现了基本功能,即从网站上面爬取相关的Word文档等与计算机有关的文件和资料,过滤掉不相关的信息.我组将从以下几个方面着手进行改进和完善: 1.加强去广告功能: 如今网络的网页情况,很多网页,包括贴吧.微博都充斥着广告,在其中难免有一些涉及到计算机,但是这些广告的作用却没有实际意义.在学长的代码里的确有相应的删除广告的功能,但是其效果并不明显,在很多情况下不能够很…
前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超高智商的反爬虫技术. 一.什么是爬虫? 很多人说我们这些搞软件的人,总喜欢把虚拟世界里的事物跟现实中的东西扯上关系.这点我真不否认,脱离了现实,我们伟大的创举还有何意义? “爬虫”就是个例子,它对于我们开发人员而言,就是一段用来自动化采集网站数据的程序,结果跟现实中的虫子扯上了关系.听说是Googl…
[转] 基于C#.NET的高端智能化网络爬虫 前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超高智商的反爬虫技术. 一.什么是爬虫? 很多人说我们这些搞软件的人,总喜欢把虚拟世界里的事物跟现实中的东西扯上关系.这点我真不否认,脱离了现实,我们伟大的创举还有何意义? “爬虫”就是个例子,它对于我们开发人员而言,就是一段用来自动化采集网站数据的程序,…
成员介绍 韩青长  测试 我是韩青长,技术小白,抱着对软工的好奇和对未来工作的憧憬选了这门课.暂时选择了测试的工作,也对开发和UI有一定兴趣.从前上帝创造了我们,现在轮到我们来创造自己的软件了~ 陈彦吉  PM 呃,自我介绍..怎么说呢,我叫陈彦吉..作为一个没什么基础的渣渣,感觉一路被碾压了两年,成绩不如大多数人,能力可能也不如大多数人,其他人都可以说自己曾经拿过什么奖,做过什么项目,我感觉我可能什么也说不出来,不管怎么说,这都是因为自己怠惰了,但是我还没有放弃治疗,这个学期我一定要拿下这门课…
1.安装SVN服务 #检查现有版本 rpm -qa subversion #如果存储旧版本,卸载旧版本SVN yum remove subversion #安装SVN yum install subversion #验证安装 svnserve --version 2.创建代码库并分配权限 #代码库创建 SVN软件安装完成后还需要建立SVN库 mkdir -p /data/svn/systemCenter svnadmin create /data/svn/systemCenter 执行上面的命令…
队名:Braveheart 队员介绍: 队长:李洋洋 队员:姚欢,杨仁波,张波,乔闯 项目名称:数据沈航 总体任务: 收集整理学校的数据,为每个想要了解沈航的人展现一份我们收集来的信息 项目分组: (需求分析)-张波,姚欢 (爬虫)-姚欢,杨仁波,张波 (前端UI)-李洋洋 (后台业务)-乔闯,李洋洋 需求调研: 校园采访视频地址 For Project: 我们想做的项目是一个利用爬虫爬取图书馆预约应用的一个接口数据,可获得学生信息,预约信息,图书馆借阅信息等,我们就是利用搜集到的数据进行整理分…
项目名称 学霸网站 项目版本 Beta 项目团队 ourteam 发布日期 2015-1-5 一.Alpha版本实现功能简介: 1.匿名提问 2.匿名回答 3.采纳功能 4.登录.注册失败后,用户名等信息保留在页面 5.加入悬赏功能 二.Beta版本实现功能  1.外部问题的显示 将爬虫组爬到的问题在网页上进行显示.在热门问题里面根据浏览量显示前十的问题,可能有外部问题(爬虫组爬来的问题). 点击外部问题,跳转到外部问题所在的链接页. 2.外部问题的搜索 不仅可以对内部问题进行搜索,外部问题也可…
微信公众号:Python中文社区 Python初级技术交流QQ群:152745094Python高级技术交流QQ群:273186166Python网络爬虫组QQ群:206241755PythonWeb开发组QQ群:577672548Python量化交易策略组QQ群:264204289Python数据分析挖掘组QQ群:539956362Python自然语言处理组QQ群:570364809 作者:阿橙链接:https://zhuanlan.zhihu.com/p/22304295来源:知乎著作权归作…
今日完成任务: 与安卓组进行商量对数据库修改的方案.现在在等他们最终确认,确认之后进行整理以及源代码的调试. 对资源功能的代码进行阅读. 遇到困难: 关于整合,爬虫组爬到的内容和网站定位有所不符,所以我们重新对爬虫组提出了关于所爬内容的需求 明日任务: 黎柱金 数据库整理并对源码进行调试 孙思权 对源码进行调试 冯飘飘 解决提交问题换行符消失的BUG 晏旭瑞 解决文档功能 吕雨朗 在服务器上测试所有有关标签的功能 张磊 在服务器上测试文档功能 杨昊岚 在本地测试网站 BurnDown图:…
由于我们给每个组员预估的每天用在该团队项目的时间为2h左右,因此我们的时间计算也已2h为基数.下面就是我们的团队分工和预估项目时间. 任务编号 实现人员 任务详细描述 预估时间 任务0 全体组员 看学长已有的代码,提出改进建议,并要应用于以下所有过程 贯穿全程 任务1 柴泽华 与前一组爬虫组讨论如何定义数据结构 2h 任务2 柴泽华 根据定义的数据结构,画出用例图 2h 任务3 全体组员 设计用例图中的每个用例的流程过程 2h×5 任务4 徐姗,杨军 画出类图,给出要实现的几个接口和类 2h×2…
也不分M1/M2了,就从头到尾的梳理一下这学期的软工课吧. 第一节课,老师就稀里哗啦说了一下这学期要怎么搞,什么个人项目啦,结对项目啦,团队项目一二啦,还要组队啊什么的,然后风风火火的组队. 个人项目,词频统计小程序.很快写好了,因为要按照效率评分,开始了恶心的优化之旅.试了试搞多线程,没搞出来.换了下数据结构,效率提高不少.得了本书,还阔以.拿了37/50 结对项目,是个多台电梯调度,每个电梯属性都不一样.先看代码.看懂了助教的代码然后开始写.算法一点都不高大上,模拟了现实生活中人们人所多台电…
0x01 :序言 I am a slow walker, but I never walk backwards. 成长于被爱,学着爱人 成长的故事 也是年少的星期六结束的故事 就仿佛我和BugPhobia团队共同的成长 从模仿到拒绝模仿 任由挑灯.辗转.迷茫.前进的无数日夜 令那些岁月的烦恼和喜悦控制住自己 在耳边轻唱 祝你万事胜意 一切终比想象的,好一点点 ——致以BugPhobia团队的Beta阶段软件开发的终结篇章 0x02 :软件工程项目经理的理解 To the world,you ma…
0x00:序言 1 universe, 9 planets, 204 countries,809 islands, 7 seas, and i had the privilege to meet you. To the searching tags, you may well fall in love with http:// xueba.nlsde.buaa.edu.cn 0x01:设想与目标概述 ü  我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述? ü …
0x00 :序言 1 universe, 9 planets, 204 countries,809 islands, 7 seas, and i had the privilege to meet you. 展信安,致以BugPhobia团队的终章 即便对庆典失去兴趣和新鲜感 也选择用仪式感填补生活 就像用纸记下“一二三四”的计划 贴在学校衣柜的铁皮上 0x01 :团队成员简介 图1 BugPhobia团队终章篇章的合影 0x02 :团队项目愿景 0x0200: 学霸在线系统基本定位 网站基本定…
特别说明:此次Scrum Meeting不计入正式的Scrum Meeting,因此此次工作仅为第IX次Scrum Meeting的前奏,而笔者也首次采用休息篇章作为子命题   0x01 :Scrum Meeting基本摘要 Beta阶段第九次Scrum Meeting前奏 敏捷开发起始时间 2015/12/23 00:00 A.M. 敏捷开发终止时间 2015/12/26 23:00 P.M. 会议基本内容摘要 月23日至12月26日各专业课程均进入了收尾工作而导致软件工程的开发时间大幅度缩减…
1.团队成员简介 左边:马腾跃 右边:陈谋 左上:李剑锋  左下:仉伯龙 右:卢惠明 团队成员及博客: 李剑锋:        Blog:      http://www.cnblogs.com/Power-Byte/ 陈谋:            Blog:        http://www.cnblogs.com/13061176Terry/ 马腾跃:         Blog:        http://www.cnblogs.com/summerMTY/ 卢惠民:         B…
Beta版测试报告 测试中发现的Bug: Version 2.0 Bug List 1. 在动态监测界面,若随便点击“开始”.“关闭”.“结束”.红叉,会出现不定式崩溃现象. 2. 处理空数据时可能会崩. 3. 在选用PanGu分词器时,有时加载默认的词典时会崩溃. 4. 胡乱点击各种按钮,可能会导致加载出现问题. 场景测试: 场景编号 场景 场景一 小明要处理爬虫组爬取下来的数据,但是数据量大,人工处理起来十分繁复,为此他非常困扰.于是他选择用我们这个后端进行处理. 首先与我们联系,获取某个后…
第十次Scrum  meeting 任务及完成度: 成员 1.2 1.3 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(100%) 任务1114-2:完成对pdf.ppt数据的处理和整合(80%) pdf已经完全可以完成,但是对于ppt的处理遇到了一定的麻烦 卢惠明 任务1042-2:测试关键词的正确率.召回率和F值(100%) 任务1042-3:完成最终结果分析,并对算法进行一些改进(100%) 对于结果的分析并不是特别完整,还需要不断进行调整   李剑锋  任…
第九次Scrum  meeting 任务及完成度: 成员 12.31 1.1 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(99%) 任务1114-1:完成对网页数据的处理和整合(100%) 任务1114-2:完成对pdf.ppt数据的处理和整合(50%) 由于最近一段时间比较忙,所以对于交流方面不是很畅通. 对于ppt的处理遇到了一定的麻烦,但是在后面的处理中应该可以比较快地解决这个问题 卢惠明 任务1042-2:测试关键词的正确率.召回率和F值(100%) 任…
第八次Scrum  meeting 任务及完成度: 成员 12.29 12.30 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(99%) 任务1114-1:完成对网页数据的处理和整合(80%) 任务1114-2:完成对pdf.ppt数据的处理和整合(50%) 由于最近一段时间比较忙,所以对于交流方面不是很畅通. 任务1114-3:完成对doc(x)数据的处理和整合 卢惠明 任务1042-2:测试关键词的正确率.召回率和F值(80%) 任务1042-3:完成最终结果…
第七次Scrum  meeting 任务及完成度: 成员 12.26 12.27 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(98%) 任务1114-1:完成对网页数据的处理和整合(60%) 任务1114-2:完成对pdf.ppt数据的处理和整合(20%) 在对在线组后台添加数据的时候会发现数据添加成功,但是query的时候却找不到的问题 所以还需要与在线组进行沟通交流,以确定最终的格式规范 任务1114-3:完成对doc(x)数据的处理和整合 卢惠明 任务10…
第六次Scrum  meeting 任务及完成度: 成员 12.21 12.22 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(98%) 任务1114-1:完成对网页数据的处理和整合(60%) 任务1114-2:完成对pdf.ppt数据的处理和整合 在对在线组后台添加数据的时候会发现数据添加成功,但是query的时候却找不到的问题 所以还需要与在线组进行沟通交流,以确定最终的格式规范 任务1114-3:完成对doc(x)数据的处理和整合 卢惠明 任务1042-1:…
0x01 :前端概述 0x0100 :前端基本描述 前端基础框架 Semantic UI 根据http://semantic-ui.com/提供的样例和文档,依据Version 2.1.4版本的特性进行开发 在后续的开发中将针对此框架进行的修改 ü  调整Semantic UI的Theming主题并调整less文件的参数从而扩展主题,尽力实现个人订制 ü  更新Semantic UI版本从而进行进一步的调整和维护 后端基础框架 Django 根据https://www.djangoproject…
0x01 :Scrum Meeting基本摘要 Beta阶段第三次Scrum Meeting 敏捷开发起始时间 2015/12/15 00:00 A.M. 敏捷开发终止时间 2015/12/15 23:00 P.M. 会议基本内容摘要 ü  前后端方面,由于编译实验的相关冲突原因,此次Scrum Meeting阶段的任务临时添加,更正为Semantic UI中期考核的审查和后端代码Django Test框架的重新学习工作,而测试方面,在评估迁移Github移植测试工作后,决定将此任务优先级降至最…
0x00:序言 To the searching tags, you may well fall in love withhttp://xueba.nlsde.buaa.edu.cn/ 再见,无忧时光~ 0x01 :Beta阶段会议记录(2015/10/24) 特别说明:Beta准备阶段的会议(2015/10/24~2015/12/07之间的全部会议全部不计入Scrum Meeting,实为准备阶段的集体讨论) 会议记录Github传送门:Beta阶段会议记录过渡阶段)(20151024).md…
第五次Scrum meeting 会议内容: 连接方面:确定封装成json的文本格式,尽量在满足在线组和手机客户端两组的情况下,降低自身的难度 测试方面:进行新一轮测试,主要测试程序的稳定性和可靠性,尽量保证程序不会因为操作的不当而死掉 沟通方面:与爬虫组.在线组.手机客户端组进行沟通联系,尽量保证我们的工作量较小,同时满足他们计组的需求 任务及完成度: 成员 12.19 12.20 陈谋 任务1040:完成stackoverflow的数据处理后的json处理(98%) 任务1114:完成对网页…
第四次Scrum meeting 会议内容: 沟通方面:与学霸在线组.学霸手机客户端组进行沟通,了解现阶段各个小组的进度,并针对接口结构方面进行调整 前后端:我们完全可以是不需要界面的,但是为了用户的方便,我们进行了相应的程序处理,使得我们的程序能够以一种弱耦合的方式进行一定的操作. 软件测试:这是我们小组现阶段的一个重点,我们希望达到的目标是在运行时不会出现或者说很少出现bug 任务及完成度: 成员 12.16 12.17 陈谋 任务476:完成stackoverflow的数据采集和分类(10…
第二次Scrum meeting 任务及其要求: 成员 12.11 12.12 陈谋 完成Tags的爬取工作(已完成) stackoverflow的问题抽取 卢惠明 视频链接的挖掘和整理(未完成) 视频链接的挖掘和整理 李剑锋 分析知乎网站的网页设置,尽量找到相应的api(已完成) 处理知乎网站的相应的问题和回答 马腾跃 测试已处理的不同网站数据,并进行结果分析(未完成) 测试已处理的不同网站数据,并进行结果分析 刘夕霆 对软件进行详细的功能测试(每天都在进行中) 与手机客户端组进行交流联系 仉…
M1事后分析报告 设计与实现 我们发的软件解决的问题?是否满足后面小组的要求?是否能够完全拟合前期目标? 答: 前期我们的软件完成量并不是特别让人满意,我们组在完成这些任务量之后,发现有很多地方是在做无用功,所以我们没有完全完成我们的前期目标.我们本来打算与学霸在线系统和学霸手机客户端接起来,不过很可惜的是我们只是与爬虫组接起来了,这是让我们组很伤心的.我们没有在前期与其他小组进行有效的沟通,直接导致我们的项目效果不尽如人意. 我们的计划是否符合预期的要求? 答:这一次我们的项目很大程度上是出现…
团队成员简介:http://www.cnblogs.com/cheneygroup/p/4830994.html 团队成员及博客: 李剑锋:        Blog:      http://www.cnblogs.com/Power-Byte/ 陈谋:            Blog:        http://www.cnblogs.com/13061176Terry/ 潘成鼎:         Blog:        http://www.cnblogs.com/cheney223/…