以下为我们爬虫遇到问题的报告

我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:

  • 美团反爬机制:

由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反爬机制,每当我们爬取3到5的网页的内容时,就不能再继续爬取。但我们并没有因此放弃,我们又尝试了其他     方法。我们尝试着写程序把美团网页给下载下来,但是发现下载下来的网页全是报错网页,到最后我们直接用浏览器打开美团的网页都打不开,不得不放弃美团。

  • 大众点评外卖,百度外卖,淘点点外卖:

在爬取美团失败之后,我们也并没有直接放弃,又尝试了其他外卖网站,但都通通碰壁。

首先是大众点评,也有反扒机制,网页下载下来和美团的一样全是出错网页。百度外卖也是如此。

还有就是淘点点外卖。这个是比较特殊的问题,因为淘点点外卖是和淘宝账号关联的,订餐以前必须先登陆淘宝账户。所以我们爬取的时候只能以某一个团队成员的账户进行爬取。结果是,网页能成功爬取下来,但是爬取得到的链接再次打开时打开的却是淘宝的登录界     面,自然信息就无法成功获取。

最后,我们负责爬虫的 成员决定不再爬取其他外卖网站的信息,而是转向爬虫程序的性能提升,希望能做到我们app数据的实时更新。

成员任务分配如下

成员 已完成任务 新任务
彭林江 研究美团爬虫  落实API
牛强  研究美团爬虫 落实意见反馈功能测试
高雅智 研究美团爬虫 测试已完成组件
郝倩 研究遍历美团数据方法 提升爬虫程序性能
王卓 研究遍历美团数据方法 提升爬虫程序性能
张明培育 实施UI改善 实施UI改善

燃尽图(TFS还是有问题,无法生成正常的燃尽图,等到正常了再发)

SCRUM 12.20的更多相关文章

  1. Daily Scrum 12.20

    Member Task on 12.20 Task on 12.21 仇栋民 继续Task972 : 完成活动评分基础功能 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1010 ...

  2. Daily Scrum 12.19

    Member Task on 12.19 Task on 12.20 仇栋民 请假 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1004 : 百度map UI优化 完成Task ...

  3. SCRUM 12.21

    从爬虫遇到的问题中我们学会了: 1.有的网站是有反爬虫机制的,外卖网站(我们猜测基本所有盈利性质的网站可能都是)全部都有. 2.我们对于反爬虫机制有了一定的了解.   本次爬虫测试中,我们最后连美团网 ...

  4. Notes of Daily Scrum Meeting(12.20)

    今天是周六,大家空余的时间还是挺多的,也都主动完成了当天工作,最后由于我的失误,在晚上12点 之前没有把进度签入进TFS里面,所以周六的燃尽图是错误的,我把进度加进周日,总的进度会在周日的燃尽 图里面 ...

  5. 硝烟中的Scrum和XP-我们如何实施Scrum 12)发布计划 13)组合XP

    12 怎样制定发布计划, 处理固定价格的合同 一次只计划一个sprint的事情会显得提前量不足, 提前做计划是个好习惯; 尤其是签了固定价格的合同之后, 不得不预先计划好, 防止无法按期交付的危险情况 ...

  6. Daily Scrum 12.4

    今日完成任务: 对数据库完成了整理,以下是整理的内容: # 表 改动 原因 1 Answer 保留credit列,作为投票数 建议改名为vote,同意?   2 Answer qid.uid设置为外码 ...

  7. Daily Scrum 12.8

    Member Task on 12.08 Task on 12.09 仇栋民 参与M2阶段第二次决策会议 开始Task964 : 活动评论功能雏形 康家华 开始Task982 : 完成活动界面的设计稿 ...

  8. Daily Scrum 10.20

    今天进行了团队第一次scrum meeting,在这次会议中,我们针对NABC模型以及开发前期的工作进行了探讨. 第一次会议 主要内容如下: 为了大家接下来几周的开发效率,需要共同商量团队的一些规则 ...

  9. AI行业精选日报_人工智能(12·20)

    IDC:中国智能家居市场2020年十大预测 12 月 20 日消息,「IDC 咨询」官方公众号发布「中国智能家居 2020 年十大预测」.具体内容如下:互联平台加速整合.语音助手广泛赋能.智能电视显著 ...

随机推荐

  1. dell R740在安装完Esxi6.0U3之后出现存储器警告

    最近公司新增3台戴尔R740服务器,这边分别分配内网地址0.16,0.17,0.18三个IP 然后第一天查询了ESxi6.0版本要U3A10这个版本的vmware才能兼容R740服务器 然后安装完0. ...

  2. 【BZOJ4310】跳蚤

    [BZOJ4310]跳蚤 Description 很久很久以前,森林里住着一群跳蚤.一天,跳蚤国王得到了一个神秘的字符串,它想进行研究. 首先,他会把串分成不超过 k 个子串,然后对于每个子串 S,他 ...

  3. Luogu P4707 重返现世

    题目描述 为了打开返回现世的大门,Yopilla 需要制作开启大门的钥匙.Yopilla 所在的迷失大陆有 \(n\) 种原料,只需要集齐任意 \(k\) 种,就可以开始制作. Yopilla 来到了 ...

  4. Django之Form进阶

    s6day76 内容回顾: Form组件:  - 类  继承Form  - 字段  字段  - 实例化  - is_valid()  - cleaned_data  - errors Form 组件: ...

  5. Django之views

    一 URL补充 二 Views试图函数 一 URL补充 1 MTV模型 2  django建立流程(用命令版) (1)django-admin startproject projectname (2) ...

  6. Java关于远程调试程序教程

    本节尝试一下Java远程调试的东西,记录一遍简单入门的东西.也就算是使用记录吧! 写一个简单程序打成jar丢到远程服务器运行,模拟远程Server在运行.就拿Java调用shell脚本提交作业程序为例 ...

  7. python 播放mp3

    import os os.system('out1.mp3') 自动带开播放器

  8. Ubuntu 14.04服务器配置 (1) 安装和配置

    http://jingyan.baidu.com/article/9c69d48fb9fd7b13c8024e6b.html ssh是一种安全协议,主要用于给远程登录会话数据进行加密,保证数据传输的安 ...

  9. windows系统下Disconf web安装-分布式配置管理平台

    文章参考自 http://blog.csdn.net/syc001/article/details/78128117 https://www.cnblogs.com/mrluo735/p/632271 ...

  10. tcpdump -i eth0 -n -vvv src or dst port 443

    tcpdump -i eth0 -n  -vvv src or dst port 443