我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后进行抓取内容 返回 news 一会写具体内容 这个函数主要做3件事 首先 download 这个url 获取html 然后 parse html 成 tree 组合 extract information(提取信息 用Xpath或者后边自动爬内容的 第三方库 newspaper) 这里我们现用Xpa…
还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一定的值 我就认为他是一个老的新闻 丢掉 不插入数据库 吐过相似度低于那个值 我们就认为他是新的新闻 然后插入数据库里面 上面是需要的配置信息 后边mongodb是支持按照时间范围查找数据的 比如一天 设置一个时间的上界和下界 他们之间的时间设置成1天 那么就可以查出一天内的数据 下界就是昨天的时间戳…
我们要重构一下代码 因为我们之前写了utils 我们的NewsPipeline部分也要用到 所以我们把他们单独独立得拿出来 删掉原来的 将requirements.txt也拿出去 现在我们搬家完成 我们修改一下我们backend里面依赖这些的文件 service.py 不在是同级目录下 而是在父一级 叫common的文件夹下 准备工作完成 下面做一下NewsAPI 的 client 这样后边的news monotor就不会被news api限制 不依赖他 他想用哪个api就用哪个api的clie…
我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我们通过这个可以将新的新闻(还未加入数据库的新闻)放在左上角 然后mongodb存的老新闻和他比较 如果超一定值 比如0.8 表示相似度高 我们就帮他当成一个新闻 那么这个左上角新的新闻 就会被踢掉  如果相似度很低 说明是新的新闻 那么就 执行命令加入mongodb中来  大概这个意思 0.1269…
Linux就这个范儿 第13章 打通任督二脉 0111010110……你有没有想过,数据从看得见或看不见的线缆上飞来飞去,是怎么实现的呢?数据传输业务的未来又在哪里?在前面两章中我们学习了Linux网络方面的各种工具,打造了形形色色的网络服务.然而我们并不满足于仅仅知道这些表面的知识,还希望深入了解它们的底层实现.那就来吧,打通任督二脉,探究不同类型的网络以及隐藏在网络后面的世界. 13.1 了解网络驱动工欲善其事,必先利其器.二十年前我们还走在狭窄的乡间小道开着信息牛车.时至今日,信息高速公路…
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 13.4 JavaScript Object Notation-JSON JSON的格式灵感来自JavaScript语言中的对象和数组格式.因为Python语言的发明比JavaScript要早,所以Python关于词典和列表的语法影响了JSON的语法,故而JSON和Python的词典和列表的结合体几乎完全相同. 以下是JSON的一个编码,它…
HDU 4819 Mosaic 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4819 题意:给定一个n*n的矩阵,每次给定一个子矩阵区域(x,y,l),求出该区域内的最大值(A)和最小值(B),输出(A+B)/2,并用这个值更新矩阵[x,y]的值 思路:裸的二维线段树,用树套树实现 # include<cstdio> # include<cstring> # include<algorithm> using namesp…
借鉴:https://www.cnblogs.com/shengyang17/p/8543712.html https://www.cnblogs.com/you-wei1/p/9693254.html 1.有两个列表 l1 = [11, 22, 33] l2 = [22, 33, 44] a.获取内容相同的元素列表 b.获取l1中有,l2中没有的元素列表 c.获取l2中有,l1中没有的元素列表 d.获取l1和l2中内容都不同的元素 l1 = [11, 22, 33] l2 = [22, 33,…
[3.x] (1)去掉"CC" (2)设置虚拟键盘的编辑类型 > EditBoxInputMode 变为强枚举 EditBox::EditBoxInputMode // SINGLE_LINE //开启任何文本的输入键盘(不含换行) ANY //开启任何文本的输入键盘(含换行) DECIMAL //开启 数字 输入类型键盘(含小数点) PHONE_NUMBER //开启 电话号码 输入类型键盘 EMAIL_ADDRESS //开启 邮件地址 输入类型键盘 NUMERIC //开启…
爬取说明 以单个页面为例,如:http://blog.jobbole.com/110287/ 我们可以提取标题.日期.多少个评论.正文内容等 Xpath介绍 1. xpath简介 (1) xpath使用路径表达式在xml和html中进行导航 (2) xpath包含标准函数库 (3) xpath是一个w3c标准 2. Xpath的节点关系 (1) 父节点 (2) 子节点 (3) 同胞节点 (4) 先辈节点 (5) 后代节点 3. Xpath语法 开始爬取 1. 将starts_urls修改为htt…