还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一定的值 我就认为他是一个老的新闻 丢掉 不插入数据库 吐过相似度低于那个值 我们就认为他是新的新闻 然后插入数据库里面 上面是需要的配置信息 后边mongodb是支持按照时间范围查找数据的 比如一天 设置一个时间的上界和下界 他们之间的时间设置成1天 那么就可以查出一天内的数据 下界就是昨天的时间戳…
我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我们通过这个可以将新的新闻(还未加入数据库的新闻)放在左上角 然后mongodb存的老新闻和他比较 如果超一定值 比如0.8 表示相似度高 我们就帮他当成一个新闻 那么这个左上角新的新闻 就会被踢掉  如果相似度很低 说明是新的新闻 那么就 执行命令加入mongodb中来  大概这个意思 0.1269…
我们要重构一下代码 因为我们之前写了utils 我们的NewsPipeline部分也要用到 所以我们把他们单独独立得拿出来 删掉原来的 将requirements.txt也拿出去 现在我们搬家完成 我们修改一下我们backend里面依赖这些的文件 service.py 不在是同级目录下 而是在父一级 叫common的文件夹下 准备工作完成 下面做一下NewsAPI 的 client 这样后边的news monotor就不会被news api限制 不依赖他 他想用哪个api就用哪个api的clie…
我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后进行抓取内容 返回 news 一会写具体内容 这个函数主要做3件事 首先 download 这个url 获取html 然后 parse html 成 tree 组合 extract information(提取信息 用Xpath或者后边自动爬内容的 第三方库 newspaper) 这里我们现用Xpa…
0. 前言 在<C# 基础知识系列- 13 常见类库(二)>中,我们介绍了一下DateTime和TimeSpan这两个结构体的内容,也就是C#中日期时间的简单操作.本篇将介绍Guid和Nullable这两个内容. 1. Guid 结构 Guid(Globally Unique Identifier) 全局唯一标识,是一种由算法生成的二进制长度为128位的字符串,但字符串的长度是36其中32位16进制的数字和四个连接符.其作用是用来表示全局唯一标识,当多个系统或者数据量大的时候,用来做唯一标识,…
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 13.6 应用程序接口API 现在我们拥有了用HTTP协议在应用程序间互换数据的能力.并且有了用XML或JSON,在应用程序间互发复杂数据的方法. 下一步是用这些技术来定义和记录程序间的协议.程序间的协议通用名是应用程序接口APIs.当我们使用一个API时,通常一个程序先生成可供其它程序使用的服务集,并且发布它的APIs,即访问程序提供的服…
目录 1:数组的定义和创建方式 2:数组的总结 3:for循环遍历数组 4:数组的案例 5:冒泡排序 6:函数的定义 7:函数的参数 8:函数的返回值 复习 <script> /* * * break:在循环中遇到这个关键字,直接跳出当前所在的循环 * continue:在循环中遇到这个关键字,直接进行下一次循环 * 数组:存储一组有序的数据,数据类型可以不一样 * 数组的作用:一次性存储多个数据 * 数组元素:数组中存储的每个数据,叫数组元素,存储了5个数据,有5个数组元素 * 数组的长度:…
作为一个人,我们必须时时刻刻清醒地看待自己,做到不卑不亢才能坚强地活下去. 请肆无忌惮地点赞吧,微信搜索[沉默王二]关注这个在九朝古都洛阳苟且偷生的程序员.本文 GitHub github.com/itwanger 已收录,里面还有我精心为你准备的一线大厂面试题. 题目是我在知乎上看到的,相信也有不少读者朋友看到了.题目很长,但映入眼帘的,只有两个字--不是"网易",是"外包"了. 很想来谈谈这个话题,因为我已经被问过不下六十次这方面的问题:"二哥,面试上…
终于把这些命令全敲了一遍,话说ELK技术栈L和K我今天花了一下午全部搞定,学完后还都是花式玩那种...E却学了四天(当然主要是因为之前上班一直没时间学,还有安装服务时出现的各种error真是让我扎心了,这绝对是我学编程以来针对某个特定技术花的时间最长的一次学习). #删除school索引DELETE /school#静态映射#format日期格式默认:strict_date_optional_time||epoch_millisPUT /school{"settings": {&quo…
writedby 张艳涛 一般我们都知道将web 应用打成war包,放到tomcat的webapp目录下,就是部署了,这是部署方法1 第2种部署方法我们也知道,就是讲web应用的文件夹拷贝到webapp目录下, 这种部署方法就是eclipse的部署方式,不过eclipse会将tomcat 的catalina.base 和catalina.home设置为自己制定的路径,那么webapp就会在指定的目录下,而不是 tomcat安装目录的文件夹下... 第3种部署方式, 对应的代码为 贴下这个admi…