<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>历史上的今天</title> <script src="jquery-1.8.3.min.js"></script> </head> <body> <script type="text/javascript&quo…
import requests import urllib.parse import datetime from lxml import etree fhout = open("result.txt", 'a') baseurl = 'https://zh.wikipedia.org/wiki/' begin_date = datetime.datetime.strptime('2016-01-01', "%Y-%m-%d") contents=[] for i i…
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线.维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以方便的下载多种语言多种格式的维基百科数据.此前通过gensim的玩过英文的维基百科语料并训练LSI,LDA模型来计算两个文档的相似度,所以想看看gensim有没有提供一种简便的方式来处理维基…
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>历史上的今天</title> <script src="jquery-1.8.3.min.js"></script> </head> <body> <script type="text/javascript&quo…
ichat是一款开源免费在线客服jQuery插件,通过该插件,您可以自由的定制属于自己的在线客服代码. ichat充分吸收传统在线客服插件的优点,并加上自身的独特设计,使得ichat可定制性异常强大. ichat追求简单实用,走小清新路线,以便能够适应大多数网站风格. ichat几乎全部由配置生成,使用简便,不需要写html,但需要写js,因为配置是json对象. ichat体积小巧,代码高效,兼容性良好,采用jQuery插件封装,与原有系统零冲突. 效果预览图: 更多内容参见: ichat项目…
使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Java API包,提供了快速访问维基百科中包含的消息,如重定向.类别.文章和链接结构的结构性访问接口.它提供的DataMachine 工具类可快速解析wiki格式文件,生成mysql的数据txt文件,可通过mysqlimport 导入到本地数据库中. JWPL介绍官网:https://dkpro.gi…
Kaggle比赛冠军经验分享:如何用 RNN 预测维基百科网络流量 from:https://www.leiphone.com/news/201712/zbX22Ye5wD6CiwCJ.html 导语:来自莫斯科的 Arthur Suilin 在比赛中夺冠并在 github 上分享了他的模型 雷锋网 AI 科技评论按:最近在 Kaggle 上有一场关于网络流量预测的比赛落下帷幕,作为领域里最具挑战性的问题之一,这场比赛得到了广泛关注.比赛的目标是预测 14 万多篇维基百科的未来网络流量,分两个阶…
使用开放的 API 做一个自己的小项目,是一个很好的学习方法.但好像开放的 API 选择并不多.这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API. 简介 先简单介绍几个容易混淆的概念. Wiki Wiki 是一种在网络上开放且可供多人协同创作的超文本系统.Wiki 站点可以由多人维护,不同人可以对同一个主题进行拓展和探讨. MediaWiki MediaWiki 是一个免费.开放的 Wiki 引擎,很多著名的 wiki 网站都采用这套系统. Wikipedia 我们常…
通过英文维基的免费API,可以实现对维基百科的搜索查询或者标题全文查询等,尝试了一下通过title实现全文查询,返回的结果是wikitext格式,暂时不知道该如何应用,所以仅实现了查询功能,可以返回最接近的10条信息的标题.摘要.图片及链接. 我的DEMO页:https://zhangcuizc.github.io/My-FreeCodeCamp/ 如下图: 搜索结果: HTML如下: <!DOCTYPE html> <html> <head> <title>…
词向量嵌入需要高效率处理大规模文本语料库.word2vec.简单方式,词送入独热编码(one-hot encoding)学习系统,长度为词汇表长度的向量,词语对应位置元素为1,其余元素为0.向量维数很高,无法刻画不同词语的语义关联.共生关系(co-occurrence)表示单词,解决语义关联,遍历大规模文本语料库,统计每个单词一定距离范围内的周围词汇,用附近词汇规范化数量表示每个词语.类似语境中词语语义相似.用PCA或类似方法降维出现向量(occurrence vector),得到更稠密表示.性…
function test() { console.log("请求准备发送"); $.ajax({ type : "POST", url : "/api/test", dataType : "json", data : {}, success : function(test) { var text; var select = document.getElementById("select"); $.each…
前端代码 <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title>ThinkPHP+JQuery实现文件的异步上传</title> </head> <body> <form id="ajax-upload-demo" enctype="multipart…
服务端程序: import tornado.web import os IMG_LIST=[] class IndexHandler(tornado.web.RequestHandler): def get(self): self.render('index.html',list_img=IMG_LIST) def post(self, *args, **kwargs): name=self.get_argument('name') pwd=self.get_argument('pwd') #f…
Skill简介: 来源:好奇心.探索欲.趣味性: 资源:百度百科: 方式:实时获取,自动更新: 技能玩法: 想要进入历史上的今天这个skill,则对若琪说:若琪,打开历史上的今天. 想要了解某天的历史,则对若琪说:若琪,我想了解6月8号,若琪便会回复历史上6月8号的历史. 由于每天的历史相对较长,如果过程中需要暂停,则对若琪说:若琪,暂停. 如果想要继续播放,则对若琪说:若琪,继续播放. 如果想退出这个技能,则对若琪说:若琪,我不想听了. 语音交互的设计: 主要有以下几个意图(intent):历…
技能名称:历史上的今天 入口词:打开历史上的今天 语音交互:(有些是先写上) { "intents": [ { "intent": "PAUSE_HISTORY_DAY", "slots": [], "user_says": [ "暂停", "停下" ] }, { "intent": "EXIT_HISTORY_DAY", &q…
在上一篇对中文维基百科语料处理将其转换成.txt的文本文档的基础上,我们要将为文本转换成向量,首先都要对文本进行预处理 步骤四:由于得到的中文维基百科中有许多繁体字,所以我们现在就是将繁体字转换成简体字 opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package/files/byvoid/opencc/OpenCC 下载完成之后解压即可,随后使用命令: opencc -i wiki.zh.text -o wiki.zh.jian.text -c…
代码如下: from urllib.request import urlopen from bs4 import BeautifulSoup import re import datetime import random import pymysql.cursors # Connect to the database connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='数据库密码', d…
JWPL处理维基百科数据用于NLP 处理zhwiki JWPL是一个Wikipedia处理工具,主要功能是将Wikipedia dump的文件经过处理.优化导入mysql数据库,用于NLP过程.以下以zhwiki-20170201为例. JWPLDataMachine用以处理wiki dump数据,最终将数据导入mysql,用于NLP,表结构不同于wkipedia官方的表,这里的表是针对于NLP目的的.处理步骤如下: 数据格式转换.处理zhwiki dump的文件,转换为tsv格式数据,以便用m…
知识点 """ 1) from gensim.model import Word2Vec import jieba 2) opencc :将繁体字转换为简体字 转换命令:opencc -i texts.txt -o test.txt -c t2s.json 3) 自然语言处理: 1.拼写检查.关键字检索 2.文本挖掘 3.文本分类 (二分类) 4.机器翻译 5.客服系统 6.复杂对话系统 4) p(S)=p(w1,w2,w3,w4,w5,…,wn) =p(w1)p(w2|w1…
首先感谢 : 1.https://blog.csdn.net/qq_39023569/article/details/88556301 2.https://www.cnblogs.com/CherishFX/p/5280259.html 3.https://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html 4.https://blog.csdn.net/Icy233333/article/details/80383336 一.中文维基数…
1 相关背景 平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的“404NOT FOUND”,下载离线版的维基百科就可以轻松解决这个问题喽,而且维基百科中文版和英文版查询时都是十分的方便(下载维基数据库源文件可能稍微费时). 我的计算机环境是windows 7. 2 需要下载的文件和软件 需要下载两个文件:WikiTaxi阅读检索工具和离线wikipedia的数据文件. ① 阅读检索…
IEEE二进制浮点数算术标准(IEEE 754) 是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number),一些特殊数值((无穷(Inf)与非数值(NaN)),以及这些数值的"浮点数运算符":它也指明了四种数值舍入规则和五种例外状况(包括例外发生的时机与处理方式). IEEE 754规定了四种表示浮点数值的方式:单精确度(32位).双精确度(64位).延伸单精确度(43比特…
在写论文的时候你会想要一些比书本上更好的实例,所以你会在网上寻找资源.当你发现一个你想要的公式时,发现网页公式复制粘贴后太模糊而不适合打印或者投影.这种问题在MathType中如何解决呢? 你可以将网页上的公式复制粘贴到MathType中再进行使用,就像使用MathType其它公式一样.这个处理过程的关键在于使用这个网站将公式图像里的TeX代码看成是"alt text".许多网站和博客都这样做,包括维基百科和Planetmath(一本自由.协作的网络数学百科全书).如果你找到了你想要的…
在我们写论文的时候,经常会需要用一些实际案例以及数据,而这些数据和案例有很大一部分可以直接在网络上找到.但是有时候也会发现我们想要的内容和公式,从网页上复制粘贴后太模糊,不适合打印和投影.就需要我们将网页上的公式进行再编辑. 这个处理过程的关键在于使用这个网站将公式图像里的TeX代码看成是"alt text".许多网站和博客都这样做,包括维基百科和Planetmath(一本自由.协作的网络数学百科全书).如果你找到了你想要的公式,你可以按照下面的方法来做: 1.如果你不确定这个公式是不…
[简介] MediaWiki是全球最著名的开源wiki程序,运行于PHP+MySQL环境.MediaWiki从2002年2月25日被作为维基百科全书的系统软件,并有大量其他应用实例.MediaWiki的开发得到维基媒体基金会的支持.MediaWiki是建立wiki网站的首选后台程序,国内的灰狐维客等站点都采用这套系统. [前期文章] [Microsoft Azure 的1024种玩法]一.一分钟快速上手搭建宝塔管理面板 [Microsoft Azure 的1024种玩法]二.基于Azure云平台…
新年礼,提供简单.易套用的 jQuery AJAX 上传示例及代码下载.后台对文件的上传及检查,以 C#/.NET Handler 处理 (可视需要改写成 Java 或 PHP). 有时做一个网站项目 (不论是否 ASP.NET),内附的 FileUpload 控件,功能不足 (页面必须刷新.不支援 AJAX),或外观太丑被用户嫌弃 (却无法透过 CSS 自定义外观).网路上虽已有许多可用的示例,如: jQuery File Upload,但功能太强大.外观复杂,欲仅取出部分功能来引用,反而不易…
使用gensim的word2vec训练了一个词向量. 语料是1G多的维基百科,感觉词向量的质量还不错,共享出来,希望对大家有用. 下载地址是: http://pan.baidu.com/s/1boPm2x5 包含训练代码.使用词向量代码.词向量文件(3个文件) 因为机器内存足够,也没有分批训练.所以代码非常简单.也在共享文件里面,就不贴在这里了.…
最近在做一个一手粮互联网项目,方案为前后端分离,自己负责前端框架,采用了Requirejs+avalonjs+jquery三个框架完成. 前后端通过跨域实现接口调用,中间也发现了不少问题,尤其是在富文本编辑器和上传插件跨域的处理过程中,费劲了脑汁,总算解决了. 上传选择了jQuery File Upload,兼容性还是相对不错,并且支持跨域,但是没有一个完整的跨域Demo,只能看源码找帮助. 下载地址:https://github.com/blueimp/jQuery-File-Upload 页…
在很多项目中都会叫用户上传东西这些的,自从接触了jquery 和ajax之后就不管做什么,首先都会想到这个,我这个人呢?是比较重视客户体验的,这次我这边负责的是后台板块,然后就有一块是要求用户上传照片的,当然就想到了无刷新上传了呀,一般的jquery+ajax的话传递给php的data我习惯用json,然后就不知道怎么怎么把$_FILES数组中的内容给php,我要用move_uploaded_file这个函数来吧$_FILES['file']['tmp_name']移动到我想要的位置,tmp_n…
打开自己的博客仔细浏览了一番,发现已经好久没有写博客了,由于最近一直比较忙碌懈怠了好多.默默反省三分钟.......言归正传,现在就对最近在学习webservice的过程中遇到的几种类型的问题中我的理解和解决方案.对于webservice大家肯定知道,它是一种使不同站点之间可以相互通信的技术,可以理解为一种接口.一个站点可以通过其它站点提供的webservice接口获得其它站点提供的相应服务.webservice使用起来非常小巧,轻便被很多站点所使用.对于webservice我不做过多说明,we…