最全的中文NLP资源库,你确定不来看一下吗? 22/100 发布文章 qq_39248703 hello,小伙伴们大家好,今天给大家分享NLP资源库,可以说是最全的资源库了,很多包非常有趣,值得收藏,满足大家的收集癖! 由于项目资源太多,这里就不给大家一一截图了,大家可以下载,使用一下. 项目地址:https://github.com/fighting41love/funNLP?utm_source=gold_browser_extension 有兴趣的小伙伴可以下载尝试应用一下,如果在使用期间…
<?php header('Content-type:text/html; charset=utf-8'); $str = '你好'; if(preg_match('/^[\x{4e00}-\x{9fa5}]+$/u', $str)>0){ echo '全是中文'; }elseif(preg_match('/[\x{4e00}-\x{9fa5}]/u', $str)>0){ echo '含有中文'; } ?>…
//第一种代码(全为中文则返回"true",不全为中文则返回"false"): <script language="javascript"> function isChinese(temp) { var re=/[^\u4e00-\u9fa5]/; if(re.test(temp)) return false; return true; } alert(isChinese("中国站长天空www.zzsky.cn")…
来源于:http://blog.csdn.net/yenange/article/details/7463897 第一种代码(全为中文则返回"true",不全为中文则返回"false"): <script language="javascript"> function isChinese(temp) { var re=/[^\u4e00-\u9fa5]/; if(re.test(temp)) return false; return …
js 验证字符串是否全为中文: function isChinese(str) { var reg = /^[\u4E00-\u9FA5]+$/; if(reg.test(str)){ return true; }else{ return false; } }…
“最近刚好在用ERNIE写毕业论文” “感觉还挺厉害的” “为什么叫ERNIE啊,这名字有什么深意吗?” “我想让艾尼帮我写作业” 看了上面火热的讨论,你一定很好奇“艾尼”.“ERNIE”到底是个啥? 自然语言处理( Natural Language Processing,简称NLP )被誉为人工智能“皇冠上的明珠”.NLP为各类企业及开发者提供用于文本分析及挖掘的核心工具,已经广泛应用在电商.文化娱乐.金融.物流等行业客户的多项业务中. 而艾尼(ERNIE),可谓是目前NLP领域的最强中文预训…
今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks. 项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作:兴趣包括:语言资源构建.信息抽取与知识图谱.舆情分析等.喜欢分享一些小知识,设有知乎专栏<机器学习小知识> 作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新.项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如…
Hello亲爱的观众朋友们大家好,我是09. vs支持各种插件,一般推荐用vs.不过总有人(例如我)由于各种原因用MonoDeveloper.苦于每次上网找各种设置,此处集中写下我用MonoDeveloper的过程的设置,达到类vs的使用效果. 1.常用快捷键 补全代码提示 补全引用using提示 跳至行数(vs使用习惯ctrl+g冲突 故取L for Line) 2.tab转空格 3.中文乱码 4.格式 欢迎补充,希望大家用得愉♂悦.…
<?php$str= "中文";//全部是汉字的$par = "\x80-\xff";$par2= chr(0xa1).'-'.chr(0xff);//包含汉字的$str = '中a文3测试';if (preg_match("/([\x81-\xfe][\x40-\xfe])/", $str, $match)) {    echo '含有汉字';   } else {    echo '不含有汉字';}/**使用$par和$par2两个表达…
软件名称: PEiD 0.95 软件语言: 简体中文 授权方式: 免费软件 运行环境: Win8 / Win7 / Vista / WinXP 软件大小: 4.4MB 图片预览: 软件简介: PEiD汉化版是一个著名的查壳工具,几乎可以侦测出所有的壳,其数量已超过470 种PE 文档的加壳类型和签名 本汉化版为全插件版,是目前网络中最完美的版本,插件是特别全面的,是广大的脱壳爱好者的必备好工具 经实测,这个版本的PEID不支持64位系统,使用64位系统的同学,可下载:http://www.bki…
1.代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> </head> <body> <input id="test" type="text" onblur="CheckChinese('t…
jQuery 的 tagit 插件效果还是不错的,今天用到该插件但发现不能自定义标签分隔符,只能是英文半角逗号或空格,于是想改造下 效果: 先研究了一番插件的代码,发现并不能通过插件自身的扩展方法来实现, 标签输入框是插件自己生成的,所以本来想在外部绑定 keydown 事件但由于事件绑定先后顺序的问题不能实现,只能修改代码了: 改动不多,主要是增加了三个事件绑定在插件原来的 keydown 事件之前绑定一个自定义的 keydown 以及 blur 事件处理标签内容的过滤,以及 keyup 后模…
在eclipse中搜狗输入法变成了如图这样 在中文状态下,提示的全是中文. 查询到的解决方案: 快捷键ctrl+shift+E关闭搜狗智能英文.然而与eclipse中 Ctrl+shift+E 快捷键冲突 解决办法 第一步:打开eclipse-->window-->preference-->General-->keys 暂时修改快捷键.问题解决后建议改回来. 第二步: 检查搜狗输入法快捷键设置,如果ctrl+shift+e 快捷操作未勾选,则勾选上. 此时在eclipse中重新按C…
  在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现.   首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可: langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py zh_wiki.py 地址:https://raw.githubusercontent.com/skyd…
第一种代码:EXFCODE:1     function isChinese(temp)2     {3       var re=/[^/u4e00-/u9fa5]/;4       if (re.test(temp)) return false ;5       return true ;6     } 第二种代码:EXFCODE:01     function isChn(str)02     {03       var reg=/^[/u4E00-/u9FA5]+$/;04      …
上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词. 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词. 统计分词一般做如下两步操作: 1.建立统计语言模型(n-gram) 2.对句子进行单词划分,然后对划分结果做概率计算,获取概率最大的分词方式.这里就用到了统计学习算法,如隐马尔科夫模型(HMM),条件随机场(CRF)等 语言模型: 语言模型在信息检索,机器翻译,语音识别中承担着重要的任务…
学术界著名的分词器: 中科院的 ICTCLAS,代码并不十分好读 哈工大的 ltp, 东北大学的 NIU Parser, 另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路: 启发式(Heuristic):查字典 机器学习/统计方法:HMM.CRF jieba 分词是python写成的一个算是工业界的分词开源库,其 github 地址为:https://github.com/fxsjy/jieba jieba 分词虽然效果上不如…
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴. 本文分享一个中文文本标注工具Chinese-Annotator.  https://github.com/crownpku/Chinese-Annotator 最前沿的 NLP 技术往往首先针对英文语料.英文 NLP 的生态很好,针对不同有意思的问题都有不少大规模语料公开供大家研究,…
 国内外自然语言处理(NLP)研究组 *博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553 *排名不分先后.收集不全,欢迎留言完善. 中国大陆地区: 微软亚洲研究院自然语言计算组 Natural Language Computing (NLC) Group https://www.microsoft.com/en-us/research/group/natural-language-computing/ 清华大学自然语…
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正.内容来源主要参考黄志洪老师的自然语言处理课程.主要参考书为宗成庆老师的<统计自然语言处理>,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载:  http://github.com/lovesoft5/ml  下面直接开始正文: 一.自然语言处理概述           …
前言 所有的故事都有开始,也终将结束. 本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号. 起-NLP 中文形近字相似度计算思路 承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力 转-当代中国最贵的汉字是什么? 不足之处 之所以有本篇,是因为上一次的算法实现存在一些不足. 巴别塔 <圣经>中有关于巴别塔建造,最终人们因为语言问题而停工的故事​. 创11:6 "看哪!他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事,就没有不成就的了. 创…
<?php /** * [1.测试一] * 当$str = '中文测试'; 时输出"全部是汉字";当$str = '中a文3测试'; 时输出"不全是汉字"; * 应用说明:当某个地方要求用户输入的内容必须全部是中文时,这个就派上用场了. */ $str = '中文测试'; if (preg_match_all("/^([\x81-\xfe][\x40-\xfe])+$/", $str, $match)) { echo '全部是汉字'; }…
汉字一定注意是gbk还是utf8编码 UTF-8匹配:在javascript中,要判定字符串是中文是很简朴的.比如:var str = "php编程";if (/^[\u4e00-\u9fa5]+$/.test(str)) {alert("该字符串全部是中文");} else{alert("该字符串不全部是中文");}php中,是用 ... UTF-8匹配: 在javascript中,要判定字符串是中文是很简朴的.比如: var str = &q…
PHP判断字符串中是否含有中文 <? $str = "测试中文"; echo $str; echo "<hr>"; //if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) { //只能在GB2312情况下使用 //if (preg_match("/^[\x7f-\xff]+$/", $str)) { /…
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一):ICTCLAS (NLPIR) 中文分词工具探析(二):Jieba 中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 1. 前言 类似于THULAC,FNLP也是采用线性模型(linear model)作为基础分词模型.与对数线性模型…
<?php $str = "测试中文"; echo $str; echo "<hr>"; //if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) { //只能在GB2312情况下使用 //if (preg_match("/^[\x7f-\xff]+$/", $str)){ //兼容gb2312,utf-…
<?php $str = '若你安好便是晴天'; if (preg_match('/^[\x{4e00}-\x{9fa5}]+$/u', $str)>0) { echo '全是中文'; } else if(preg_match('/[\x{4e00}-\x{9fa5}]/u', $str)>0) { echo '含有中文'; } else { echo '没有包含中文'; } ?>…
作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50646528 http://blog.csdn.net/han_xiaoyang/article/details/50646667 声明:版权所有,转载请联系作者并注明出处 1. 引言:朴素贝叶斯的局限性 我们在之前文章<NLP系列(2)_用朴素贝叶斯进行文本分类(上)>探讨过,朴素贝叶斯的局限性来源于其条件独…
作者:龙心尘 && 寒小阳 时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 http://blog.csdn.net/han_xiaoyang/article/details/50616559 声明:版权所有,转载请联系作者并注明出处 1. 引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来.因此,学习贝…
pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等.   pyltp 是 LTP 的 Python 封装,同时支持Python2和Python3版本.Python3的安装方法为: pip3 install pyltp 官网下载网址:https://pypi.org/project/pyltp/0.1.7/ 官方使用说明文档…