互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷.一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的. N-Gram加词频 最原始的新词算法莫过于n-gram加词频了.简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统计每个字组合的频率,按照词频并设置一个阈值来判断一个字组合片段是否为词汇. 该方法简单处理速度快,它的缺点也很明显,就是会把一些不是词汇但出现频率很高的字组合也当成词了. 凝固度和自由度 这个算法在文…
#!/user/bin/env python # @Time :2018/6/5 14:58 # @Author :PGIDYSQ #@File :PyCheck.py from os.path import isfile as isfile from time import time as time Result ={} AllLines =[] FileName = r'C:\Users\PGIDYSQ\Desktop\fibo.py'#访问.py文件路径 '''py文件程序代码复用度检查'…
互联网时代的社会语言学:基于SNS的文本数据挖掘 python实现 https://github.com/jtyoui/Jtyoui/tree/master/jtyoui/word  这是一个无监督训练文本词库与分词 (转载) java实现 https://gitee.com/tyoui/jsns 这个速度要快一点.逻辑比较清楚些(转载) 更多实现见文章末尾: 实现原理如下:(转载)http://www.matrix67.com/blog/archives/5044 今年上半年,我在人人网实习了…
最近需要对商品中的特有的词识别,因此需新词发现算法,matrix的这篇算法很好. 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题.不过,现在很多语言模型都已能比较漂亮地解决这一问题了.但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词.中文没有首字母大写,专名号也被取…
目录 更改标准(Python)测试发现 在测试收集过程中忽略路径 测试期间收集的测试取消 保留从命令行指定的重复路径 更改目录递归 更改命名约定 将cmdline参数解释为Python包 找出收集的东西 自定义测试集 更改标准(Python)测试发现 在测试收集过程中忽略路径 通过--ignore=path在cli上传递选项,可以轻松地在收集过程中忽略某些测试目录和模块.pytest允许多个 --ignore选项.例: tests/ |-- example | |-- test_example_…
转自:http://blog.csdn.net/gzlaiyonghao/article/details/1483728 本文最初发表于恋花蝶的博客http://blog.csdn.net/lanphaday,欢迎转载,但请务必保留原文完整,并保留本声明. [python]用profile协助程序性能优化          上帝说:“选择了脚本,就不要考虑性能.”我是很支持这句话的,使用脚本要的就是开发速度.良好的扩展性以及可维护性.可惜到了最后,我们的程序难免会运行得太慢,我们的客户不能忍受,…
    腾讯,疼讯,很疼. 请慎重看腾讯给出的文档,最好做一个笔记. 我只能说我能力有限,在腾讯云小程序的文档中跳了n天. 最后还是觉得记录下来,以防止我的cpu过载给烧了. 此文档是对<小程序解决方案开通指引> https://cloud.tencent.com/document/product/619/11447 的有力补充 写作时间为 2017年11月25日10:30. 参考时请注意时效. 第一步, 疼讯文档之乱 [非正文,吐个槽] 我在这里记录,初入门者慎入, 直接进入第二步即可. 鄙…
[转]Python用数据说明程序员需要掌握的技能 https://blog.csdn.net/HuangZhang_123/article/details/80497951 当下是一个大数据的时代,各个行业都离不开数据的支持.因此,网络爬虫就应运而生.网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言. 本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术.首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发…
OpenCV + python 实现人脸检测(基于照片和视频进行检测) Haar-like 通俗的来讲,就是作为人脸特征即可. Haar特征值反映了图像的灰度变化情况.例如:脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等. opencv api 要想使用opencv,就必须先知道其能干什么,怎么做.于是API的重要性便体现出来了.就本例而言,使用到的函数很少,也就普通的读取图片,灰度转换,显示图像,简单的编辑图像罢了. 如下: 读取图…
python实现RESTful服务(基于flask) 原文: https://www.jianshu.com/p/6ac1cab17929  前言 上一篇文章讲到如何用java实现RESTful服务,这就来讲讲怎么用python来实现吧,因为要搭建一套java和python互调的服务,两者都不能少啊.对于python的述求呢也是要轻量化,并且能快捷开发,因为我这套服务主要控制逻辑还是在java端,python这块负责一些工具逻辑,比如网页爬取.文字转拼音.图像处理等等,在java端当成工具类来使…