THULAC：一个高效的中文词法分析工具包（z'z）

网址:http://thulac.thunlp.org/ THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能.THULAC具有如下几个特点: 能力强.利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大. 准确率高.该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词…

pkuseg：一个多领域中文分词工具包

pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录主要亮点编译和安装各类分词工具包的性能对比使用方式相关论文作者常见问题及解答主要亮点 pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型.根据待分词文本的领域特点,用户可以自由地选择不同的模型. 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型.在使用中,如果用户明确待分词的领域,可加载对应的模型进行…

北大开源全新中文分词工具包：准确率远超THULAC、结巴分词

最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%. pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率. 项目地址:https://github.com/lancopku/PKUSeg-python pkuseg 具有如下几个特点: 高分词准…

轻量级的中文分词工具包 - IK Analyzer

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件.从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现.在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化.…

成为一个高效的web开发人员，只需要三步

想成为一名专业的web开发人员并不像你想象的那么容易,开发人员在开发自己的web项目时常常需要牢记很多东西,他们要不断寻找新理念,新创意,在特定时间内开发出高质量的产品,一名优秀的程序员必须明白时间的重要性,才能更高效地完成工作. 作为web开发人员,要不断致力于提高技能,保持创造性思维和生产观念,利用有限的时间来完成多个web项目.在这篇文章里,小编提到了5个简单的方法,帮助大家成为高效的web开发人员. 1.保持激情首先,开发人员要热爱他们的工作.如果你想快速高效,就需要对每个项目都保持激…

【Linux】设定一个能输入中文的英文环境！

引子:centos startx 进入桌面后使用中文输入法这个解决方法太蠢了,而且只适用于centos等red系系统... 在此提供一个更加通用的方法 => 只要设置好系统的locale坏境变量就行了. 简单说, 当centos直接从terminal运行startx切换到英文坏境的时候, 其读取的配置文件跟你在ui坏境进行语言坏境切换时读取的肯定有所区别. 中文输入最密切相关的是 LC_CTYPE 变量, 规定系统内有效的字符与这些字符的分类(什么是大小写字母,大小写转换.排序等)! 可以使用…

想成为一个高效的Web开发者吗？来看看大牛分享的经验吧~ #精选JAVASCRIPT前端开发

想成为一个高效的Web开发者吗?来看看大牛分享的经验吧~ 作为一个软(ku)件(bi)工(de)程(ma)师(nong),你有没有觉得做什么事都没时间?没时间学习新东西,没时间去回顾.整理原来写的烂代码,没时间写单元测试,没时间给接管你项目的家伙写文档,没时间思考,没时间喘气,没!时!间! 额--如果你肯花点时间看看这篇文章,我相信你会明白应该把时间花在哪. 我曾以为成为一个技术大牛的唯一途径是玩命地学习与工作.这个想法差点毁了我.身体越来越差,和家人与朋友越来越疏远,很快我就撑不住了.后来我开…

[转载]一个高效简洁的Aseprite to Unity导入工具

原文链接 https://zhuanlan.zhihu.com/p/28644268 期待原作者上传至AssetStore. 今天,我的第一个 Unity 插件 MetaSprite 正式发布了它的 0.1 版本,所以想趁这个机会写一篇文章做下记录. MetaSprite 是一个高效.灵活的 Aseprite to Unity 导入插件.它可以把像素动画软件 Aseprite 生成的 .ase 文件导入 Unity,作为 Mecanim 动画系统的 Animation Clip 和 Anima…

Android：一个高效的UI才是一个拉风的UI（二）

趁今晚老大不在偷偷早下班,所以有时间继续跟大伙扯扯UI设计之痛,也算一个是对上篇<Android:一个高效的UI才是一个拉风的UI(一)>的完整补充吧.写得不好的话大家尽管拍砖~(来!砸死我把~) 前言前篇博客翻箱倒柜的介绍了优化UI设计的两个方法,第一个就是使用尽量少的组件来实现布局功能,第二个就是使用<merge>标签来减少不必要的根节点,这两个方法都可以提高应用UI的运行效率,但是够了吗?远远是不够的,方法就像money一样永远不嫌多,所以不再介绍多一些UI设计优化的方法说…

发布一个高效的JavaScript分析、压缩工具 JavaScript Analyser

发布一个高效的JavaScript分析.压缩工具 JavaScript Analyser 先发一段脚本压缩示例,展示一下JSA语法压缩和优化功能. try { //xxxx(); } catch (e) { yyyy(); function f1() { } } finally { zzzz(); } function f2(var1) { var var2 = 2; var var3 = 3; var withObject = {var2:-2} with(withObject){ alert…

perl5中锚位修饰符\A \z \Z 和perl4中^(开头)和$(结尾)的区别

习惯使用perl4的开发者总是用^表示字符串开头锚位,用$表示字符串结尾锚位,比如\^https://\ 将会匹配所有以https://开头的字符串,同样,\.bmp$\将会匹配所有以.bmp结尾的字符串.但是到了perl5,有了\A ,\Z , \z三种锚位,这三种锚位中,\A与^相同,表示匹配以某模式开头的字符串,而\z就与$相同了…… 但是如果有了/m,则^表示行首而不再是字符串的串首!以字符串"this is a wilma line \nbarney is on another lin…

z = z*z + c的分型图如何画

使用python的图形库. 环境:conda+jupyter notebook 代码如下: import numpy as np from PIL import Image from numba import jit MAXITERS = 200 RADIUS = 100 @jit def color(z, i): v = np.log2(i+1-np.log2(np.log2(abs(z))))/5 if v < 1.0: return v**4, v**2.5, v else: v = ma…

使用CocosSharp制作一个游戏 - CocosSharp中文教程

注:本教程翻译自官方<Walkthrough - Building a game with CocosSharp>,官方教程有很多地方说的不够详细,或者代码不全,导致无法继续,本人在看了GoneBananas项目代码后,对本教程进行了部分修改,但当前只涉及Android方面,iOS因没有环境验证代码,暂未修改. 本人博客地址:http://fengyu.name 原文链接:http://fengyu.name/?cat=game&id=295 相关资源: 离线PDF文档:Downloa…

Spark：一个高效的分布式计算系统

概述什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法.其架构如下图所示: Spark与Hadoop的对比 ◆ Spark的中…

网上搜的一个shell中中文设置的一个样例；

from:http://www.cnblogs.com/52linux/archive/2012/03/24/2415082.html SSH Secure Shell Client中文乱码的解决方法这是SSH Secure Shell Client多年未解决的短板,要求客户端和服务器端都要‘UTF-8’编码,Windows中文版的编码是非UTF-8.zh_CN.UTF-8是UTF编码的中文语言环境.Windows使用的是GB2312编码,大多数linux系统支持的是UTF-8编码,而远程…

做一个高效的IOS开发工程师

最近觉得自己的开发效率太慢了,总结了一下:熟练度不够是一方面,经常用到东西查看一下,积累问题?一方面,这个无法分享的.现在主要分享的是:如何高效的用好自己的时间. 1.善用xcode. xcode实在是一个开发的神兵利器,自动补全,各种方便的编辑快捷键,查找定义,等各种方便的插件集合,这里再介绍一些开发的细节: a.源码的注释,方法一:可以下载一些代码生成模板直接快速生成.方法二:直接观察下面图片. 对比图片: 个人经常用三个斜杆的方法. b.断点,断点也有技巧的.调试bug的神兵利器,可以添加…

Spark系列之二——一个高效的分布式计算系统

1.什么是Spark? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MadReduce所具有的优点:但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark的架构? Bagel(Pregel on Spark) …

Android：一个高效的UI才是一个拉风的UI（一）

开篇 Android是一个运行在移动终端上的操作系统,跟传统PC最大的不同所在就是移动终端的资源紧缺问题“比较”明显,当然对于一些屌丝机型,应该用“非常“来形容才靠谱.所以经常会出现在一些比较缺乏青春活力的老型机上,运行一些软件被异常终止的情况:然而作为互联网厂家来说,广大的屌丝机用户肯定是一大笔用户资源,这是能放弃的市场吗?!当然不行o(╯□╰)o,所以我们要尽可能得提高软件的效率来赢取客户的回眸一笑了,屌丝也是客户! 这篇博客主要介绍如何在UI设计上提高效率,减少资源的利用,毕竟在终端资源短…

用PHP实现一个高效安全的ftp服务器（二）

接前文. 1.实现用户类CUser. 用户的存储采用文本形式,将用户数组进行json编码. 用户文件格式: * array( * 'user1' => array( * 'pass'=>'', * 'group'=>'', * 'home'=>'/home/ftp/', //ftp主目录 * 'active'=>true, * 'expired=>'2015-12-12', * 'description'=>'', * 'email' => '', * 'f…

Ansible@一个高效的配置管理工具--Ansible configure management--翻译（一）

未经书面许可,请勿转载 --- Ansible is the simplest way to automate apps and IT infrastructure 这是Ansible官方站点的介绍,本着学习的态度我决定一边学习一边翻译Ansible configure management这本书.原文下载稍后放出 #一些自解释的文字,我会忽略.或者依照自己的理解简单翻译一下,并不是每行每句都是一一相应. Preface Since CFEngine was first created…

elixir东游记：实现一个简单的中文语句解析

备份:https://zhuanlan.zhihu.com/p/46030123 代码地址:github:pyzh/gdpl-ex.poc-1 原语句是:List1为'12332234':记a为List1,b为2:求a中b的个数整个流程是这样的: 首先断句,然后判断句属性(这个步骤其实代码里没有严格实现) 第一句里面因为只有一个[为]字,所以可以认为第一句是个赋值语句: 而第二句有一个[记]字,这个在[Ld2]的设定里面,要比[为]的优先级高,所以第二句实际上是[记+为]的定义语句: 第三句是…

第一个java程序中文乱码以及如何解决

出现问题:编码gbk的不可映射字段原因:.java文件的编码与cmd命令执行器使用的编码不一致我们使用的.java文件的编码为UTF-8 Cmd默认使用的编码为GBK: 解决方式统一编码: 方法1:更改源文件编码为GBK与cmd.exe对应更改编码为ANSI编码,对应的就是GBK编码,然后将乱码文字重新输入保存.(如果用的是电脑自带记事本,另存为存储的编码也更改为ANSI编码,然后注意内容不乱吗即可) 使用javac命令正常编译: 解决方法2:编译的时候指定以何种编码方式进行编码使用ja…

python如何判断一个字符串是中文，还是英文。

参考链接: https://blog.csdn.net/hit0803107/article/details/52885702 decode: 将其它编码转成 ===>unicode encode: 将 unicode ====>其它编码 #-*- coding:utf-8 -*-#python 判断字符串是中文还是英文,只要有一个中文就算中文. import sysreload(sys)sys.setdefaultencoding('utf8') def check_contain…

Hanlp分词之CRF中文词法分析详解

这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口. CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习. 默认模型训练自OpenCorpus/pku98/199801.txt,随hanlp 1.6.2以上版本发布. 语料格式等与感知机词法分析器相同,请先阅读<感知机词法分析器>. 中文分词训练 CRFSegmenter segmenter = new CRFSegmenter(null); segmenter.train("data…

【转】Spark：一个高效的分布式计算系统

原文地址:http://tech.uc.cn/?p=2116 概述什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法.其架构如下图所…

XMind2TestCase：一个高效测试用例设计的解决方案！

一.背景软件测试过程中,最重要.最核心就是测试用例的设计,也是测试童鞋.测试团队日常投入最多时间的工作内容之一. 然而,传统的测试用例设计过程有很多痛点: 1.使用Excel表格进行测试用例设计,虽然成本低,但版本管理麻烦,维护更新耗时,用例评审繁琐,过程报表统计难... 2.使用TestLink.TestCenter.Redmine等传统测试管理工具,虽然测试用例的执行.管理.统计比较方便,但依然存在编写用例效率不高.思路不够发散.在产品快速迭代过程中比较耗时等问题... 3.公司自研测试管…

Spark：一个高效的分布式计算系统--转

原文地址:http://soft.chinabyte.com/database/431/12914931.shtml 概述什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机…

用python3判断一个字符串包含中文

在python中一个汉字算一个字符,一个英文字母算一个字符用 ord() 函数判断单个字符的unicode编码是否大于255即可. s = '我xx们的88工作和生rr活168' n = 0 for c in s: if ord(c) > 255: print(c) 一般来说,中文常用字的范围是:[\u4e00-\u9fa5] 准确点判断中文字符,可以这样比较: a = "你好" b = "</p>你好" c = 'asdf' def isAll…

配置一个高效快速的Git环境

username and email editor difftool and mergetool alias 可以直接修改~/.gitconfig文件,也可以用命令配置一个可以实际使用的高效的Git环境. username and email 这两项是必须的. git config --global user.name gituser git config --global user.email email@git.com or [user] name = gituser email = ema…

一个高效的A-star寻路算法（八方向）(

这种写法比较垃圾,表现在每次搜索一个点要遍历整个地图那么大的数组,如果地图为256*256,每次搜索都要执行65535次,如果遍历多个点就是n*65535,速度上实在是太垃圾了简单说下思路,以后补充算法优化重点在在open表和close表的遍历上,这两个地方优化后,astar会大量提速 close只用来查询所以可以用hash这样就避免了遍历 open首先用来查询是否有相同的点如果有会比较替换F值,其次用来遍历查询最小点,如果用优先级队列加hash可以减少2次遍历,但是相同点替换F值和父节点就…

【THULAC：一个高效的中文词法分析工具包（z'z）】的更多相关文章