首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
中文NLP标注 YEDDA
2024-11-05
推荐 | 中文文本标注工具Chinese-Annotator(转载)
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴. 本文分享一个中文文本标注工具Chinese-Annotator. https://github.com/crownpku/Chinese-Annotator 最前沿的 NLP 技术往往首先针对英文语料.英文 NLP 的生态很好,针对不同有意思的问题都有不少大规模语料公开供大家研究,
优质中文NLP资源集合,做项目一定用得到!
今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks. 项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作:兴趣包括:语言资源构建.信息抽取与知识图谱.舆情分析等.喜欢分享一些小知识,设有知乎专栏<机器学习小知识> 作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新.项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如
最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】
“最近刚好在用ERNIE写毕业论文” “感觉还挺厉害的” “为什么叫ERNIE啊,这名字有什么深意吗?” “我想让艾尼帮我写作业” 看了上面火热的讨论,你一定很好奇“艾尼”.“ERNIE”到底是个啥? 自然语言处理( Natural Language Processing,简称NLP )被誉为人工智能“皇冠上的明珠”.NLP为各类企业及开发者提供用于文本分析及挖掘的核心工具,已经广泛应用在电商.文化娱乐.金融.物流等行业客户的多项业务中. 而艾尼(ERNIE),可谓是目前NLP领域的最强中文预训
最全的中文NLP资源库,你确定不来看一下吗?
最全的中文NLP资源库,你确定不来看一下吗? 22/100 发布文章 qq_39248703 hello,小伙伴们大家好,今天给大家分享NLP资源库,可以说是最全的资源库了,很多包非常有趣,值得收藏,满足大家的收集癖! 由于项目资源太多,这里就不给大家一一截图了,大家可以下载,使用一下. 项目地址:https://github.com/fighting41love/funNLP?utm_source=gold_browser_extension 有兴趣的小伙伴可以下载尝试应用一下,如果在使用期间
NLP标注工具brat 配置文件说明
快速搭建brat 通过docker: docker run --name=brat -d -p 38080:80 -e BRAT_USERNAME=brat -e BRAT_PASSWORD=brat -e BRAT_EMAIL=brat@example.com cassj/brat 启动会拉取镜像,耐心等待,然后打开IP:38080,使用brat,brat登录 braf 的四类配置文件 the configuration of an annotation project is controll
python 绘制对象检测框及中文信息标注
# 坐标顺序: 上->左->下->右 def draw_bounding_box_on_image(image, ymin, xmin, ymax, xmax, color='red', thickness=4, display_str_list=(), use_normalized_coordinates=True): """ Args: image: a cv2 object. ymin: ymin of bounding box. xmin: xmin
NLP入门(七)中文预处理之繁简体转换及获取拼音
在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现. 首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可: langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py zh_wiki.py 地址:https://raw.githubusercontent.com/skyd
ArcGIS Server 10.2 实战(三)图层标注及图例中文显示乱码的解决
发布的图层中不可避免的使用到中文来标注,默认设置下,ArcGIS Server不支持中文的,中文标注显示成乱码,主要是编码的问题,需要把手动把编码改为UTF-8. ArcGIS Server 10.2 如下解决: 在服务器端,ArcGIS Server目录下面: C:\Program Files\ArcGIS\Server\framework\runtime\tomcat\conf\server.xml 修改Connetcor标签,加上URIEncoding="UTF-8",如, &l
NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~
~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理.利用该工具可以方便的获得各项NLP任务需要的标注语料.以下是利用该工具进行命名实体识别任务的标注例子. WeTest舆情团队在使用:http://wetest.qq.com/bee/ 使用案例:http://blog.csdn.net/oweng
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述.关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理.(本文原创,转载注明出处:十分钟学习自然语言处理概述 ) 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘的准备工作由文本收集.文本分
【NLP】蓦然回首:谈谈学习模型的评估系列文章(一)
统计角度窥视模型概念 作者:白宁超 2016年7月18日17:18:43 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量.于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间.本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用.本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好.第二章采用基于数据挖
【NLP】大数据之行,始于足下:谈谈语料库知多少
大数据之行,始于足下:谈谈语料库知多少 作者:白宁超 2016年7月20日13:47:51 摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘.文本处理.自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义.那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关.本文笔者带你走进语料库的世界,在随后模型构建过程避免一些
开源中文分词工具探析(五):FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一):ICTCLAS (NLPIR) 中文分词工具探析(二):Jieba 中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 1. 前言 类似于THULAC,FNLP也是采用线性模型(linear model)作为基础分词模型.与对数线性模型
NLP系列(5)_从朴素贝叶斯到N-gram语言模型
作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50646528 http://blog.csdn.net/han_xiaoyang/article/details/50646667 声明:版权所有,转载请联系作者并注明出处 1. 引言:朴素贝叶斯的局限性 我们在之前文章<NLP系列(2)_用朴素贝叶斯进行文本分类(上)>探讨过,朴素贝叶斯的局限性来源于其条件独
NLP入门(六)pyltp的介绍与使用
pyltp的简介 语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等. pyltp 是 LTP 的 Python 封装,同时支持Python2和Python3版本.Python3的安装方法为: pip3 install pyltp 官网下载网址:https://pypi.org/project/pyltp/0.1.7/ 官方使用说明文档
自然语言处理(NLP)知识结构总结
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正.内容来源主要参考黄志洪老师的自然语言处理课程.主要参考书为宗成庆老师的<统计自然语言处理>,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载: http://github.com/lovesoft5/ml 下面直接开始正文: 一.自然语言处理概述
【NLP】揭秘马尔可夫模型神秘面纱系列文章(一)
初识马尔可夫和马尔可夫链 作者:白宁超 2016年7月10日20:34:20 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下:第一篇对马
【NLP】揭秘马尔可夫模型神秘面纱系列文章(二)
马尔可夫模型与隐马尔可夫模型 作者:白宁超 2016年7月11日15:31:11 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下:第一篇
【NLP】揭秘马尔可夫模型神秘面纱系列文章(三)
向前算法解决隐马尔可夫模型似然度问题 作者:白宁超 2016年7月11日22:54:57 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.本文写作思路如下
【NLP】揭秘马尔可夫模型神秘面纱系列文章(四)
维特比算法解决隐马尔可夫模型解码问题(中文句法标注) 作者:白宁超 2016年7月12日14:08:28 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处.马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注.语音识别.句子切分.字素音位转换.局部句法剖析.语块分析.命名实体识别.信息抽取等.另外广泛应用于自然科学.工程技术.生物科技.公用事业.信道编码等多个领域.
热门专题
windoes 恢复bin_log
kali启动burp
java try catch 如何将异常日志打印出来
Java中的Set、List、Map
tomcat8配置用户密码
开发人员工具栏怎样把模式改ie8
背景图片根据父级大小自适应
ditto的复制缓冲区
opengl 相机漫游
jmeter jdbc sql有红色阴影
eclipse tomcat 无法Add project
robotframework 两个控件xpath相同
docker 已有容器 duankouyingshe
jq事件处理机制笔记
制作一个.net core 3.1 基础镜像
以NodePort方式配置Ingress端口
mac 设置 vscode home end
spring里面的readOnly
给sql server数据库分配一个用户名 密码
如何将war项目部署到 linuxTomcat