NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~
~~因为不太会使用opencv、matlab工具,所以在找一些比较简单的工具。
.
.
一、NLP标注工具BRAT
BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。
WeTest舆情团队在使用:http://wetest.qq.com/bee/
使用案例:http://blog.csdn.net/owengbs/article/details/49780225
.
.
二、VS标注工具——LabelImg
1、PyQt
用 PyQt 写的, 很轻量, Linux/macOS/Windows 全平台均可运行.
工具github网址:https://github.com/tzutalin/labelImg
知乎介绍网址:有图像标注工具推荐或者分享吗?
2、Vatic
视频标注工具vatic,Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频,支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。
网址:http://web.mit.edu/vondrick/vatic/
.
.
三、Amazon’s Mechanical Turk 离线工作框架
一个开源的Amazon’s Mechanical Turk 离线工作框架,基于Django搭建的
github网址:https://github.com/hltcoe/turkle
.
.
四、用已训练来进行图像标注
《使用深度学习和Fisher向量进行图片标注》(paper)
主讲人Lior Wolf,特拉维夫大学的教员在一次伦敦深度学习会议上的一次公开演讲:
为了实现图像标注和搜索,他们最开始用CNNs将图片转换成向量,用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中,由此产生了基于Fisher向量的模型。一旦他们得到了语句向量,他们使用典型相关分析(CCA)将图片表示和语句表示投射到同一空间里,使图像和句子可以匹配,找到最近邻的部分。
参考自博客:2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享
.
.
五、国内一些众包的数据标注服务商
1、敲宝网——众包
里面确实有一些图像分类、图像标注的任务。但是也不是很多。
2、小鱼儿网
我的技能时间交易平台小鱼儿网成立最晚,但却走了最具互联网思维的盈利之路,增值服务盈利,平台在整个过程交易中不收取费用,提供大数据分析,筛选服务者等增值服务,主动权完全交给用户,互联网时代,流量为王,用户为王,小鱼儿网的盈利模式无疑向这个宗旨贴近的,长期来看,这种盈利模式或许最聪明。
挺大的,但是没有看到有图像的任务。
3、威客-创意,一品威客网
中国最专业威客网站一品威客网借鉴了猪八戒盈利模式的短板,对用户划分普通用户和vip用户,对普通用户实行免费,对VIP用户收取会员费,在互联网时代,有效的笼络住了大批用户的心,不失为一种好的盈利模式。
国内最大的众包了吧,但是图像标识项目很少,商家也几乎没有看到..
4、数据堂
确确实实有数据标注,而且有文本、语音、图片采集项目。
5、百度众包
里面有很多任务与案例,文本、语音、图片都有。
6、阿里众包
图像采集任务?
.
.
六、图像数据集
1、LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。
地址:http://lsun.cs.princeton.edu/2016/
2、PASCAL VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。
NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~的更多相关文章
- 深度学习图像标注工具VGG Image Annotator (VIA)使用教程
VGG Image Annotator (VIA)是一款开源的图像标注工具,由Visual Geometry Group开发. 可以在线和离线使用,可标注矩形.圆.椭圆.多边形.点和线.标注完成后,可 ...
- NLP与深度学习(一)NLP任务流程
1. 自然语言处理简介 根据工业界的估计,仅有21% 的数据是以结构化的形式展现的[1].在日常生活中,大量的数据是以文本.语音的方式产生(例如短信.微博.录音.聊天记录等等),这种方式是高度无结构化 ...
- 在NLP中深度学习模型何时需要树形结构?
在NLP中深度学习模型何时需要树形结构? 前段时间阅读了Jiwei Li等人[1]在EMNLP2015上发表的论文<When Are Tree Structures Necessary for ...
- 『深度应用』NLP机器翻译深度学习实战课程·壹(RNN base)
深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内容:(更新 ...
- 深度学习数据集MNIST ImageNet COCO PASCAL VOC介绍
参考文档 深度学习数据集汇总介绍 1. MNIST 深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本 ...
- NLP与深度学习(四)Transformer模型
1. Transformer模型 在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]. ...
- NLP与深度学习(五)BERT预训练模型
1. BERT简介 Transformer架构的出现,是NLP界的一个重要的里程碑.它激发了很多基于此架构的模型,其中一个非常重要的模型就是BERT. BERT的全称是Bidirectional En ...
- 『深度应用』NLP机器翻译深度学习实战课程·零(基础概念)
0.前言 深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内 ...
- 深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类 深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
随机推荐
- [DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集 对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...
- 我是如何让minio client上传速度提高几十倍的
minio java client 使用okhttp作为底层的http实现,在产品包里面局域网上传文件的速度一直只有400~800KB/s,经过一天排查发现是-Djava.compile=none禁用 ...
- elasticsearch的percolator操作
es的普通查询是通过某些条件来查询满足的文档,percolator则不同,先是注册一些条件,然后查询一条文档是否满足其中的某些条件. es的percolator特性在数据分类.数据路由.事件监控和预警 ...
- NOIP2016提高组初赛(C++语言)试题 个人的胡乱分析 Part 3.
*已更新 胡乱分析的第三部分,程序填空(所谓的完善程序) 说到初赛,好像本周六就是了.哇好激动.. 填空题都是玄学.也许get到点了就会好做一些.. (标红的是填在空里的答案) T1.交朋友 (小矮个 ...
- bzoj 1598: [Usaco2008 Mar]牛跑步 [k短路 A*] [学习笔记]
1598: [Usaco2008 Mar]牛跑步 题意:k短路 ~~貌似A*的题目除了x数码就是k短路~~ \[ f(x) = g(x) + h(x) \] \(g(x)\)为到达当前状态实际代价,\ ...
- linux目录结构 简单讲解
1./- 根每一个文件和目录从根目录开始.只有root用户具有该目录下的写权限.请注意,/root是root用户的主目录,这与/.不一样 2./bin中 - 用户二进制文件包含二进制可执行文件.在单用 ...
- ajax调用handler,使用HttpWebRequest访问WCF服务
引言 随着手机及移动设备的普及,移动端的应用也进入了热潮.以前PC端的门户网站,大多也均推出了适配移动设备的网站或者APP,再差的也注册了个公众号.在移动应用开发中,目前据我所了解到的解决方案有:1. ...
- HTTPS的原理解析
http://www.cnblogs.com/alisecurity/p/5939336.html 外加文档
- Centos7新功能
Centos7 单用户模式 centos7里不再有0-6启动级别,而是4个target graphical.target 多人模式,支持图形和命令行两种登录,对应之前的3,5级别 mul ...
- MTU介绍以及在windows和linux下怎么设置MTU值
最大传输单元MTU(Maximum Transmission Unit,MTU)是指一种通信协议的某一层上面所能通过的最大数据包大小(以字节为单位).最大传输单元这个参数通常与通信接口有关(网络接口卡 ...