使用doccano标注NER数据详细教程
使用doccano标注NER数据详细教程
说明:
- 首次发表日期:2024-10-12
- 参考资料:
部署doccano
https://github.com/doccano/doccano 有说明如何部署。比如使用Docker部署:
docker run --name doccano \
-d --restart always \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8001:8000 doccano/doccano
创建用户
默认只有一个用户,我们需要打开ADMIN管理页面添加新的用户。
在主网址后加/admin/
然后打开ADMIN管理页面(注意后边的斜杠是必须的),点击Add
:
添加用户名和密码信息后,点击SAVE
以保存:
如何进行NER标注
创建项目
默认的界面是英语的,不习惯英语的话,可以切换为中文:
然后点击登录,输入用户名和密码登录,登录之后:
点击创建
,会跳转到以下页面:
点击以选择序列标注
(Sequence Labeling),然后输入名称等必要信息,根据需要配置其他属性:
点击创建
,跳转到以下页面:
导入数据集
单击左侧的数据集
按钮:
移动鼠标到操作
按钮:
点击导入数据集:
doccano
支持多种格式的文本,它们的区别如下:
Textfile
:上传的文件为txt
格式,打标时一整个txt
文件显示为一页内容;Textline
:上传的文件为txt
格式,打标时txt
文件的一行文字显示为一页内容;JSONL
:JSON Lines
的简写,每行是一个有效的JSON
值;CoNLL
:CoNLL
格式的文件,每行均带有一系列制表符分隔的单词;
上传一个TXT文件:
点击导入后:
定义标签
点击左侧的标签
,然后移动鼠标到操作
菜单后点击创建标签
:
创建3个常见的标签,PER
, LOC
, ORG
,实际应用中需要根据需求确定有哪些标签。以下以创建PER
标签为例:
创建完后:
添加成员
点击左侧的成员
按钮,然后点击增加
:
选择需要添加到项目的用户和角色,其中有3种角色(项目管理员 ,标注员,审查员)。选择好后保存:
保存后可以看到:
分配标注任务
首先,选中需要分配的数据:
然后,点击操作菜单下的Assign to member
:
选择分配方案,然后点击右侧的Assign
按钮
以上分配方案将15%的任务分配给admin
用户,85%的任务分配给user1
用户。
查看分配结果:
标注
点击左侧数据集
,然后选择一条数据,点击最右边的标注
按钮开始标注。
举例来说,点击右侧的PER
标签,然后鼠标分别选择文本中的对应文字:
标注完成后,点击文本左上角的X按钮表示已标注完成:
导出数据
点击左侧数据集
按钮,移动鼠标到操作
菜单,点击导出数据集
:
选择JSONL
格式,勾选Export only approved documents
(仅导出已审核过的数据),然后点击导出:
使用doccano标注NER数据详细教程的更多相关文章
- Java读取Excel指定列的数据详细教程和注意事项
本文使用jxl.jar工具类库实现读取Excel中指定列的数据. jxl.jar是通过java操作excel表格的工具类库,是由java语言开发而成的.这套API是纯Java的,并不依赖Windows ...
- Mysql统计每年每个月的数据——详细教程
Mysql统计每年每个月的数据(前端页面统计图实现) 最终想实现的效果图,在这里就不多废话了,直接上效果图,由于测试数据有几个月是为0的,所以数据图看着会有点怪怪. 接下来是数据库的两个表,这里直接给 ...
- git详细教程
Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 ...
- GitHub详细教程(转载)
1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 用户信息 1.3.2 高亮显示 1 ...
- GitHub详细教程
GitHub详细教程 Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 ...
- iptables详细教程:基础、架构、清空规则、追加规则、应用实例(转)
iptables防火墙可以用于创建过滤(filter)与NAT规则.所有Linux发行版都能使用iptables,因此理解如何配置iptables将会帮助你更有效地管理Linux防火墙.如果你是第一次 ...
- 【转载】GitHub详细教程
1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? Git是用C语言开发的分布版本控制系统.版本控制系统可以保留一个文件集合的历史记录,并能回滚文件集合到另一个状态(历 ...
- Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享) 常用的两款AI可视化交互应用比较: Gradio Gradio的优势在于易用性,代码结构相比Str ...
- jQuery插件开发详细教程
这篇文章主要介绍了jQuery插件开发详细教程,将概述jQuery插件开发的基本知识,最佳做法和常见的陷阱,需要的朋友可以参考下 扩展jQuery插件和方法的作用是非常强大的,它可以节省大量开发时间. ...
- WebRTC VideoEngine超详细教程(三)——集成X264编码和ffmpeg解码
转自:http://blog.csdn.net/nonmarking/article/details/47958395 本系列目前共三篇文章,后续还会更新 WebRTC VideoEngine超详细教 ...
随机推荐
- HP笔记本电脑——暗夜精灵2pro继电池鼓包后出现无法充电的问题,最后电量显示:0%可用(电源已接通,未充电)
问题如题,最近使用暗夜精灵2pro笔记本(自己17年5月1节日购买)使用了四年,使用了第二年的时候出现电池鼓包问题于是自己花了不到200元在某宝上购入电池进行替换同时更新bios,正常使用到今年8月2 ...
- java多线程之-CAS无锁-unsafe理解
1.背景 这一节我们来学习一下unsafe对象 2.案例 1.自定义一个获取unsafe对象的类 package com.ldp.demo07Unfase; import sun.misc.Unsaf ...
- 在lcd屏幕上的任意位置显示任意大小的图片
/************************************************* * * file name:ShowBmp2.c * author :momolyl@126.co ...
- linux中级——libcurl库访问百度
libcurl简介: libcurl是一个跨平台的网络协议库,支持http, https, ftp, gopher, telnet, dict, file, 和ldap 协议.libcurl同样支持H ...
- 【问答23】Linux移植:如何制作rootfs?
粉丝问题 如何制作rootfs? 安排! 想直奔主题的,直接跳到第四章. 一.分析 1. 文件系统简介 理论上说一个嵌入式设备如果内核能够运行起来,且不需要运行用户进程的话,是不需要文件系统的,文件系 ...
- 【CMake系列】08-debug release特性设置
在构建的程序版本中,一共有 debug release minisize relwithDebugInfo四种,其中我们主要使用到就是 debug release 两种,这两种存在着一定的不同,deb ...
- Docker简单使用总结
写在前面 最近在部署前后端分离的SpringBoot项目,发现使用Docker技术很方便,特此记录一下Docker常用命令 1.常用网站 Docker docs :https://docs.docke ...
- Microsoft Build 2023 After Party (Placeholder)
一年过去了,微软BUILD又回来了! https://build.microsoft.com/en-US/home This is a placeholder page for Microsoft B ...
- LaTeX 插入矢量图
首先将矢量图保存为 PDF 格式. 使用 pdfcrop 工具裁剪 PDF 页面空白: pdfcrop <input.pdf> [output.pdf] 在 .tex 文件中使用 grap ...
- LaTeX 几种中文字体的比较
根据自己的喜好给常见的几个中文字体的打分: 字体选项 字体名 得分 adobe Adobe 宋体 Std 5 fandol FandolSong 0 founder 方正书宋_GBK 10 hanyi ...