心理健康数据集:mental_health_chatbot_dataset
一.数据集描述
1.数据集摘要
该数据集包含与心理健康相关的问题和答案的对话对,以单一文本形式呈现。数据集是从流行的医疗博客(如WebMD、Mayo Clinic和HealthLine)、在线常见问题等来源精选而来的。所有问题和答案都经过匿名化处理,以删除任何个人身份信息(PII),并经过预处理以删除任何不必要的字符。
2.语言
数据集中的文本是英文。
二.数据集结构
1.数据实例
一个数据实例包括一个文本列,其中包含了患者和医疗提供者之间的问题和答案的对话。问题是由患者提出的,答案是由医疗提供者提供的。如下所示:
"<HUMAN>: What is a panic attack? <ASSISTANT>: Panic attacks come on suddenly and involve intense and often overwhelming fear. They’re accompanied by very challenging physical symptoms, like a racing heartbeat, shortness of breath, or nausea. Unexpected panic attacks occur without an obvious cause. Expected panic attacks are cued by external stressors, like phobias. Panic attacks can happen to anyone, but having more than one may be a sign of panic disorder, a mental health condition characterized by sudden and repeated panic attacks."
翻译中文,如下所示:
"<HUMAN>: 什么是惊恐发作? <ASSISTANT>: 惊恐发作突然发作,伴随着强烈且常常不可抑制的恐惧。它们伴随着非常具有挑战性的身体症状,如心跳加快、呼吸急促或恶心。突发的惊恐发作没有明显的原因。而预期的惊恐发作是由外部应激因素引起的,比如恐惧症。惊恐发作可能会发生在任何人身上,但多次经历可能是惊恐症的迹象,这是一种以突然和反复的惊恐发作为特征的心理健康状况。"
2.数据字段
'text':患者和医疗提供者之间的问题和答案的对话。
三.数据集创建
1.策展理由
聊天机器人为寻求支持的个人提供了一个随时可用且易于访问的平台。它们可以随时随地访问,为需要帮助的人提供即时支持。聊天机器人可以提供共情和非判断性的回应,为用户提供情感支持。虽然它们无法完全替代人际互动,但它们可以是一个有用的补充,尤其是在困难时刻。因此,这个数据集被策划出来,以帮助使用这个自定义数据集微调会话式AI聊天机器人,然后可以部署并提供给最终患者作为聊天机器人。
2.数据源
该数据集是从流行的医疗博客(如WebMD、Mayo Clinic和HealthLine)、在线常见问题等来源策划而来的。
3.个人和敏感信息
该数据集可能包含与心理健康相关的敏感信息。所有问题和答案都经过匿名化处理,以删除任何个人身份信息。
参考文献:
[1]mental_health_chatbot_dataset:https://huggingface.co/datasets/heliosbrahma/mental_health_chatbot_dataset
[2]https://github.com/iamarunbrahma/finetuned-qlora-falcon7b-medical
[3]Fine-tuning of Falcon-7B Large Language Model using QLoRA on Mental Health Conversational Dataset:https://medium.com/@iamarunbrahma/fine-tuning-of-falcon-7b-large-language-model-using-qlora-on-mental-health-dataset-aa290eb6ec85
[4]train/loss for Falcon-7B PEFT model:https://wandb.ai/heliosbrahma/huggingface/reports/train-loss-for-Falcon-7B-PEFT-model--Vmlldzo1MDQxMDAy?accessToken=fi8s1lrhuwjlloumbxbmd3mm9h138nmu0b03szmir9fyqqs8wlev72878yd97ctn
心理健康数据集:mental_health_chatbot_dataset的更多相关文章
- SSD框架训练自己的数据集
SSD demo中详细介绍了如何在VOC数据集上使用SSD进行物体检测的训练和验证.本文介绍如何使用SSD实现对自己数据集的训练和验证过程,内容包括: 1 数据集的标注2 数据集的转换3 使用SSD如 ...
- HTML5 数据集属性dataset
有时候在HTML元素上绑定一些额外信息,特别是JS选取操作这些元素时特别有帮助.通常我们会使用getAttribute()和setAttribute()来读和写非标题属性的值.但为此付出的代价是文档将 ...
- 数据集偏斜 - class skew problem - 以SVM松弛变量为例
原文 接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C.回头看一眼引入了松弛变量以后的优化问题: 注意其中C的位置,也可以回想一下C所起的 ...
- Lind.DDD.ExpressionExtensions动态构建表达式树,实现对数据集的权限控制
回到目录 Lind.DDD框架里提出了对数据集的控制,某些权限的用户为某些表添加某些数据集的权限,具体实现是在一张表中存储用户ID,表名,检索字段,检索值和检索操作符,然后用户登陆后,通过自己权限来构 ...
- Lind.DDD.Caching分布式数据集缓存介绍
回到目录 戏说当年 大叔原创的分布式数据集缓存在之前的企业级框架里介绍过,大家可以关注<我心中的核心组件(可插拔的AOP)~第二回 缓存拦截器>,而今天主要对Lind.DDD.Cachin ...
- 数据集转换为Json
数据集转换为Json 第一步:新建一个类对象 通常我会写三个属性:状态.返回信息.数据集 第二步:新建一个JSON转换类 第三步:把类对象当做参数传入JSON转换类 ———————————————— ...
- IRIS数据集的分析-数据挖掘和python入门-零门槛
所有内容都在python源码和注释里,可运行! ########################### #说明: # 撰写本文的原因是,笔者在研究博文“http://python.jobbole.co ...
- fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups
最简单的办法 下载'20news-bydate.pkz', 放到C:\\Users\[Current user]\scikit_learn_data 下边就行. 实际上 scikit learning ...
- Fast RCNN 训练自己的数据集(3训练和检测)
转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang-loves-baiyan/ https://github.com/YihangLou/fas ...
- Fast RCNN 训练自己数据集 (2修改数据读取接口)
Fast RCNN训练自己的数据集 (2修改读写接口) 转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang-loves-baiyan/ http ...
随机推荐
- buffer busy waits等待事件案例-vage
转自vage 讨厌香草冰激凌的汽车与Buffer busy wiats的故事 记得好几年前看到过一个故事,通用公司曾收到一客户的邮件,邮件中客户描述了一个非常奇怪的问题.他们家有晚饭后去 ...
- 01-spfile和pfile的区别,生成,加载和修复
oracle数据库的配置文件指的是系统在启动到"nomount"阶段需要加载的文件,也叫做pfile或者spfile,但是其实pfile和spfile是不同的文件. 不同的数据库配 ...
- 深入探讨I/O模型:Java中的阻塞和非阻塞和其他高级IO应用
引言 I/O(Input/Output)模型是计算机科学中的一个关键概念,它涉及到如何进行输入和输出操作,而这在计算机应用中是不可或缺的一部分.在不同的应用场景下,选择正确的I/O模型是至关重要的,因 ...
- java4.switch条件语句、循环结构
switch条件语句.循环结构 循环结构 while 1.先判断再执行代码 2.代码块至少执行0次 do-while- 1.先执行代码再执行判断 2.代码块至少执行1次 for 1.用于编写已知循环次 ...
- 【发布】DDD 工程脚手架 + 一键安装分布式技术栈环境!
作者:小傅哥 博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 大家好,我是技术UP主小傅哥. 写了那么多案例工程,开发了那么多技术项目.那小傅哥做的这些案例 ...
- decltype关键词
简述 decltype 是 C++11 新增的一个关键字,它和 auto 的功能一样,都用来在编译时期进行自动类型推导. decltype 是"declare type"的缩写,译 ...
- 4G打猎摄像机拆机分析
前言 收到一台4G打猎相机,官方外观及功能图片如下所示,现对该设备进行拆机及整体技术分析评估,看我们可以从中学习到什么. (一)什么是打猎相机 所谓打猎相机,也叫野外相机,专门用于野外观察和监测野生动 ...
- 用友NCC产品API使用指南
轻易云用友NCC产品API集成专题 open api简介 Open API即开放API,也称开放平台. 所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成 ...
- 【Javaweb】Servlet九 | base标签的作用【详细介绍】 Web路径相关知识
base标签的作用 导言:路径跳转 <a href="/a/b/c.html">这是a下的b下的c</a></br> <a href=&q ...
- AutoCAD ObjectARX 二次开发(2020版)--1,下载和部署开发环境--
教程说明: 本教程为2019年10月开始编撰,使用CAD官方最新版本的软件和库.对旧版本仍有参考价值. 本教程中使用的各种软件版本为官方指定匹配版本. 本教程需要你拥有编程基础,对于普通编程常识不再敷 ...