5.2自然语言处理

觉得有用的话,欢迎一起讨论相互学习~Follow Me

2.10词嵌入除偏 Debiasing word embeddings

Bolukbasi T, Chang K W, Zou J, et al. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings[J]. 2016.

  • 机器学习和人工智能算法正渐渐被信任用以辅助或是制定极其重要的决策,所以要确保人工智能系统不受非预期形式的偏见影响--比如说 性别歧视,种族歧视 本节将介绍在词嵌入技术中减少或消除这些形式的偏见的方法。

The problem of bias in word embeddings 词嵌入中的偏见问题

  • 示例 当使用词嵌入系统做语言推断时:假如Man对应Woman,则King对应Queen.这是正确而显而易见的,但是当对系统输入Man对应Computer Programmer(程序员)时,系统对应的Woman显示为Homemaker(家庭主妇)--这涉及到 性别歧视 的问题。当Father对应Doctor时,Mother对应Nurse--这也是不对的。

  • 因此,根据训练模型时使用的文本,词嵌入能够反映出性别,种族,年龄,性取向等其他方面的偏见。 由于机器学习人工智能正对人们的生活发挥着越来越重要的作用 所以修改这种 误差 至关重要。

Addressing bias in word embeddings

  • 辨别出我们想要减少或想要消除的特定偏见的趋势,此处以 性别歧视 作为研究示例
  1. 首先将 性别相反的词嵌入向量的差求平均 即: \(Average((e_{he}-e_{she})+(e_{male}-e_{female})+(e_{boy}-e_{girl})+...)\) 得以求出一个 偏见趋势 --这个偏见趋势有可能是1维的也可能是更高维度的向量。而其余的维度则可以被认为是 无偏见趋势
  • Note 在原论文中相对于此处使用的求平均值的算法,论文中使用的是更加复杂的算法--SUV奇异值分解
  1. 中和步(Neutralize) 对于那些定义不确切的词可以适当的处理以避免偏见,有些词语本质上就和性别有关 mother 和 father ,然而有些词汇例如 doctor 和 babysitter 在性别方向是中立的。 对于这些定义中立的词语,我们选择在 无偏见趋势 的轴方向上进行处理,以减少在 偏见趋势 方向上的差距。

  1. 均衡步(Equalize pairs) 对于 偏见词对 例如 father 和 mather , boy 和 girl , 希望 偏见词对babysitter 和 doctor 类型的词汇的影响相等,即将 偏见词对无偏见趋势 相靠拢,使到 babysitter 这种中性词的距离相等。

  • Note 怎样判断一个词汇是中性的, 类似于 beard(胡子) 这个词应该更靠近男性(male)一些。

    • 论文作者 通过训练一个分类器来尝试解决哪些词是有明确定义的,哪些词是性别确定的,哪些词不是。
  • Note 在实际使用中,需要平衡的 偏见词对 数其实并不多。

[DeeplearningAI笔记]序列模型2.10词嵌入除偏的更多相关文章

  1. [DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding

    5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示词汇 ...

  2. [DeeplearningAI笔记]序列模型2.3-2.5余弦相似度/嵌入矩阵/学习词嵌入

    5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3词嵌入的特性 properties of word embedding Mikolov T, Yih W T, Zwe ...

  3. [DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述 对于音频片段(audio clip)x ,y生成文本 ...

  4. [DeeplearningAI笔记]序列模型2.8 GloVe词向量

    5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.8 GloVe word vectors GloVe词向量 Pennington J, Socher R, Mannin ...

  5. [DeeplearningAI笔记]序列模型3.3集束搜索

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一 ...

  6. [DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN

    5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...

  7. [DeeplearningAI笔记]序列模型3.7-3.8注意力模型

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...

  8. [DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决 ...

  9. [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...

随机推荐

  1. emmmmmm

    211606342杨艺勇 211606379王熙航 单元测试 对每一个代码块进行测试,返回测试结果并和预期结果进行比对 对源代码进行相应的重构,以适应测试代码的调用,且不影响源代码的正常运行 通过与构 ...

  2. 《linux内核分析》 第二周

    20135130 王川东 计算机三个“法宝”:存储程序计算机.函数调用堆栈和中断机制 深入理解函数调用堆栈: 堆栈是C语言运行时必须的一个记录调用路径和参数的空间: 作用包括: 函数调用框架: 保存参 ...

  3. Beta版软件使用说明

    1引言 1 .1编写目的 编写本使用说明的目的是充分叙述本软件所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,并为软件的维护和更新提供必要的信息. 1 .2参考资料 1 .3术语 ...

  4. Jmeter 快速入门--初识线程组

    添加线程组 (1)thread group(线程组),setup thread group相当于lr初始化“环境”的初始化脚本,teardown thread group相当于lr测试完毕后对应的清除 ...

  5. Charles安装及使用教程

    一. 简介及安装 一.charles的使用 1.1  charles的说明 Charles其实是一款代理服务器,通过过将自己设置成系统(电脑或者浏览器)的网络访问代理服务器,然后截取请求和请求结果达到 ...

  6. [Google] 看雪论坛: 安卓碎片化的情况

    2018年10月28日早间消息,谷歌方面发布了Android各版本的最新份额数据,截止到10月26日.即便是已经推出3个月了,Android 9 Pie系统的用户数仍旧没有超过0.1%,导致未出现在榜 ...

  7. Mac 常用快捷键整理

    Mac下常用的快捷键: Command+W 将当前窗口关闭(可以关闭Safari标签栏,很实用) Command+Option+M 将所有窗口最小化 Command+Q 关闭当前应用程序(相当于Doc ...

  8. 【数据库】SQL分组多列统计(GROUP BY后按条件分列统计)

    select whbmbh ,zt,1 as tjsl from fyxx group by zt,whbmbh select whbmbh,sum(case zt when '有效' then 1 ...

  9. AtCoder Regular Contest 076E Coneected?

    题意 给出一个矩形区域和上面的m对整点,要求在矩形区域内画m条互不相交的线(可以是曲线)分别把m对点连接起来.只需要输出能不能做到. 分析 假设我们已经画了一条线.因为在这个题中有用的是平面区域之间的 ...

  10. 【bzoj4321】queue2 dp

    题目描述 n 个沙茶,被编号 1~n.排完队之后,每个沙茶希望,自己的相邻的两人只要无一个人的编号和自己的编号相差为 1(+1 或-1)就行:  现在想知道,存在多少方案满足沙茶们如此不苛刻的条件.  ...