大数据的傲慢与偏见— 读后心得

数据模型研究者必看的书

书本简介

书名:大数据的傲慢与偏见

原书名:Weapons of Math Destruction

作者:Cathy O'Neil

译者:许瑞宋

出版社:大写出版

 

内容简介

作者自哈佛大学取得数学博士学位,曾在金融界及新创企业担任数据科学家,他以此书警告世界:「数据不缺推崇者,但我不是。甚至我称它是这个世代的『数学毁灭性武器』」。


为什么模型会是「数学毁灭性武器」?

这里的模型不仅限于由机器学习产生出来的模型,还包括各样的公式以及演算法,甚至包含一个人决定等等晚餐要吃什么的「思路模型」

在这资讯量爆炸且传递与处理皆快速的时代,各大企业及政府可以轻易地收集到关于人们的各种资料,包括学生的升学考试成绩、每个人的收支状况、棒球队球员的打击率、通讯软体用户的心情……等。模型的使用可以提高人们处理事务的效率。例如自动履历筛选系统可以为人资人员从一千份履历中剔除掉五百份不适任的履历。但自动履历筛选系统的机制往往使得穷人、被歧视的族群难以找到工作,甚至找不到工作。

并非所有的模型都是「数学毁灭性武器」,例如以机器学习的方式判断恶性肿瘤,或是依场合决定穿着的思路,都不是「数学毁灭性武器」。作者认为模型要成为「数学毁灭性武器」有三个要素:

  1. 不透明
  2. 大规模应用
  3. 会造成伤害

接下来是作者举出的实例,穿插我个人的看法,没有特别说明的话,例子即是发生在美国。


模型中的偏见产生不公平

模型的产生大多数皆由大量的资料,或是现有的公式组成。资料与公式的正确性就相当重要,如果资料或是公式不正确,模型也必定不正确。在注意资料正确性的同时,常常忽略资料中往往含有历史性的偏见。

作者提到了几个例子,例如上段提到的自动履历筛选系统。这类系统通常以现在正在任职的员工表现,或是过去面试官筛选的结果作为数据来源,但现在的社会状态往往是歧视与偏见的结果,造成某些性别或种族有更高的机率被系统剔除。

犯罪预测模型的重要数据来源之一,是过去发生犯罪资料,此类模型的预测结果常落在过去常发生犯罪事件的地区,因此警方也会针对该地区加强执法。乍看之下没什么问题,但过去常犯罪的地区通常是较贫困的地区(金融型犯罪并非通过一般训练的警察有办法执法的,也较容易被忽略),一但加强执法,会多发现一些携带毒品的毒品使用者,或是非法拥有枪枝的人,此结果会回馈到系统中,让警方觉得此系统有效,又更加强针对贫困地区执法。

美国司法有使用再犯预测模型,来评估罪犯的再犯机率,有些州的法官会参考模型提供的机率来决定罪犯的刑期。但有力的研究指出,在狱中的时间越久,再犯的机率越高。因此模型产生了恶性的回馈,让原先被歧视或是犯罪率较高的族群,面临更高的惩罚,这样的惩罚是瞄准了整个族群,而不是单一个人。

有些人会疑问,即便不依赖模型,人类本来就有偏见。作者表示,人类的偏见不是稳定的,同时影响的范围也小,今天一位受试者被面试官歧视,而不录取,他依然有机会在别的企业遇到不歧视的面试官。模型的大规模应用与此不同,被模型歧视的面试者到了下一间企业,依然会被歧视。


提高效率与准确性,却失去正义

在这资本主义当道的世界,一些大型的服务业企业开始使用人潮预测系统,以天气、车流量、行人数量等等预测未来的顾客数,以避免服务人员上班空闲没事做,或是客人太多,服务员却不够的情况,进而减少人事支出。为了准确性与效率,不可以让模型预测过长时间以后的顾客状况,导致服务员常常在数天前被告知班表变动,而必须仓促的安排托儿、交通工具,或是调整个人规划,而这些人大多都是只能领基本时薪的低受薪阶级。

在保险的制度上,为了营利目的,保险业者会收集各式各样的数据,将原先由族群划分保费的方式(例如年轻男性的汽车保险费比其他族群高),进一步推进到个人,由一个人各式各样的资料,如由记录器收集的驾驶状态,甚至是一些替代指标,如财务状况、消费状况等,来决定一个人的保费。如此一来就完全失去包险原先由群体为群体中个体分担风险的目的,变成每个投保人,只是单纯为自己未来可能发生的灾难支付「预付款」。

随着模型可以处理更精准的预测,从预测某班次的顾客人数,到预测某小时的顾客人数;从预测群体的风险,到预测个人的风险,正义被侵害的程度就越大。这类侵害中大多数的受害者都是社会底层的人,但也有群不人都受害的状况,像是保险制度,所有人都是受害者。与这一节相比,下一节所提的影响更广泛。


大规模的模型应用影响民主

随着网路的普及,以及网路中心化,各大资料收集企业,例如Google、Facebook,大规模地使用模型,为使用者筛去其不感兴趣的资讯,也为使用者筛选出其有兴趣的广告。看似产生了双赢的局面,但实际上有很大的隐忧。

Google和Facebook皆做过操作选情的实验。Facebook曾在某个选举日提供使用者在板上表示自己已经完成投票,并将使用者分成两群,一群会看到朋友发文表示已投票,另一群则不会看到。结果显示看得到朋友的已投票讯息的那群使用者,有较高的投票率。Google则是在选举前,筛选网页搜寻的结果,让使用者只看到某个政治倾向的文章,结果影响了约20%的选票。

藉由拥有庞大的使用者资料,上面的操作可以做到相当「客制化」。例如我在乎机车路权的议题,有心者就可以针对我在乎的议题进行操作,来改变我的政治偏好。当然Google和Facebook并不会做这样的事,但其他人或企业依然可以透过精准投放广告,来达到操作民意的目标,且精准度远超过传统媒体播送。

结语

除了我上述提到的例子,书中还有非常多模型成为「数学毁灭性武器」的案例。依照现在资讯科技的发展,似乎这一切都无法避免,人类终将被自己产生的模型毁灭。作者认为还不到这么悲观,人类还是可以藉由社会的力量阻止灾难继续扩大。首先透过政府立法,严格限制模型的运作方式,再来要求模型创造者自我约束,将道德意识放入模型中。甚至应该要像面对复制人议题一样,建立国际皆应遵守的伦理,确保数学模型不会成为毁灭性武器。

最后,我认为所有运用数据、数学建立模型的人,包括资料探勘领域、机器学习领域,甚至是社交软体业、金融业,都应该阅读这本书。这本书有如当头棒喝,让我们意识到模型可能带来灾难,而唯有意识到自己正在产生的模型可能成为武器,才能着手去避免

Big Data Hubris:"大数据傲慢"问题的更多相关文章

  1. Data - 关于大数据

    历史与趋势 大数据的前世今生:诞生.发展.未来? 如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析 10大行业大数据应用痛点及解决策略 大数据凉了?不,流式计算浪潮才刚刚开始 概念与定义 关 ...

  2. 大数据 Big Data howto

    The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collabo ...

  3. Data - 大数据分析学习之路

    一.大数据分析的五个基本方面 可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非 ...

  4. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

    时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的 ...

  5. 大数据 Hadoop,Spark和Storm

    大数据(Big Data)   大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复 ...

  6. 从大数据到快数据 数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!

    8月17日,以“数据驱动,智创未来”为主题的2019 CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)全球启动仪式,在北京大学正 ...

  7. 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析

    1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...

  8. Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

    牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践 我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践 ...

  9. 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

随机推荐

  1. 团队第六次作业:Beta版本冲刺成绩汇总

    一.作业题目 团队第六次作业:Beta版本冲刺 二.作业评分标准 博客评分规则(总分100)博客要求 1.冲刺博客每篇占20分.(3次) - (1) 各成员该天完成的工作,以及明天的任务安排(表格的形 ...

  2. vector中erase()与insert()用法

    erase()用法:https://blog.csdn.net/duan19920101/article/details/50717748 注:erase是删除指定位置的元素,不能删除给定元素值.若要 ...

  3. Git的小疑惑

    ①怎么理解Git clone ssh://...git     和 Git remote add [shortname] [url]:Git fetch [shorename];的区别:为什么已经把远 ...

  4. macOS Catalina 的zsh升级

    MacOS最近做了一个大版本升级,这次升级中对开发者有个很大的更新是,模式的shell变成了zsh,官方提供了升级配置文档:https://support.apple.com/zh-cn/HT2080 ...

  5. KITTI数据集

    目的 使用雷达点云提供的深度信息 如何实现 将雷达的三维点云投影到相机的二维图像上 kitti数据集简介 kitti的数据采集平台,配置有四个摄像机和一个激光雷达,四个摄像机中有两个灰度摄像机,两个彩 ...

  6. Spring Cloud微服务安全实战_3-4_API安全机制之认证

     认证:登录和认证是 两个概念,比如你两周.一个月,可能只登录了一次,但认证却是每次访问都要经过的步骤. 对于图中的认证不成功,也要继续处理,这个我觉得得看业务,比如管理系统,不登录就不让你访问,但对 ...

  7. spark基础知识二

    主要围绕spark的底层核心抽象RDD进行理解.主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子 ...

  8. VueCli3新特性

    升级VueCli3的理由: 1.构建速度大大加快,之前看到一个升级的例子是2的3倍速度,具体可以在自己迁移一个项 目测试下,这里的优化有默认开启了多核构建.缓存 并行和缓存 2.webpack被内置到 ...

  9. 趣谈Linux操作系统学习笔记:第二十七讲

    一.文件系统的功能规划 1.引子 咱们花了这么长的时间,规划了会议室管理系统,这样多个项目执行的时候,隔离性可以得到保证. 但是,会议室里面被回收,会议室里面的资料就丢失了.有一些资料我们希望项目结束 ...

  10. 09-排序2 Insert or Merge (25 分)

    According to Wikipedia: Insertion sort iterates, consuming one input element each repetition, and gr ...