2017数据科学报告：机器学习工程师年薪最高，Python最常用

2017-11-03 11:05

数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告，针对最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等进行深度调查。此次调查共收到16000余份回复。

以下「AI脑力波」小编对该报告数据进行了梳理编译，供大家参考。

年龄

从全球范围来看，本次调查对象的平均年龄在30岁左右。在不同的国家，数值会有所差异，加拿大接受问卷调查的平均年龄为34岁，而中国的机器学习从业者年龄的中位数是25岁。

工作状态

全球全职工作者为 65.7% ，其中中国为 53.% ，美国占比较高，达70.9%。

职位

数据科学领域可涵盖的工作非常多，包括机器学习工程师、数据分析师、数据科学家、软件开发人员、数据挖掘人员等。其中，数据科学家人数占比最高，达24.4%。软件开发人员/工程师位居第二，但人数仅占12.3%，数据分析师紧跟其后，以11.3%位列第三。

年薪

从全球来看，人们普遍认为“职业进修机会”比“薪酬福利”要更重要一些。数据科学人员的年薪中位数为$55,441。在中国，数据科学家的年薪中位数为$29，835。美国则高达$110，000。

最高学历

通常来讲，数据科学从业者中最普遍的学历是硕士，但一般来讲，博士学位能拿到（$150K - $200K 和 $200k+）高薪。

就中国而言，硕士学位在总体占比为40.5%，博士仅11.2%，本科学位从业人数则高达39.5%，与硕士从业人数持平。

而美国，硕士学位只有44.5%，博士学位高达20.7%，本科从业者占比也高达26.5%。

数据科学研究方法

在军事和国安领域外，Logistic回归是最常用的数据科学研究方法。在军事和国防安全领域，神经网络被使用更多。

在工具语言使用方面，Python是数据科学家使用最多的语言。同时，统计学家对 R 语言的忠诚度很高。

关系型数据是最常用的数据类型，学术研究者和国防安全领域则更亲睐文本和图像。

Git 是他们最常用的代码共享和托管方式。

Dirty Data （脏数据）是从业者遇到的最大障碍。此外，理解不同算法的能力不够也是困扰数据工作者的一大障碍。缺乏有效管理和资金支持，是面临的两大外在困境。

有趣的是，只使用 Python 或只使用 R 的都觉得他们做出了正确的选择。但是，如果你去询问那些既使用 Python 也使用 R 的人，推荐使用 Python 的可能会是 R 的两倍。

数据科学是个变化极快的领域，业内人员需要不断更新知识体系，才可以在业内保持一定地位，不被时代淘汰。Stack Overflow Q&A、Conferences 和 Podcasts 是已从业者经常使用的学习平台。

开放型数据源

没有数据就没有数据科学。因此，数据科学家了解如何才能找到干净的开放型数据，用于实践和项目十分重要。据调查显示，数据聚合平台是人们最常用获取数据的途径，其次是谷歌。

（以上图片全部来自：https://www.kaggle.com/surveys/2017）

2017数据科学报告：机器学习工程师年薪最高，Python最常用的更多相关文章

（数据科学学习手札50）基于Python的网络数据采集-selenium篇（上）
一.简介接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
（数据科学学习手札47）基于Python的网络数据采集实战（2）
一.简介马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
（数据科学学习手札80）用Python编写小工具下载OSM路网数据
本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们平时在数据可视化或空间数据分析的过程中经常会 ...
数据科学VS机器学习
数据科学是一个范围很广的学科.机器学习和统计学都是数据科学的一部分.机器学习中的学习一词表示算法依赖于一些数据(被用作训练集)来调整模型或算法的参数.这包含了许多的技术,比如回归.朴素贝叶斯或监督聚类 ...
Python数据科学手册-机器学习：朴素贝叶斯分类
朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝 ...
Python数据科学手册-机器学习: 决策树与随机森林
无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树 ...
Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...

随机推荐

[Web 前端] 001 html 常用块级标签
目录 1. html "总体框架" 2. 常用的 HTML 块级标签(块元素) 2.1 知识点 2.2 以下 code 均写在 body 体中 2.2.1 标题标签,只有 h1-h ...
[19/05/05-星期日] JDBC(Java DataBase Connectivity，java数据库连接)_mysql基本知识
一.概念 (1).是一种开放源代码的关系型数据库管理系统(RDBMS,Relational Database Management System):目前有很多大公司(新浪.京东.阿里)使用: (2). ...
（4.12）mysql备份还原——mysql逻辑备份之mysqldump
关键词:mysql逻辑备份介绍,mysqldump,mysqldump最佳实践我的相关文章:https://www.cnblogs.com/gered/p/9721696.html 正文 1.mys ...
自己挖的坑自己填--JVM报内存溢出
在写定时任务时,对表数据进行批量操作,测试数据有10万条左右,在测试时发现跑着跑着出现内存溢出现象,最后发现创建的对象paramList 和tmBeanList没有被回收,经过资料查找,发现是循环内不 ...
Java可变参数方法
概念: jdk5.0出现的新特性.将同一个类中,多个方法名相同.参数类型相同.返回类型相同,仅仅是参数个数不同的方法抽取成一个方法,这种方法称为可变参数的方法好处: 提高代码的重用性和维护性语法: ...
flume 进阶
一.flume事务 put事务流程: 1.doPut:将批量数据先写入临时缓冲区putList 2.doCommit:检查Channel内存队列是否足够, (1)达到一定时间没有数据写入到putLis ...
HDU-1181 变形课(多种方式，好题)
首先想到的是并查集,然后WA...原因在这,我第一次敲的是Find(1) == Find(12)来作为可以成功的条件,实际上这样是不行的,比方说 bell 和 mail实际上是不满足条件的,可以理 ...
neo4j 的cql 语句，增、删、改、查（条件查询）(持续更新)
前言因为做一个比赛的项目 ,需要用到 neo4j 数据库,所以要学习其语言cql,特来整理一下他的基本语言. 整片的语句是按照了 Neo4j 数据库自带的示例 Movie Graph 来写的. 直 ...
加密模块hashlib
#coding=utf-8 import ConfigParser #配置文件模块 import hashlib #用于加密的模块 m = hashlib.md5() m.update(b'hello ...
02-CSS简介和基本选择器
# CSS为了让网页元素的样式更加丰富,也为了让网页的内容和样式能拆分开,CSS由此思想而诞生,CSS是 Cascading Style Sheets 的首字母缩写,意思是层叠样式表.有了CSS,ht ...

2017数据科学报告：机器学习工程师年薪最高，Python最常用

2017数据科学报告：机器学习工程师年薪最高，Python最常用

2017数据科学报告：机器学习工程师年薪最高，Python最常用的更多相关文章

随机推荐

热门专题