本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 新智元 1新智元编译   来源:ThingsExpo.Medium 作者:Natalia Ponomareva.Gokula Krishnan Santhanam 整理&编译:刘小芹.李静怡.胡祥杰 新智元日前宣布,获6家顶级机构总额达数千万元的PreA轮融资,蓝驰创投领投,红杉资本中国基金.高瓴智…
  一.机器学习概述 1.1.什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 1.2.为什么需要机器学习? 解放生产力,智能客服,可以不知疲倦的24小时作业 解决专业问题,ET医疗,帮助看病 提供社会便利,例如杭州的城市大脑 1.3.机器学习应用场景 自然语言处理 无人驾驶 计算机视觉 推荐系统 二.数据来源与类型 2.1.数据的来源 企业日益积累的大量数据(互联网公司更为显著) 政府掌握的各种数据 科研机构的实验数据 2.2.数据的类型 数据的类型将…
特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等.首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也非常强大! 经过前人的总结,特征工程已经形成了接近标准化的流程,如下图所示(此图来自此网友,若侵权,联系我,必删除) 1 特征来源——导入数据 在做数据分析的时候,特征…
文档:https://docs.featuretools.com/#minute-quick-start 所谓自动特征工程,即是将人工特征工程的过程自动化.以 featuretools 为代表的自动特征工程在整个机器学习的端到端实践中扮演的角色如下图所示: 1. demo 导入包:import featuretools as ft 加载数据:data = ft.demo.load_mock_customer(),data 为 dict 类型 data.keys() ⇒ dict_keys(['t…
一.Standardization 方法一:StandardScaler from sklearn.preprocessing import StandardScaler sds = StandardScaler() sds.fit(x_train) x_train_sds = sds.transform(x_train) x_test_sds = sds.transform(x_test) 方法二:MinMaxScaler  特征缩放至特定范围 , default=(0, 1) from sk…
机器学习的模型训练越来越自动化,但特征工程还是一个漫长的手动过程,依赖于专业的领域知识,直觉和数据处理.而特征选取恰恰是机器学习重要的先期步骤,虽然不如模型训练那样能产生直接可用的结果.本文作者将使用Python的featuretools库进行自动化特征工程的示例. 机器学习越来越多地从手动设计模型转变为使用H20,TPOT和auto-sklearn等工具来自动优化的渠道.这些库以及随机搜索等方法旨在通过查找数据集的最优模型来简化模型选择和转变机器学习的部分,几乎不需要人工干预.然而,特征工程几…
作者:韩信子@ShowMeAI 机器学习实战系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/328 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 特征工程(feature engineering)指的是:利用领域知识和现有数据,创造出新的特征,用于机器学习算法. 特征:数据中抽取出来的对结果预测有用的信息. 特征工程:使用专业背景…
一.概述 Andrew Ng:Coming up with features is difficult, time-consuming, requires expert knowledge. "Applied machine learning" is basically feature engineering( 吴恩达, 人工智能和机器学习领域国际最权威学者之一:提取特征是困难的,耗时的,需要丰富的专家知识."应用机器学习"从根本上来说就是特征工程) 业界广泛流传:…
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的 衍生特征 和 处理 缺失数据的填充 方法.这个过程被叫做向量化.把任意格式的数据 转换成具有良好特性的向量形式. 分类特征 比如房屋数据: 房价.面积.地点信息. 方案1:把分类特征用映射关系 编码成 整数 . {'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3}; 在scikit-learn中并不好,数值特征可以反映代数量.会产生 1<2<3的 方案2:使用独热编码 有效增加额外的…
好了,大家现在进入到机器学习中的一块核心部分了,那就是特征工程,洋文叫做Feature Engineering.实际在机器学习的应用中,真正用于算法的结构分析和部署的工作只占很少的一部分,相反,用于特征工程的时间基本都占70%以上,因为是实际的工作中,绝大部分的数据都是非标数据.因而这一块的内容是非常重要和必要的,如果想要提高机器学习应用开发的效率,feature engineering就像一把钥匙,一个加速器,能给整个项目带来事半功倍的效果.另外,feature engineering做的好不…