写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn 基于二元分类和PCA的信用卡欺诈检测 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态API 更新至0.7 两个控制台应用程序 .csv 文件 欺诈检测 二元分类 Fa…
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好 线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值 误差满足,均值为0的高斯分布,即正态分布.这个假设是靠谱的,符合一般客观统计规律.若使 模型与测量数据最接近,那么其概率积就最大.概率积,就是概率密度函数的连续积,这样,就形成了一个最大似然函数估计.对最大似然函数估计进行推导,就得出了推导后结果: 平方和最小公式 注: 1.x的平方等于x的转置乘以x. 2…
[原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践…
ML.NET 示例中文版:https://github.com/feiyun0112/machinelearning-samples.zh-cn 英文原版请访问:https://github.com/dotnet/machinelearning-samples ML.NET 示例 ML.NET 是一个跨平台的开源机器学习框架,使.NET开发人员使用机器学习变得很容易. 在这个GitHub 存储库中,我们提供了示例,这些示例将帮助您开始使用ML.NET,以及如何将ML.NET加入到现有的和新的.N…
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异常值定义为与其余数据群1不一致的样本或事件.异常值通常包含有关影响数据生成过程2的系统和实体的异常特征的有用信息. 异常检测算法的常见应用包括: 入侵检测系统信用卡诈骗有趣的传感器事件医学诊断在本文中,我们将重点介绍异常检测 - 信用卡欺诈的最常见应用之一.通过一些简单的离群值检测方法,可以在真实世…
本文是对100天搞定机器学习|Day33-34 随机森林的补充 前文对随机森林的概念.工作原理.使用方法做了简单介绍,并提供了分类和回归的实例. 本期我们重点讲一下: 1.集成学习.Bagging和随机森林概念及相互关系 2.随机森林参数解释及设置建议 3.随机森林模型调参实战 4.随机森林模型优缺点总结 集成学习.Bagging和随机森林 集成学习 集成学习并不是一个单独的机器学习算法,它通过将多个基学习器(弱学习器)进行结合,最终获得一个强学习器.这里的弱学习器应该具有一定的准确性,并且要有…
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn 用户评论的情绪分析 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态API README.md 已更新 控制台应用程序 .tsv 文件 情绪分析 二元分类 线性分类 在…
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn 垃圾短信检测 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态API 可能需要更新项目结构以匹配模板 控制台应用程序 .tsv 文件 垃圾信息检测 二元分类 SDCA(…
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn 鸢尾花分类 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态 API 最新版本 控制台应用程序 .txt 文件 鸢尾花分类 多类分类 Sdca Multi-class…
机器学习的工作流程分为以下几个步骤: 理解问题 准备数据 加载数据 提取特征 构建与训练 训练模型 评估模型 运行 使用模型 理解问题 本教程需要解决的问题是根据网站内评论的意见采取合适的行动. 可用的训练数据集中,网站评论可能是有毒(toxic)(1)或者无毒(not toxic)(0)两种类型.这种场景下,机器学习中的分类任务最为适合. 分类任务用于区分数据内的类别(category),类型(type)或种类(class).常见的例子有: 识别情感是正面或是负面 将邮件按照是否为垃圾邮件归类…