机器学习(二)数据处理&相似/异性度量 https://woaielf.github.io/2017/03/17/dm-2/ 2017-03-17 ZOE    数据科学  机器学习/数据挖掘 Notes: ★ 如果你是第一次阅读,推荐先浏览:[重要公告]文章更新.阅读规则.导图下载. ★ 目前文章更新主平台已迁移至公众号「数林觅风」,ID:zoemindmap,博客只在每月末集中更新一次.所有「PDF&高清原图」只需在公众号后台回复关键词或者直接从菜单栏进入即可下载. 本文是我的「ML&…
机器学习二 逻辑回归作业   作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的. 57维特征,2分类问题.采用逻辑回归方法.但是上述数据集在kaggle中没法下载,于是只能用替代的方法了,下了breast-cancer-wisconsin数据集. 链接在这http://archive.ics.uci.edu/ml/machine-learning-databases/breast-c…
Several classification metrics for ML/DM methods. 主要解释下机器学习(或数据挖掘)中的几个度量指标. 1. 关于 "TN/TP/FN/FP" 在预测过程中,经常会出现这几个名词,先是解释下字面意思: TN: True Negative (真负),被模型预测为负的样本,模型预测对了 TP: True Positive (真正),被模型预测为正的样本,模型预测对了 FN: False Negative (假负),被模型预测为负的样本,模型预测…
文章内容均来自斯坦福大学的Andrew Ng教授讲解的Machine Learning课程,本文是针对该课程的个人学习笔记,如有疏漏,请以原课程所讲述内容为准.感谢博主Rachel Zhang 的个人笔记,为我做个人学习笔记提供了很好的参考和榜样. § 2. 多变量线性回归 Linear Regression with Multiple Variables 1 多特征值(多变量) Multiple Features(Variables) 首先,举例说明了多特征值(多变量)的情况.在下图的例子中,…
一.模型表示 1.一些术语 如下图,房价预测.训练集给出了房屋面积和价格,下面介绍一些术语: x:输入变量或输入特征(input variable/features). y:输出变量或目标变量(output variable/target variable). (x, y):一个训练样本 (x(i), y(i)):第i个训练样本 m:样本数目 2.机器学习的一般过程 如图,机器学习算法通过学习训练集得出假设函数h(Hypothesis),然后接受输入x,输出y.假设函数h称为模型. 3.线性回归…
当我们使用jQuery时大部分时间是聚焦于Dom节点的处理,给Dom节点绑定事件等等:前端mvc框架backbone则如何呢? M-Model,Collection等,是聚焦于数据的处理,它把与后台数据的交互封装好,然后我们使用时可以给数据的变化绑定事件,可以相应的去更新到Dom(这里是View) V-View(Marionette扩展了,有ItemView,CollectionView,CompositeView和LayoutView),则聚焦于处理Dom节点 C-Controller:  R…
一:逻辑回归(Logistic Regression) 背景:假设你是一所大学招生办的领导,你依据学生的成绩,给与他入学的资格.现在有这样一组以前的数据集ex2data1.txt,第一列表示第一次测验的分数,第二列表示第二次测验的分数,第三列1表示允许入学,0表示不允许入学.现在依据这些数据集,设计出一个模型,作为以后的入学标准. 我们通过可视化这些数据集,发现其与某条直线方程有关,而结果又只有两类,故我们接下来使用逻辑回归去拟合该数据集. 1,回归方程的脚本ex2.m: %% Machine…
数据来自UCI机器学习仓库中的垃圾信息数据集 数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载 转成csv载入数据 import matplotlib matplotlib.rcParams['font.sans-serif']=[u'simHei'] matplotlib.rcParams['axes.unicode_minus']=False import pandas as pd import numpy as…
之前在看斯坦福教程中whiteining这一章时,由于原始图像相邻像素值具有高度相关性,所以图像数据信息冗余,对于白化的作用的描述主要有两个方面:1,减少特征之间的相关性:2,特征具有相同的方差(协方差阵为1):但是为什么这么做,以及这样做对于算法或者数据有什么好处,一直雨里雾里的,最近看了ICA的数据预处理之后,发现一个教程图解的白化方法和作用很好. 白化,又称漂白或者球化:是对原始数据x实现一种变换,变换成x_Whitened;使x_Whitened的协方差矩阵的为单位阵. 一般情况下,所获…
一篇文章就搞懂啦,这个必须收藏! 我们以图片分类来举例,当然换成文本.语音等也是一样的. Positive 正样本.比如你要识别一组图片是不是猫,那么你预测某张图片是猫,这张图片就被预测成了正样本. Negative 负样本.比如你要识别一组图片是不是猫,那么你预测某张图片不是猫,这张图片就被预测成了负样本. TP 一组预测为正样本的图片中,真的是正样本的图片数. TN: 一组预测为负样本的图片中,真的是负样本的图片数. FP: 一组预测为正样本的图片中,其实是负样本的图片数.又称"误检&quo…
目录 一.概述 1.1 从数据处理到人工智能 二.Python库之数据分析 2.1 numpy 2.2 pandas 2.3 scipy 三.Python库之数据可视化 3.1 matplotlib 3.2 Seaborn 3.3 Mayavi 四.Python库之文本处理 4.1 PyPDF2 4.2 NLTK 4.3 Python-docx 五.Python库之机器学习 5.1 Scikit-learn 5.2 TensorFlow 5.3 MXNet 六.单元小结 6.1 从数据处理到人工…
前言 近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是广泛的民用设施,都充斥着AI应用的身影.接下来的一系列文章将会由浅入深从不同角度分别介绍机器学习.深度学习之间的关系与区别,通过一系统的常用案例讲述它们的应用场景.本文将会从最常见的机器学习开始介绍相关的知识应用与开发流程. 目录 一.浅谈机器学习 二.基本概念 三.常用方法介绍 四.线性模型 五.…
前言 近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是广泛的民用设施,都充斥着AI应用的身影.接下来的一系列文章将会由浅入深从不同角度分别介绍机器学习.深度学习之间的关系与区别,通过一系统的常用案例讲述它们的应用场景.在上一篇文章< Python 机器学习实战 -- 监督学习(上)>中已经讲述了机械学习的相关概念与基础知识,监督学习的主要流程.对损失…
由于不方便放链接,更好的阅读体验请查看:自动化专业如何转SLAM或机器学习岗? 本文来自知乎上的同名问题,原文链接: https://www.zhihu.com/question/266685012/answer/336327001 题主是北京某985理工类高校自动化专业本硕(硕士专业是控制工程),刚刚毕业半年左右,第一份工作是在一家创业型机器人小公司做控制工程师.工作内容很杂,主要是一些stm32开发和信号处理之类的工作,这家公司管理混乱,而且公司缺乏技术上经验丰富的老员工,作为一个刚刚毕业的…
> ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 250, 149, 260, 485, 170) > t.test(X,alternative='greater',mu=225,conf.level = 0.95)#单边检验 One Sample t-test data: X t = 0.66852, df = 15, p-value = 0.257…
上一篇文章我们介绍了使用逻辑回归来处理分类问题,本文我们讲一个更强大的分类模型.本文依旧侧重代码实践,你会发现我们解决问题的手段越来越丰富,问题处理起来越来越简单. 支持向量机(Support Vector Machine, SVM)是最受欢迎的机器学习模型之一.它特别适合处理中小型复杂数据集的分类任务. 一.什么是支持向量机 SMV在众多实例中寻找一个最优的决策边界,这个边界上的实例叫做支持向量,它们"支持"(支撑)分离开超平面,所以它叫支持向量机. 那么我们如何保证我们得到的决策边…
仿照上篇博文对于混淆矩阵.ROC和AUC指标的探讨,本文简要讨论机器学习二分类问题中的混淆矩阵.PR以及AP评估指标:实际上,(ROC,AUC)与(PR,AP)指标对具有某种相似性. 按照循序渐进的原则,依次讨论混淆矩阵.PR和AP: 设定一个机器学习问题情境:给定一些肿瘤患者样本,构建一个分类模型来预测肿瘤是良性还是恶性,显然这是一个二分类问题. 本文中,将良性肿瘤视为正类标签(可能在具体实践中更为关注恶性肿瘤,不过这并不影响技术上的操作). 当分类模型选定以后,将其在测试数据集上进行评估,分…
自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta Learning 四.神经网络架构搜索 Neural Architecture Search 五.自动化特征工程 六.其它自动机器学习工具集 一.为什么需要自动机器学习 对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响.随着深度学习的流行,工程师需要选择相…
AIOps 自从 Gartner 于2016年提出至今已有一段时间,虽然在顶级互联网及电信企业,已有较多落地,但至今仍无基于生产实践的理论体系及实施指南. 高效运维社区和云计算开源产业联盟(OSCAR联盟)牵头,和互联网大厂如 BATJ.360.华为.平安科技等的 AIOps 负责人联合编写了国内外首个<企业级 AIOps 实施建议>白皮书,以缩AIOps 实施路径. 一.整体介绍 AIOps,即 Artificial Intelligence for IT Operations,智能运维,将…
imbalanced time series classification http://www.vipzhuanli.com/pat/books/201510229367.5/2.html?page=2 这个专利可以去国家专利局网站查询,有具体文档. https://www.jianshu.com/p/3e8b9f2764c8 机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千万万,数…
一.相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的. 可是,计算机没有这样的直观感受能力,我们必须对相异度在数学上进行定量定义.       设 ,当中X.Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:  ,当中R为实数域. 也就是说相异度是两个元素对实数域的一个映射.所映射的实数定量表示两个元素的相异度.…
Tips <Effective Java, Third Edition>一书英文版已经出版,这本书的第二版想必很多人都读过,号称Java四大名著之一,不过第二版2009年出版,到现在已经将近8年的时间,但随着Java 6,7,8,甚至9的发布,Java语言发生了深刻的变化. 在这里第一时间翻译成中文版.供大家学习分享之用. 书中的源代码地址:https://github.com/jbloch/effective-java-3e-source-code 注意,书中的有些代码里方法是基于Java…
作者:Bruce链接:https://www.zhihu.com/question/49909565/answer/345894856来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 中文视频教程资源 1. 官方教程 随着机器学习越来越受到公众的关注,很多初学者希望能快速了解机器学习及前沿技术. Google 上线了基于 TensorFlow 的机器学习中文速成课程,它包含 40 多项练习.25 节课程以及 15 个小时的紧凑学习内容. 教程地址:https://d…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…
本次活动既是.NET西安社区的第四次线下交流活动,也是.NET西安社区成立一周年庆活动..NET西安社区2018年7月20日成立,经过一年时间的发展,社区共举办过3次大型线下交流活动,社区人数由最初的几十人增加到400多人,我们欢迎也希望有更多技术爱好者加入到社区中来. .NET Core与生俱来的跨平台优势和拥抱开源的心态使得其从诞生之时便吸引了大量开发者的眼球,作为新一代优秀的开发平台,其在性能.跨平台方面有着非常出色的表现,再加之.NET Core和容器化技术的完美结合使得开发者能够更加方…
目录 范数 一.Lp范数 二.L0范数 三.L1范数 四.L2范数 五.L∞范数 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 范数 一.Lp范数 \(p\)是一个变量,度量的是一组范数 \[ ||x||_p = \sqrt[p]{\sum_{i=1}^nx_i^p},\quad x={x_1,x_2,\ldots,x_n} \] 二.L0范数 度量非零个数. \[…
全文检索.数据分析挖掘.推荐系统.广告系统.图像识别.海量存储.快速查询 l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n NameNode功能与原理 n DataNode功能与原理 n SecondaryNameNode功能与原理 n HDFS读取写入流程 n 理解HDFS Block l Hadoop权限与安全 l Hadoop运行模式介绍 l 实验: n 搭建单机版.伪分布式.分布式集群 n Hadoop命令使用…
过去的几年里,在NLP(自然语言处理)领域,我们已经见证了多项令人难以置信的突破,如ULMFiT.ELMo.Facebook的PyText以及谷歌的BERT等等. 这些技术大大推进了NLP的前沿性研究,尤其是语言建模.只要给出前几个单词的顺序,我们就可以预测下一个句子. 但更重要的是,机器也找到了长期无法实现推测语句的关键因素. 那就是:语境! 对语境的了解打破了阻碍NLP技术进步的障碍.而今天,我们就来讨论这样的一个库:Flair. 至今为止,单词要么表示为稀疏矩阵,要么表示为嵌入式词语,如G…
随着人工智能全面爆发,Python[英文单词:蟒蛇],是一款近年来爆红的计算机编程语言.1989年发明,1991年发行,比目前应用最广的Java还要大7岁,有种大器晚成的感觉. 分享之前我还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,今天分享的这个案例已经上传到群文件,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发…
计算图中的操作 import numpy as np import tensorflow as tf sess = tf.Session() x_vals = np.array([1., 3., 5., 7., 9.]) x_data = tf.placeholder(dtype=tf.float32) m_const = tf.constant(3.) my_product = tf.multiply(x_data, m_const) for x_val in x_vals: print(se…