核函数在svm里,核函数是这样定义的.核函数是一个n*n(样本个数)的矩阵,其中:$K_{ij}=exp(-\frac{||x^{(i)}-x^{(j)}||^{2}}{2\sigma ^{2}})$ 也就是说,当两个向量越接近时,它们的核函数越接近于1:越远时,核函数越接近于0.在svm里,使用$K_{ij}$而不使用$(x^{(i)})^{T}x^{(j)}$,应该是就像神经网络或者逻辑回归里的激活函数吧.反正,以后出现两个样本内积的地方,都换成相应的核函数.那么从3最后求解的式子就变成了:…
支持向量机即Support Vector Machine,简称SVM.一听这个名字,就有眩晕的感觉.支持(Support).向量(Vector).机器(Machine),这三个毫无关联的词,硬生生地凑在了一起.从修辞的角度,这个合成词最终落脚到"Machine"上,还以为是一种牛X的机器呢?实际上,它是一种算法,是效果最好的分类算法之一. SVM是最大间隔分类器,它能很好地处理线性可分的问题,并可推广到非线性问题.实际使用的时候,还需要考虑噪音的问题. 本文只是一篇学习笔记,主要参考了…
一.SVM概述 支持向量机(support vector machine)是一系列的监督学习算法,能用于分类.回归分析.原本的SVM是个二分类算法,通过引入“OVO”或者“OVR”可以扩展到多分类问题.其学习策略是使间隔最大化,也就是常说的基于结构风险最小化寻找最优的分割超平面.SVM学习问题可以表示为凸优化问题,也可以转变为其对偶问题,使用SMO算法求解.线性SVM与LR有很多相似的地方,分类的准确性能也差不多,当数据量比较少时SVM可能会占据优势,但是SVM不方便应用于软分类(probabi…
LIBSVM 数据格式需要---------------------- 决策属性 条件属性a 条件属性b ... 2 1:7 2:5 ... 1 1:4 2:2 ... 数据格式转换---------------------- 当数据较少时,可以用formatdatalibsvm轻松地将文本数据转换成为svm工具使用的数据. 使用方法为: 1,打开FormatDataLibsvm.xls然后将数据粘贴到sheet1的topleft单元. 输入格式为: 条件属性a 条件属性b ... 决策属性 7…
引言 上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考虑到数据中可能存在噪音,还引入了松弛变量. 理论是抽象的,问题是具体的.站在岸上学不会游泳,光看着梨子不可能知道梨子的滋味.本篇博客就是用SVM分类算法解决一个经典的机器学习问题--手写数字识别.体会一下SVM算法的具体过程,理理它的一般性的思路. 问题的提出 人类视觉系统是世界上众多的奇迹之一.看…
前言 在前面的文章中,已经介绍如何在本地通过Docker Machine 创建虚拟Docker 主机,以及也可以在本地Windows 创建虚拟主机,也是可以使用的.这一节,我们将继续学习 Docker 三剑客之一 : Docker Swarm Docker Swarm Docker Swarm 是Docker 的本地聚集类,它将一组Docker 主机转换为一个虚拟单独的 Docker 主机.Docker Swarm 使用标准的Docker API.所以与Docker 守护进程交互的工具都可以使用…
Redis集群是Redis提供的分布式数据库方案,集群通过分片来进行数据共享,并提供复制和故障转移操作. 一个Redis集群通常由多个节点组成,在刚开始的时候每个节点都是相互独立的,他们处于一个只包含自己的集群当中,我们通过使用CLUSTER MEET命令将节点连接到一起,构成一个包含多节点的集群. 集群的数据结构: clusterNode结构保存了一个节点的当前状态,比如节点创建时间.节点名称.节点当前的配置纪元.节点的ip端口.每个节点都会使用一个clusterNode结构记录自己的状态,并…
Swarm 集群由管理节点与工作节点组成. 初始化集群 使用命令:docker swarm init 如果你的 Docker 主机有多个网卡, 拥有多个 IP 地址, 必须使用 --advertise-addr 来指定 IP ,例如: docker swarm init --addvertise-addr xxx.xxx.xxx.xxx 我们在 Docker 主机上执行了此命令之后, 即会初始化 Swarm 集群, 也会讲此 Docker 主机初始化为一个 Manager 节点. 增加工作节点…
对于PLA算法来说,最终得到哪一条线是不一定的,取决于算法scan数据的过程. 从VC bound的角度来说,上述三条线的复杂度是一样的 Eout(w)≤Ein0+Ω(H)dvc=d+1 直观来看,最右边的线是比较好的hyperplane. 为什么最右边的分隔面最好? 对于测量误差的容忍度是最好的.例如对于每张图片中左下角的样本点,当未来要判定与该点非常接近的点(有可能它们的feature本来就是一样的,只不过因为测量的误差的存在,所以feature变得有点不同了)的labe…
首先拿出最后要求解的问题:$\underset{\alpha}{min}W(\alpha)=\frac{1}{2} \sum_{i,j=1}^{n}y^{(i)}y^{(j)}\alpha_{i}\alpha_{j}k_{ij}-\sum_{i=1}^{n}\alpha_{i}$,使得满足:(1)$0 \leq \alpha_{i}\leq C,1 \leq i \leq n$(2)$\sum_{i=1}^{n}\alpha_{i}y^{(i)}=0$ 求解的策略是每次选出两个$\alpha$进…
问题定义: 给出一些样本,包含两类.svm试图找到一个超平面,将数据分开,并且每种样本到超平面的距离的最小值最大. 输入样本:$\{x_{i},y_{i}| 1\leq i\leq n \}$,$y_{i}\in \{-1,1\}$ 超平面定义:$w^{T}x+b=0$ 设某一个采样点$x^{(i)}$到超平面的距离为$\gamma^{(i)}$,那么从$x^{(i)}$作方向为w的射线,其与超平面的交点为B,采样点到B的距离为$\gamma^{(i)}$,那么B可以用这样的向量表示$B=x^{…
本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境 操作系统:Red Hat Enterprise Linux 6 64 位(版本号6.6) JDK版本:1.8 Scala版本:2.12.2 Spark版本:2.2.0 172.18.3.135 主节点 172.18.3.136 从节点 172.18.3.137 从节点 之后的操作如果是用普通用户操作的话也必…
Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力.Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境. Spark运行时架构 Spark在分布式环境中的架构如下图: 在分布式环境下,Spark集群采用的是主/从结构.在Spark集群,驱动器节点负责中央协调,调度各个分布式工作节点.执行器节点是工作节点,作为独立的Ja…
机器学习牛人博客 机器学习实战之SVM 三种SVM的对偶问题 拉格朗日乘子法和KKT条件 支持向量机通俗导论(理解SVM的三层境界) 解密SVM系列(一):关于拉格朗日乘子法和KKT条件 解密SVM系列(二):SVM的理论基础 解密SVM系列(三):SMO算法原理与实战求解 (一)关于拉格朗日乘子法 首先来了解拉格朗日乘子法,那么为什么需要拉格朗日乘子法?记住,有拉格朗日乘子法的地方,必然是一个组合优化问题.那么带约束的优化问题很好说,就比如说下面这个:   minf=2x21+3x22+7x2…
集群通过分片(sharding)来进行数据共享,并提供复制和故障转移功能.   1.节点 一个节点就是一个运行在集群模式下的Redis服务器.启动Redis服务器时,通过判断cluster-enabled选项,选择是否开启集群模式.(Yes开启集群,No则单机模式普通服务器)   一个Redis集群由多个节点组成,每个节点使用的端口各不相同,可以设置.每个节点最开始可以看做一个只有自己节点的集群,节点间通过命令相互握手,组建集群   握手命令 cluster meet //与ip为127.0.0…
[Cluster]集群,一个ES集群由一个或多个节点(Node)组成,每个集群都有一个cluster name作为标识------------------------------------------------[node]节点,一个ES实例就是一个node,一个机器可以有多个实例,所以并不能说一台机器就是一个node,大多数情况下每个node运行在一个独立的环境或虚拟机上.------------------------------------------------[index]索引,即一…
 一.概述 Redis Cluster与Redis3.0.0同时发布,以此结束了Redis无官方集群方案的时代. Redis Cluster是去中心化,去中间件,也就是说,集群中的每个节点都是平等的关系,都是对等的,每个节点都保存各自的数据和整个集群的状态.每个节点都和其他所有节点连接,而且这些连接保持活跃,这样就保证了我们只需要连接集群中的任意一个节点,就可以获取到其他节点的数据. 那么Redis是如何合理分配这些节点和数据呢? Redis集群并没有使用传统的一致性哈希来分配数据,而是采用另外…
交叉验证:拟合的好,同时预测也要准确 我们以K折交叉验证(k-folded cross validation)来说明它的具体步骤.{A1,A2,A3,A4,A5,A6,A7,A8,A9} 为了简化,取k=10.在原始数据A的基础上,我们随机抽取一组观测,构成一个数据子集(容量固定),记为A1A1 重复以上过程10次,我们就会获得一个数据子集集合 {A1,A2,A3,A4,A5,A6,A7,A8,A9,A10} 接下来,我们首先对模型M1M1进行交叉验证,如下, 在{A2,A3,A4,A5,A6,…
在1中,我们的求解问题是:$min_{w,b}$ $\frac{1}{2}||w||^{2}$,使得$y^{(i)}(w^{T}x^{(i)}+b)\geq 1 ,1 \leq i \leq n$ 设$g_{i}(w)=-y^{(i)}(w^{T}x^{(i)}+b)+1 \leq 0$, 那么按照2中的定义,对应的拉格朗日函数为$L(w,b,\alpha)=\frac{1}{2}||w||^{2}-\sum_{i=1}^{n}\alpha_{i}[y^{(i)}(w^{T}x^{(i)}+b)…
下面我们抛开1中的问题.介绍拉格朗日对偶.这一篇中的东西都是一些结论,没有证明. 假设我们有这样的问题:$min_{w}$ $f(w)$,使得满足:(1)$g_{i}(w)\leq 0,1\leq i \leq k$,(2)$h_{i}(w)= 0,1\leq i \leq l$ 我们定义$L(w,\alpha ,\beta )=f(w)+\sum_{i=1}^{k}\alpha_{i}g_{i}(w)+\sum_{i=1}^{l}\beta_{i}h_{i}(w)$,其中$\alpha,\be…
单机,单节点,单实例的Redis会有什么问题呢? 容易导致单点故障,那么如何解决呢? 可以通过主备方式 同时可以实现读写分离 这里的每个节点是全量的,镜像的. 单节点的容量有限而且单点的压力比较大,如何解决呢? 可以分不同的实例来存不同的业务数据 每种业务数据也可以根据不同的规则放到同一组的Redis库中 引入多个Redis实例后,会出现数据一致性的问题,如何解决呢? 如果要达到强一致性(同步方式),就容易导致不可用性,比如一个节点写成功后,同步到其他节点,假设其他节点有一个网络延迟或者故障,就…
笔者经多番周折终于看懂了\(\text{Burnside}\)定理和\(\text{Polya}\)定理,特来写一篇学习笔记来记录一下. 群定义 定义:群\((G,·)\)是一个集合与一个运算·所定义的群.它所需要满足的性质是: 结合律:对于任意\(a,b,c\in G,a·b·c=a·(b·c).\) 封闭性:对于任意\(a,b\in G,a·b\in G.\) 单位元:存在\(e\in G,a·e=a.\) 逆元:\(\forall a\in G,\exists a'\in G,a·a'=a…
上次写redis的学习笔记还是2014年,一转眼已经快2年过去了,在段时间里,redis最大的变化之一就是cluster功能的正式发布,以前要搞redis集群,得借助一致性hash来自己搞sharding,现在方便多了,直接上cluster功能就行了,而且还支持节点动态添加.HA.节点增减后缓存重新分布(resharding). 下面是参考官方教程cluster-tutorial 在mac机上搭建cluster的过程: 一.下载最新版redis 编译 目前最新版是3.0.7,下载地址:http:…
背景 之前所讨论的SVM都是非常严格的hard版本,必须要求每个点都被正确的区分开.但是,实际情况时很少出现这种情况的,因为噪声数据时无法避免的.所以,需要在hard SVM上添加容错机制,使得可以容忍少量噪声数据.   "软"化问题 软化SVM的思路有点类似正规化,在目标函数添加错误累加项,然后加一个系数,控制对错误的容忍度,并且在约束中添加错误容忍度的约束,形式如下:   现在问题就变成了(d+1+N)个变量和2N个约束.ξ用来描述错误的容忍度.C是常量,用来控制容忍度.C越大,由…
opencv学习笔记(七)SVM+HOG 一.简介 方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子.它通过计算和统计图像局部区域的梯度直方图来构成特征.Hog特征结合SVM分类器已经被广泛用于图像识别中,尤其在行人检测中获得了极大的成功.需要提醒的是,HOG+SVM进行行人检测的方法是法国研究院Dalal在2005的CVPR上提出的. 最近在做车标识别相关的研究,用到了SVM+HOG的方法进行识…
本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoop MapReduce Next Generation - Setting up a Single Node Cluster. Hadoop版本号:Apache Hadoop 2.5.1 系统版本号:CentOS 6.5.内核(uname -r):2.6.32-431.el6.x86_64 系统必备…
Oracle RAC学习笔记01-集群理论 1.集群相关理论概述 2.Oracle Clusterware 3.Oracle RAC 原理 写在前面: 最近一直在看张晓明的大话Oracle RAC,真实感受就是学到很多之前自己都没深入思考研究过的知识点,现在趁着节前头脑尚清醒,再结合实际工作中自己曾遇到的一些案例,就把这段时间自己学到的东西总结一下. 1.集群相关理论概述 一个集群(cluster)由2个或多个节点(nodes)组成.一般集群对外都会有统一的服务接口(集群地址),对内需要(集群内…
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的spark搭建后是否真正可以使用了 1.今天就和大家写一个计算π的spark代码 下面我把已经写好了的代码放在下面,大家可以借以参考一下 package day02 import org.apache.spark.{SparkConf, SparkContext} import scala.math.r…