Iris分类以及数组reshape想到的

最近在研究Iris花的逻辑回归分类中看到了如下的代码：

from sklearn.linear_model import LogisticRegression

X = iris["data"][:, 3:]

y=(iris["target"]==2).astype(np.int)

log_reg = LogisticRegression()

log_reg.fit(X, y)

X_new=np.linspace(0, 3, 100).reshape(-1, 1)

y_prob=log_reg.predict_proba(X_new)

decision_boundary=X_new[y_prob[:, 1] >=0.5][0]

reshape(-1, 1)第一个"-1"参数代表将数据拉平为一行，第二个1代表对于行矩阵进行处理，每个行包含一个列。下面有个demo示例：

z = np.array([[1, 2, 3, 4],

[5, 6, 7, 8],

[9, 10, 11, 12]])

z.shape

(3, 4)

z.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

z.reshape(-1,1)

array([[ 1],

   [ 2],

   [ 3],

   [ 4],

   [ 5],

   [ 6],

   [ 7],

   [ 8],

   [ 9],

   [10],

   [11],

   [12]])

其实(-1,1)的意义就是行数未知，列数确定是1的意思；所谓的未知就是根据实际情况来生成。可以推知reshape（1，-1）的含义。

第二个难点就是计算decision_boundary的时候：

decision_boundary=X_new[y_prob[:, 1] >=0.5][0]

其实这段语句的涵义是：首个满足y_prob[:, 1] >=0.5，对应的X_new的值。那么什么是y_prob[:, 1]呢？y_prob的获取是通过predict_prob，所以天生就是会把所有的可能值都就算一边，这里每一项都会把是Iris和NotIris的概率都计算一遍的；y_prob[:, 1]就是代表所有的Iris的判断结果，>=0.5比较好理解，就是其中判定为属于Iris的（因为>=0.5就代表倾向于Iris）的首个值；这个值就是Iris和非Iris的分界线，这个就是decision_boundary的涵义。

参考

https://stackoverflow.com/questions/18691084/what-does-1-mean-in-numpy-reshape

Iris分类以及数组reshape想到的的更多相关文章

php数组函数（分类基本数组函数，栈函数，队列）
php数组函数(分类基本数组函数,栈函数,队列函数) 一.总结 1.常用数组函数函数描述 array() 创建数组. array_combine() 通过合并两个数组来创建一个新数组. array ...
用决策树(CART)解决iris分类问题
首先先看Iris数据集 Sepal.Length--花萼长度 Sepal.Width--花萼宽度 Petal.Length--花瓣长度 Petal.Width--花瓣宽度通过上述4中属性可以预测花卉 ...
PHP递归无限分类，数组和直接输出。
去年在一家公司做项目开发,用到商城三级分类,看了之前的程序员写的分类也是头大,三级分类,循环套循环三次( foreach(){ foreach(){ foreach(){ } } } ),然后写了一个 ...
seaborn分类数据可视化
转载:https://cloud.tencent.com/developer/article/1178368 seaborn针对分类型的数据有专门的可视化函数,这些函数可大致分为三种: 分类数据散点图 ...
从Iris数据集开始---机器学习入门
代码多来自<Introduction to Machine Learning with Python>. 该文集主要是自己的一个阅读笔记以及一些小思考,小总结. 前言在开始进行模型训练之 ...
Python 读取UCI iris数据集分析、numpy基础学习
python基础.numpy使用.io读取数据集.数据处理转换与简单分析.读取UCI iris数据集中鸢尾花的萼片.花瓣长度数据,进行数据清理,去重,排序,并求出和.累积和.均值.标准差.方差.最大值 ...
【算法之美】求解两个有序数组的中位数 — leetcode 4. Median of Two Sorted Arrays
一道非常经典的题目,Median of Two Sorted Arrays.(PS:leetcode 我已经做了 190 道,欢迎围观全部题解 https://github.com/hanzichi/ ...
php用压栈的方式,循环遍历无限级别的数组(非递归方法)
php用压栈的方式,循环遍历无限级别的数组(非递归方法) 好久不写非递归遍历无限级分类...瞎猫碰到死老鼠,发刚才写的1段代码,压栈的方式遍历php无限分类的数组... php压栈的方式遍历无限级别数 ...
php数组声明、遍历、数组全局变量使用小结
数组的本质:管理和操作一组变量,成批处理,下面为大家介绍下数组的分类.数组的分类及使用说明,感兴趣的朋友可以了解下哈 php教程:数组声明,遍历,数组全局变量 <? /* * 一.数组的概 ...

随机推荐

<Google><APAC><kickstart><2017.05.07><2017RoundB>
Google APAC kickstart 网址链接我的所有solution代码和文件请点击前言这个比赛的题怎一个变态了得,虽然是第一次参赛,抱着熟悉流程的心态去的,但仍然被虐得一颤一颤的╮(╯ ...
解决MySQL不允许远程连接的问题
进入MySQL:mysql -u root -p mysql> GRANT ALL privileges ON *.* TO 'root' @'localhost' IDENTIFIED ...
团队-团队编程项目爬取豆瓣电影top250-代码设计规范
1.类名使用首字母大写(骆驼命名法) 2.函数名应该为小写 3.用下划线开头定义私有的属性或方法 4.命名要使用有意义的,英文单词或词组 5.行尾不加分号 6.4个空格缩进代码 7.操作运算符注意优先 ...
实验楼 Linux 基础入门（新版）挑战：寻找文件
传送门:https://www.shiyanlou.com/courses/running 挑战:寻找文件实验环境: 用户名:shiyanlou 密码:76036575 寻找文件介绍有一个非常重 ...
linux 将一个文件分解成多个不同名文件
1.通过c直接实现 #include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include & ...
SpringBoot Maven项目 Helloworld 测试
SpringBoot 化繁为简,简化配置 SpringBoot官方:http://projects.spring.io/spring-boot/SpringBoot使用介绍:http://blog.c ...
java ip number to string
package com.awkj; import java.math.BigInteger; import java.net.InetAddress; import java.net.UnknownH ...
mysql 批量kill
select concat('kill ',id,';') t from information_schema.processlist order by t
Java中的容器 I————浅谈Queue和PriorityQueue
一.Queue的实现通过LinkedList类实现Queue接口来完成对Queue的实例类的实现,代码如下: Queue<Integer> queue=new LinkedList< ...
1111B - Average Superhero Gang Power
刷数学题不知道为啥出来这个算是贪心吧,先把所有的power加起来,然后sort一遍,每次删掉最小的那个数,记录一个max,平均值ave如果比max大,就替换,一定要小心m的值可能会比n小,意味着不一 ...

Iris分类以及数组reshape想到的

Iris分类以及数组reshape想到的的更多相关文章

随机推荐

热门专题