在Ignite中使用线性回归算法

　　在本系列前面的文章中，简单介绍了一下Ignite的机器学习网格，下面会趁热打铁，结合一些示例，深入介绍Ignite支持的一些机器学习算法。
　　
　　如果要找合适的数据集，会发现可用的有很多，但是对于线性回归来说，一个非常好的备选数据集就是房价，可以非常方便地从UCI网站获取合适的数据。
　　
　　在本文中会训练一个线性回归模型，并且计算R2得分。
　　
　　需要先准备一些数据，并且要将数据转换成Ignite支持的格式，这通常是数据科学家需要花时间做的事。
　　
　　首先，需要获取原始数据并将其拆分成训练数据（80%）和测试数据（20%）。Ignite暂时还不支持专用的数据拆分，路线图中的未来版本会支持这个功能。但是就目前来说有许多可用的免费和开源工具可以执行这样的数据拆分，或者也可以用一种Ignite支持的编程语言自己编写这种代码。在本文中会使用下面自己编写的代码来实现此任务：
　　
　　from sklearn import datasets
　　
　　import pandas as pd
　　
　　# Load Boston housing dataset.
　　
　　boston_dataset = datasets.load_boston()
　　
　　x = boston_dataset.data
　　
　　y = boston_dataset.target
　　
　　# Split it into train and test subsets.
　　
　　from sklearn.model_selection import train_test_split
　　
　　x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=23)
　　
　　# Save train set.
　　
　　train_ds = pd.DataFrame(x_train, columns=boston_dataset.feature_names)
　　
　　train_ds["TARGET"] = y_train
　　
　　train_ds.to_csv("boston-housing-train.csv", index=False, header=None)
　　
　　# Save test set.
　　
　　test_ds = pd.DataFrame(x_test, columns=boston_dataset.feature_names)
　　
　　test_ds["TARGET"] = y_test
　　
　　test_ds.to_csv("boston-housing-test.csv", index=False, header=None)
　　
　　# Train linear regression model.
　　
　　from sklearn.linear_model import LinearRegression
　　
　　lr = LinearRegression()
　　
　　lr.fit(x_train, y_train)
　　
　　# Score result model.
　　
　　lr.score(x_test, y_test)
　　
　　这段代码从UCI网站上获取可用的数据集，执行了数据的拆分，然后计算了R2得分。返回值为0.745021053016975，或者为74.5%，之后会将此值与Ignite的进行对比。
　　
　　当训练和测试数据准备好之后，就可以写应用了，本文的算法是：
　　
　　读取训练数据和测试数据；
　　
　　在Ignite中保存训练数据和测试数据；
　　
　　使用训练数据拟合线性回归模型；
　　
　　将模型应用于测试数据；
　　
　　确定模型的R2得分。
　　
　　由于数据集非常小，可以将其加载到标准Java数据结构中，并直接从Java程序中运行线性回归。或者，也可以将数据加载到Ignite存储中，然后对存储的数据进行线性回归。使用Ignite存储的优点是数据将分布在整个集群中，因此将执行分布式训练。对于大规模数据集，使用Ignite存储就会有很大的好处。在本例中将把数据加载到Ignite存储中。
　　
　　读取训练数据和测试数据
　　
　　需要读取两个CSV文件，一个是训练数据，一个是测试数据。通过下面的代码，可以从CSV文件中读取数据：
　　
　　private static void loadData(String fileName, IgniteCache<Integer, HouseObservation> cache)
　　
　　throws FileNotFoundException {
　　
　　Scanner scanner = new Scanner(new File(fileName));
　　
　　int cnt = 0;
　　
　　while (scanner.hasNextLine()) {
　　
　　String row = scanner.nextLine();
　　
　　String[] cells =www.chuangshi88.cn row.split(",");
　　
　　double[] features = new double[cells.length - 1];
　　
　　for (int i = 0; i www.mingcheng178.com< cells.length -www.365soke.com/ 1; i++)
　　
　　features[i] = Double.valueOf(cells[i]);
　　
　　double price www.fengshen157.com= Double.valueOf(cells[cells.length - 1]);
　　
　　cache.put(cnt++, new HouseObservation(features, price));
　　
　　}
　　
　　}
　　
　　该代码简单地一行行的读取数据，然后对于每一行，使用CSV的分隔符拆分出字段，每个字段之后将转换成double类型并且存入Ignite。
　　
　　将训练数据和测试数据存入Ignite
　　
　　前面的代码将数据存入Ignite，要使用这个代码，首先要创建Ignite存储，如下：
　　
　　IgniteCache<Integer, HouseObservation> trainData = ignite.createCache("BOSTON_HOUSING_TRAIN");
　　
　　IgniteCache<Integer, www.leyouzaixian2.com HouseObservation> testData = ignite.createCache("BOSTON_HOUSING_TEST");
　　
　　使用训练数据创建线性回归模型
　　
　　数据存储之后，可以像下面这样创建训练器：
　　
　　DatasetTrainer<LinearRegressionModel, Double> trainer = new LinearRegressionLSQRTrainer();
　　
　　然后拟合训练数据，如下：
　　
　　LinearRegressionModel mdl = trainer.fit(
　　
　　ignite,
　　
　　trainData,
　　
　　(k, v) -> v.getFeatures(),
　　
　　// Feature extractor.
　　
　　(k, v) -> v.getPrice()
　　
　　// Label extractor.
　　
　　Ignite将数据保存为键-值(K-V)格式，因此上面的代码使用了值部分，目标值是Price，而特征位于其他列中。
　　
　　将模型应用于测试数据
　　
　　下一步，就可以用训练好的线性模型测试测试数据了，在Ignite的机器学习路线图中，有计划提供内置的得分计算器，但是就目前来说，可以这样做：
　　
　　double meanPrice =www.gcyl152.com/ getMeanPrice(testData);
　　
　　double u = 0, v www.gcyL157.com= 0;
　　
　　try (QueryCursor<Cache.Entry<Integer, HouseObservation>> cursor = testData.query(new ScanQuery<>())) {
　　
　　for (Cache.Entry<Integer, HouseObservation> testEntry : cursor) {
　　
　　HouseObservation observation = testEntry.getValue();
　　
　　double realPrice = observation.getPrice();
　　
　　double predictedPrice www.mhylpt.com/ = mdl.apply(new DenseLocalOnHeapVector(observation.getFeatures()));
　　
　　u += Math.pow(realPrice - predictedPrice, 2);
　　
　　v += Math.pow(realPrice -www.mcyllpt.com/ meanPrice, 2);
　　
　　}
　　
　　}
　　
　　这里计算的是残差平方和（U）和总平方和（V）。
　　
　　确定模型的R2得分
　　
　　可以发现，R2的值为1 - u / v：
　　
　　double score = 1 - u / v;
　　
　　System.out.println("Score : " + score);
　　
　　输出值为0.7450194305206714，或者74.5%，这与之前的值相同。
　　
　　总结
　　
　　Apache Ignite提供了一个机器学习算法库。通过线性回归示例，可以看到创建模型、测试模型和确定模型的R2得分的简单性，也可以用这个模型来做预测。
　　
　　目前，可用的机器学习工具有很多，但它们不能多节点扩展，只能处理少量数据。相比之下，Ignite所带来的好处是它有能力扩展下面两种能力：
　　
　　集群的大小（成百上千台机器）
　　
　　存储的数据量（GB、TB甚至PB级数据）
　　
　　因此，Ignite可以大规模地运行机器学习。它可以以分布式处理的方式，对大数据进行真正的机器学习管理。

在Ignite中使用线性回归算法的更多相关文章

scikit-learn 线性回归算法库小结
scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景. 线性回归的目的是要得到输 ...
在Ignite中使用k-最近邻(k-NN)分类算法
在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类.该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系 ...
《BI那点儿事》Microsoft 线性回归算法
Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测.该关系采用的表示形式是最能代表数据序列的线的公式.例如 ...
[机器学习Lesson 2]代价函数之线性回归算法
本章内容主要是介绍:单变量线性回归算法(Linear regression with one variable) 1. 线性回归算法(linear regression) 1.1 预测房屋价格该问题 ...
Spark机器学习(1)：线性回归算法
线性回归算法,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法. 1. 梯度下降法线性回归可以使用最小二乘法,但是速度比较慢,因此一般使用梯度下降法(Grad ...
day-12 python实现简单线性回归和多元线性回归算法
1.问题引入在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.一个带有一个自变 ...
Spark中常用的算法
Spark中常用的算法: 3.2.1 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类.分类在数据挖掘中是一项重要 ...
通过机器学习的线性回归算法预测股票走势（用Python实现）
在本人的新书里,将通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得.这里给出以线性回归算法预测股票的案例,以此讲述通过Python的sklearn ...
机器学习---用python实现最小二乘线性回归算法并用随机梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）
在<机器学习---线性回归(Machine Learning Linear Regression)>一文中,我们主要介绍了最小二乘线性回归算法以及简单地介绍了梯度下降法.现在,让我们来实践 ...

随机推荐

04.NopCommerce启用MiniProfiler调试
最近在调试NopCommerce的时候,常遇到一个地址不知道请求哪个路由(比如http://localhost/apparel-shoes,比如http://localhost/login)您能快速说 ...
AJPFX关于Swing组件的总结
默认布局管理器是流式布局(FlowLayout) 按钮的建立: jb1=new JButton("香蕉") 面板的建立:jp1=new JPanel(); 设置JFrame的标题: ...
开启apahce的mod_speling.so模块，让使用apahce http服务器不再有大小写烦恼
今天把服务器重新安装系统,做apache调优前,优化下apache对网络地址大小写不区分的支持.记录如下: 编译mod_speling.so模块去除Apache-url大小写字母敏感的配置 1. 进入 ...
8.3.3 快速系统调用 —— XP SP3上SystemCallStub的奇怪问题
依书上的例子,ReadFile()函数会调用ntdll!NtReadFile(),后者将服务号放到eax之中,然后调用SharedUserData!SystemCallStub(),由此函数执行sys ...
APP设计细节总结－摘录
视觉表现型问题 1. 统一的图标设计风格 2. 图标大小的视觉平衡(根据图标的体量对其大小做出相应的调整) 3. 优化你的分割线(通常我们会选择浅色而否定深色) 4. 合理的运用投影的颜色与透明度 5 ...
10g集群启动顺序
1. 首先, /etc/inittab(不同平台文件名可能不同),文件中的下面3行被调用. h1:35:respawn:/etc/init.d/init.evmd run >/dev/null ...
EOS Dawn 3.0 智能合约 -- 新格式
1.简介随着EOS Dawn 3.0发布,智能合约的坑又要重新踩了o(╥﹏╥)o:3.0不仅将原来本身就在链里的基础合约独立出来,简单的介绍见3.0合约改变,合约的书写方式也有巨大变化,相比之前更加 ...
pip install python-igraph 报错，C core of igraph 没有安装。
(一)问题描述 Centos7 安装python-igraph时,pip install python-igraph 报错,C core of igraph 没有安装. failure: repoda ...
VMware 彻底删除虚拟机操作系统的方法
方法一首先,都需要点击左边的虚拟机列表,选中你要删除的操作系统点击VMwae上方的虚拟机-管理-从硬盘删除. 方法二右键左侧列表中要删除的系统-移除. 然后在硬盘上找到其所在文件夹,直接按SHI ...
uva1380 A Scheduling Problem
按紫书来注意这道题的题目给了很大的方便,就相当于验证k是不是答案,不是的话就是k+1 #include<iostream> #include<string> #include& ...

在Ignite中使用线性回归算法

在Ignite中使用线性回归算法的更多相关文章

随机推荐

热门专题