[Java]数据分析--聚类】的更多相关文章

距离度量 需求:计算两点间的欧几里得距离.曼哈顿距离.切比雪夫距离.堪培拉距离 实现:利用commons.math3库相应函数 1 import org.apache.commons.math3.ml.distance.*; 2 3 public class TestMetrics { 4 public static void main(String[] args) { 5 double[] x = {1, 3}, y = {5, 6}; 6 7 EuclideanDistance eD = n…
2016-07 java简单实现聚类算法 但是有一个小问题,,,,我其实每次迭代之后(就是达不到我的收敛标准之前,聚类中心的误差达不到指定小的时候),虽然重新算了聚类中心,但是其实我的那些点并没有变,可是这个程序不知道咋回事每次都把我原先随机指定的聚类中心给变成了我算的聚类中心,怎么用,按照指示来就行了,不用读文件(源码全都是可以运行的,反正在我这个几几上是木有错误,才往上贴的,有的不足之处还望批评指正)输出的结果有一堆小数的那是新聚类中心和老的的误差值,在没有达到指定小的时候,是不会停的. /…
单词计数 需求:输入小说文本,输出每个单词出现的次数 实现:分map.combine.reduce三个阶段实现 1 /* Data Analysis with Java 2 * John R. Hubbard 3 * Aug 4, 2017 4 */ 5 6 package com.hongfeng.Chapter11; 7 8 import java.io.File; 9 import java.io.IOException; 10 import java.io.PrintWriter; 11…
MongoDB概念:与关系型数据库对应 database(数据库):数据库 collection(集合):表 document(文档):行 field(域):列/字段 注意事项 文档是一组键值(key-value)对(即 BSON) 文档中的键/值对是有序的 文档的键是字符串.除了少数例外情况,键可以使用任意UTF-8字符 MongoDB的文档不能有重复的键 文档中的值不仅可以是在双引号里面的字符串,还可以是其他几种数据类型 MongoDB 的文档不需要设置相同的字段,并且相同的字段不需要相同的…
ID3算法 思路:分类算法的输入为训练集,输出为对数据进行分类的函数.ID3算法为分类函数生成分类树 需求:对水果训练集的一个维度(是否甜)进行预测 实现:决策树,熵函数,ID3,weka库 J48类 ComputeGain.java 1 public class ComputeGain { 2 public static void main(String[] args) { 3 System.out.printf("h(11,16) = %.4f%n", h(11,16)); 4 S…
线性回归 需求:从文件读取数据对,计算回归函数及系数 实现1:commons.math的SimpleRegression,定义函数getData从文件读取数据返回SimpleRegression类 1 import java.io.File; 2 import java.io.FileNotFoundException; 3 import java.util.Scanner; 4 import org.apache.commons.math3.stat.regression.SimpleRegr…
二项分布 需求:5个四面体筛子,筛子三面绿色,一面红色,模拟1000000次,统计每次试验红色落地筛子个数的分布 实现:用循环实现5个筛子和1000000次试验,定义函数numRedDown模拟5个筛子试验结果,redDown模拟单次试验结果 Simulation.java 1 import java.util.Random; 2 3 public class Simulation{ 4 static final Random RANDOM = new Random(); 5 static fi…
时间序列 需求:将一组字符顺序添加到时间序列中 实现:定义时间序列类TimeSeries,包含静态类Entry表示序列类中的各项,以及add,get,iterator,entry方法 TimeSeries.java 1 import java.util.ArrayList; 2 import java.util.Iterator; 3 import java.util.Map; 4 import java.util.TreeMap; 5 import java.util.concurrent.T…
数据结构 键-值对:HashMap 1 import java.io.File; 2 import java.io.FileNotFoundException; 3 import java.util.HashMap; 4 import java.util.Scanner; 5 6 public class HashMapExample { 7 public static void main(String[] args) { 8 File dataFile = new File("data/Cou…
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章中分类和回归都属于监督学习.当目标值是未知时,需要使用非监督学习,非监督学习不会学习如何预测目标值.但是,它可以学习数据的结构并找出相似输入的群组,或者学习哪些输入类型可能出现,哪些类型不可能出现. 5.1 异常检测 异常检测常用于检测欺诈.网络攻击.服务器及传感设备故障.在这些应用中,我们要能够找…