关于MATLAB处理大数据坐标文件2017527 - 相关文章

【关于MATLAB处理大数据坐标文件2017527】的更多相关文章

关于MATLAB处理大数据坐标文件2017527

第一次提交数据: 今天用了8个特征,加上的这一个特征是从3000条测试数据中测试失败的数据总结出来的树的数目为50再次使用3000条测试数据测试结果-- 结果不错: 99%但是运行官网数据结果分数--降低0.5 为58.55分总结:总特征数目为8,树的数目远远超过特征数,以后树的数目不能多于特征的1.5倍,否则结果很难得出结论,无说服力第二次提交数据: 本次使用9个特征,加上的特征是从3000条测试数据中测试失败的数据总结出来的树的数目为12 使用3000条测试数据测试结果--…

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而…

关于MATLAB处理大数据坐标文件201761

前几天备战考试,接下来的日子将会继续攻克大数据比赛虽然停止了一段时间没有提交数据,但是这几天的收获还是有的,对Python 随机森林了解的更了解了随机森林是由多课决策树组成(当然这个虽然我们初学者都知道,但是我确定没有现在认识的深刻),多棵决策树经过数据训练后,经过投票方式对测试数据进行判断那么也就是说随机森林的鲁棒性非常好,我们现有的特征还不是特别多,之所以前一段时间出现“过拟合”现象,其实原因有可能是我们当时急功近利,把大多数正确率高的特征放在一起测试数据,导致的“过拟合”,其实非也,…

关于MATLAB处理大数据坐标文件

原先有3000条测试数据,MATLAB表现出来强大的数据处理能力,十几秒就可以把数据分类.分装并储存,这次共有10万条坐标数据,MATLAB明显后劲不足,显示内存不足自我认识:以前MATLAB数据处理是手动将数据导入mat表格,再由程序运行表格数据,但是这次运行光坐标压缩文件就有35兆,就算导入成功也是相当恐怖的一个表格文件解决方案:1.拒绝手动导入,程序导入 2.不使用表格,表格的内存占用明显比文本文档大太多(当然,这种方案比较极端,但是必须执行,否则后期明显性能上就差别人一大截)…

关于MATLAB处理大数据坐标文件2017530

今天使用了所有特征并且用SVM测试数据理由:SVM可以使用特征将测试集划分区域,比较单调.死板结果:成绩很不理想,无疑又一次说明随机森林更适合大数据处理第二次提交数据用MATLAB运行11次运算结果,提取其中6次及6次以上重复出现的数据,提交结果:分数降低5分本次目的:检测以往数据的准确率总结:我们的数据中有部分数据错误了至少6次,那么特征还不够完善,接下来的工作还在特征…

关于MATLAB处理大数据坐标文件201762

经过头脑风暴法想出了很多特征,目前经过筛选已经提交了两次数据,数据提交结果不尽如人意,但是收获很大. 接下来继续提取特征,特征数达到27时筛选出20条特征,并找出最佳搭配…

关于MATLAB处理大数据坐标文件2017622

今天新提交了一次数据,总量达到10337个,本以为成绩会突飞猛进,没想到还是不如从前但是已经找到人工鼠标轨迹的程序,有待完善,接下来兵分四路:找特征.决策树.完善人工轨迹程序,使其可以将生成的数据自动储存.还一个是Python面向对象. 为什么要学习Python面向对象,因为我发现现在接触的程序越多.越深,越觉得举步维艰,越觉得不懂的地方越多.其实我是在学习Java的面向对象吃到了甜处,面向对象可以提高一个程序的可读性,一个程序的可利用性.这几天我们一直在找一个最佳组合,而我们一直是手动去找,…

关于MATLAB处理大数据坐标文件201763

目前已经找出26条特征 ,但是提交数据越来越少,给我的感觉是随机森林画的范围越来越小,输出的机器数据也越来越少,我自认为特征没太大问题我已经将不懂之处列了出来,将于明天咨询大师级人物…

关于MATLAB处理大数据坐标文件2017528

第一次提交数据增加了部分特征 3000数据测试中得分99 但是10万数据出现过拟化现象,正确率下降总结:1.某些特征数据本身波动不大应该考虑放弃 2.一些特征虽然表面觉得差异显而易见,但是数据表达出来的结果不一定完美第二次提交数据这次提交的数据采用昨天提交的特征,并加入今天的得出的特征的其中一个,打算以不同的方式找出最佳配合结果分数降低7分本次吸取经验教训,得出如下总结:1.继续寻找特征的最佳组合 2.训练集太少,端午前后必须扩大训练集…

关于MATLAB处理大数据坐标文件2017526

运行六个特征,提高了3分,也就是说以前做的特征已经用完了,穷途末路,依靠以前的特征已经很难取得进步了,提出以下建议 1.测试集曾经运行错误的数据尽早画出图形,并尽可能发现问题并提出特征 2.运行其他程序测试数据决策树.SVM等 3.不拘泥大赛给的数据…