横向比较: Inadequacy of current system design( 现代系统和一些软件的不足) 软件特点: Output sensitivity Out-of core data handing Incremental updates Scalabity Visibility-guided rendering 作者对所有节点赋予了可见性权值,该权值影响节点在 (外存-内存-显存)交换中的优先度. 整体架构: Queuing occlusion queries GPU向CPU发送…
Massive Data处理一直是云计算中很重要的一个环节.目前像Google,Yahoo在相关方面都有自己专有的技术.例如Google的基于MapReduce的Sawzall语言.和Yahoo基于Hadoop的Pig. Cosmos是微软的一个运行在大规模服务器集群上的分布式技术平台.专门用来存储和分析Massive Data.有了SCOPE,相信微软自己的云计算架构将会更有吸引力.不同于Google,和Yahoo的是微软的SCOPE语言虽然像SQL语句,但其实是来自C#语言扩展. 什么是Sc…
先说一下,这个其实是我为实现PantaRay或者是类似Dreamworks的Out of Core点云GI的技术储备,为大规模点云光线跟踪所准备的第一步.在实际的应用中,int类型会被64bit的uint64_t所代替,代表空间中的一个hash键.所有的代码全部使用STL+boost实现了足够高层次的抽象,读者完全可以根据自己的需要改写. This is the first step to implement the PantaRay or the GI solution from Dreamw…
目录 概 主要内容 ELBO 网络结构 不同的数据 HI-VAE 代码 Nazabal A., Olmos P., Ghahramani Z. and Valera I. Handing incomplete heterogeneous data using VAEs. Pattern Recognition, 2020, 107: 107501. 概 这篇文章利用VAE处理缺失数据, 以往的对缺失数据的处理往往是不区分连续离散, 数字符号的, 感觉这里利用分布的处理方式非常精彩. 主要内容 E…
How To Build Compelling Stories From Your Data Sets Every number has a story. As a data scientist, you have the incredible job of digging in and analyzing massive sets of numbers to find what that story is. The challenge can be that while you may hav…
What does working with large data sets in mySQL teach you ? Of course you have to learn a lot about query optimization, art of building summary tables and tricks of executing queries exactly as you want. I already wrote about development and configur…
{"error":{"root_cause":[{"type":"query_phase_execution_exception","reason":"Result window is too large, from + size must be less than or equal to: [10000] but was [78440]. See the scroll api for a mor…
第一周: 学习PageRank, 知识点:每个节点的权值由其他节点的投票决定,所有节点的权值和为1 当节点很多时候必须转换成矩阵运算来计算节点的最终值,由马尔可夫链可以证明,这个值可以迭代得到 问题:可能出现无出度节点,导致总体失衡 解决办法:每个节点的入读权值矩阵M' = 0.8*M + 0.2*1/n,以0.2的概率跳出当前节点 第二周: minhashing h(i) 随机排列后,一列数据的第一个不为1的下标 用普通hash替代每个minhashing(hash出每行每列,在移动行中,确定…
http://archive.ics.uci.edu/ml/datasets.html 例如 3 分类 鸢尾花 数据集: http://archive.ics.uci.edu/ml/datasets/Iris # import sklearn dir(sklearn.datasets) from sklearn import datasetsiris = datasets.load_iris()iris.data iris.target iris…
本文介绍了一种发现两个随机变量之间依赖关系强度的度量MIC(最大信息系数,类似于相关系数的作用).MIC具有以下性质和优势: MIC度量具有普适性.其不仅可以发现变量间的线性函数关系,还能发现非线性函数关系(指数的,周期的):不仅能发现函数关系,还能发现非函数关系(比如函数关系的叠加,或者有趣的图形模式). MIC度量具有均衡性.对于相同噪声水平的函数关系或者非函数关系,MIC度量具有近似的值.所以MIC度量不仅可以用来纵向比较同一相关关系的强度,还可以用来横向比较不同关系的强度. MIC度量计…