1. 两件事伴随发生,不代表他们之间有因果关系 - 从一些荒诞相关性案例说起 在日常生活和数据分析中,我们可以得到大量相关性的结论,例如: 输入X变量,有98%置信度得到Y变量 只要努力,就能成功 只要到了下班时间出公司大门,天就一定黑了 深圳交警表示,天秤.处女.天蝎座的人更喜欢违章 肿瘤发生率随着最近二十年手机的推广逐年上升,证明了手机辐射致癌 屁股大容易生儿子 世界上不吃猪肉的人群中,人自爆的概率最大 据观察统计,消防车数量越多的火灾中,伤亡人数越多 工业革命以来,女人穿的裙子越来越短,全…
1. 贝叶斯网理论部分 笔者在另一篇文章中对贝叶斯网的理论部分进行了总结,在本文中,我们重点关注其在具体场景里的应用. 2. 从概率预测问题说起 0x1:条件概率预测模型之困 我们知道,朴素贝叶斯分类器和Logistic regression模型都是产生概率估计来代替硬性的分类.对于每个类值,它们都是估计某个实例属于这个类的概率. 实际上,大多数其他机器学习分类器都可以转化为产生这类信息的模型,例如: 通过计算叶子节点上每类的相对频率,就能从决策树中得到概率 通过检验某条规则所覆盖的实例,就能从…
机器学习中的范数规则化之(二)核范数与规则项参数选择 zouxy09@qq.com http://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 三.核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm.这个相对于上面火热的L1和L2来说,可能大家就会陌生点.那它是干嘛用的呢?霸气登场:约束Low-Rank(…
 c2c实际是电子商务的专业用语,是个人与个人之间的电子商务.比如一个消费者有一台电脑,通过网络进行交易,把它出售给另外一个消费者,此种交易类型就称为C2C电子商务.淘宝是属于C2C模式的.   c2b是电子商务模式的一种,即消费者对企业(customers to business).真正的C2B 应该先有消费者需求产生而后有企业生产,即先有消费者提出需求,后有生产企业按需求组织生产.通常情况为消费者根据自身需求定制产品和价格,或主动参与产品设计.生产和定价,产品.价格等彰显消费者的个性化需求,…
L0.L1与L2范数.核范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters",也就是在规则化参数的同时最…
概述 个人认为线性代数从三个角度,或者说三个工具来阐述了线性关系,分别是: 向量 矩阵 空间 这三个工具有各自的一套方法,而彼此之间又存在这密切的联系,通过这些抽象出来的工具可以用来干一些实际的活,最为直接的就是解方程组,进一步衍生出来最小二乘法等等. 这一部分主要讲了三个工具的各自的一些基本方法,以及用其解方程组的一套理论.另外,由于是总结,就不按照课程的顺序,而且各点之间都有穿插. 向量(Vector) 对于向量而言,大部分与中学一致,基本的就不说了,关注重点. 线性相关性 线性相关性用于描…
0. 如何入门数据分析 关注沙漠之鹰的同学一定看过沙漠君写得很多篇数据分析文章,比如分析房价,车价,预测机动车摇号这些话题.其实文章中所有的分析都使用了Python和它非常强大的数据分析库Pandas.一些机器学习和预测的功能则用到了sklearn库.掌握了这些工具,就能应对绝大多数的分析需求. 纸上得来终觉浅,即使你看了很多书和代码,也未必比得上多接触例子多敲一些代码,三四个中等规模(约一两百行代码的)的案例就能让你有整体的把握.至于数据采集,沙漠之鹰有开源的数据抓取工具Hawk,网上也有众多…
目录: 一.L0,L1范数 二.L2范数 三.核范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则…
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法…
今天看到一篇讲机器学习范数规则化的文章,讲得特别好,记录学习一下.原博客地址(http://blog.csdn.net/zouxy09). 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是“minimizeyour error…
在人工智能时代,要培养自己的AIQ,其中的关键还是区分事实.观点和推理,在平时的工作生活中关注AI的发展,了解AI的优缺点,尝试用AI的优势让自己工作和生活的更好. 如果说IQ是用来测量一个人的智商,EQ用来评价一个人的情商,那么AIQ就是评价一个人对人工智能的认知.<AIQ>的两位作者都是数字工程师,他们认为要适应未来“人+机器”的工作场景,每个人都需要培养AIQ,提升对AI的认知,以便更容易适应科技快速迭代改变的未来.此外,人类还需要有能力去监督AI,在“人+机器”的协作中,成为关键的一环…
装载自:https://blog.csdn.net/u012467880/article/details/52852242 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是“minimizeyour error while r…
A/B测试背后有着高深的统计学知识,今天我们就来讲讲常见的辛普森悖论. 辛普森悖论 (Simpson's Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论. 举一个辛普森悖论的简单小例子:一个大学里有商学院和法学院两个学院.这两个学院的女生都抱怨"男生录取率比女生录取率高",有性别歧视.但是学校做总录取率统计,却发现总体来说女生录取…
也许会有人这样解释C# 中浅拷贝与深拷贝区别: 浅拷贝是对引用类型拷贝地址,对值类型直接进行拷贝. 不能说它完全错误,但至少还不够严谨.比如:string 类型咋说? 其实,我们可以通过实践来寻找答案. 首先,定义以下类型: int .string .enum .struct .class .int[ ] .string[ ] 代码如下:     //枚举     public enum myEnum  }       //结构体     public struct myStruct     {…
Logistic regression is a method for classifying data into discrete outcomes. For example, we might use logistic regression to classify an email as spam or not spam. In this module, we introduce the notion of classification, the cost function for logi…
我们浏览网页的时候,当单击某段文字或图片时,就会打开一个新的网页,这里面就使用了超链接. 就比如下图是一个导航类网页,当你单击某个链接就会打开新的网页. 比如,我拿我的qq空间“金河访谈”举例,新建一个网页 a.html,输入下面的内容: <html> <head> <title> html中的超链接标签-a标签 </title> </head> <body> 1,直接转向其他页面: <a href="http://1…
RPM:Red Hat package manager(RedHat软件包管理工具),现在为RPM is Package Manager好比windows里的文件扩展名为·exe的软件包. RPM的包装包到底是什么啦? 它是二进制包(binary)以及源代码包(source)的两种.二进制包里边包括了已经通过编译,你只需要下载和解包,便可以在计算机上运行了.而源代码包里只有程序的原始代码,需要我们自己在计算机上先编译以后才可以运行程序.而我这里讲到的源码包是通过rpm包的自动编译和安装.Rpm编…
I Proofs1 What is a Proof?2 The Well Ordering Principle3 Logical Formulas4 Mathematical Data Types5 Induction6 State Machines7 Recursive Data Types8 Infinite SetsII Structures9 Number Theory10 Directed graphs & Partial Orders11 Communication Networks…
我对于 JavaScript 的内存模型一直都比较困惑,很想了解在操作变量的时候,JS 是如何工作的.如果你和我有同样的困惑,希望这篇文章能给你一些启发. 译文,喜欢原文的可以直接拉到底部 当我们声明变量.初始化变量.更改变量值的时候,到底会发生什么?JavaScript 是如何实现这些基本的功能?最重要的是,我们如何才能理解这些基础知识? 本文将覆盖以下 4 个方面: JavaScript 原始数据类型的变量声明和赋值 JavaScript 内存模型:调用栈和堆 JavaScript 引用类型…
前面结束了关于 learning 部分一些粗浅的讨论,我们大概明白了一些 learning 中 common sense/techniques.剩下的部分我们分为 causality 和 utility 两部分.Koller 的课程上面稍微涉及了一些后者的东西,不过觉得前者也挺有意思的,顺便了解一些初步的概念和知识吧. 和前面的一些 probabilistic query 不同的是 causality 存在下面两种 query: intervention query:看起来和 condition…
详解DOM(文档对象模型(Docment Object Model)) ✍  DOM中定义了许多节点类型来表示节点的多个方面: 文档节点Document 最顶层的节点(跟节点),代表整个HTML文档,所有的其它节点都是附属它的.每个web文档都有一个文档节点 文档类型节点DocumentType <!DOCTYPE>元素用于声明一个页面的文档类型定义(Document Type Declaration,即DTD).此元素声明位于文档中的最前面的位置,处于<html>标签之前.通过确…
数据加密标准(Data Encryption Standard,DES)是当前使用最广泛的加密体制,对于任意的加密方案,总有两个输入:明文和密钥. 明文是64bits,密钥是56bits 加密过程就是初始和终结有两次置换,中间有十六轮加密变换. 以下是详细过程: (生成子密钥) 查看ASCLL表,将computer转换为如下16进制表示的数:(具体不展开) 63 6f 6d 70 75 74 63 72 置换是根据置换表来的,往下会有提供. (看不清楚点击我) 举个例子:PC-1置换, (看不清…
1.位姿求解是计算机视觉中经常遇到的,Perspective-n-Points, PnP(P3P)提供了一种解决方案,它是一种由3D-2D的位姿求解方式,即需要已知匹配的3D点和图像2D点.目前遇到的场景主要有两个,其一是求解相机相对于某2维图像/3维物体的位姿,具体的如AR应用,人脸跟踪等:其二就是SLAM算法中估计相机位姿时通常需要PnP给出相机初始位姿. 这里要说明的是在场景1中,我们通常输入的是物体在世界坐标系下的3D点以及这些3D点在图像上投影的2D点,因此求得的是相机(相机坐标系)相…
垂直搜索结果的优化包括对搜索结果的控制和排序优化两方面,其中排序又是重中之重.本文将全面深入探讨垂直搜索的排序模型的演化过程,最后推导出BM25模型的排序.然后将演示如何修改lucene的排序源代码,下一篇将深入解读目前比较火热的机器学习排序在垂直搜索中的应用.本文的结构如下: 一.VSM模型简单介绍: 二.lucene默认的评分公式介绍: 三.概率语言模型中的二元独立模型BIM介绍: 四.BM25介绍: 五.lucene中的edismax解析器介绍以及评分公式源代码介绍: 六.修改排序源代码:…
题目大意: 给定一个长度为n的字符串s,由字符0和1组成 你可以让这个字符串s无限延长 就令字符串t=sssssss...... 求字符串t有多少个前缀字符串中,0的个数减去1的个数等于x 解题思路: 本文可能讲的很复杂……不知道多套了几个例子进去会不会好点…… 对于一个周期,可以先记录前缀和到某个位置k时答案的大小 这里用一个数组cha记录这个差 最后cha[i]记录的是一个周期内出现i这个差的次数 就例如样例1的010010 可以得到不同前缀的差分别为1 0 1 2 1 2 那么cha[0]…
本文源码均来自Java 8 总体介绍 Collection接口是集合类的根接口,Java中没有提供这个接口的直接的实现类.Set和List两个类继承于它.Set中不能包含重复的元素,也没有顺序来存放.而List是一个有序的集合,可以包含重复的元素. 而Map又是另一个接口,它和Collection接口没有关系.Map包含了key-value键值对,同一个Map里key是不能重复的,而不同key的value是可以相同的. 在这里借用一张别人总结的对比图进行总结   集合类对比 (上图来源:http…
Direct and Indirect Effects Author: Judea Pearl UAI 2001 加州大学洛杉矶分校 论文链接:https://dl.acm.org/doi/pdf/10.5555/2074022.2074073 本文链接:https://www.cnblogs.com/zihaojun/p/15715903.html 目录 Direct and Indirect Effects 前言 1. Introduction 2. 概念性分析 2.1 直接效应 VS. 总…
Java基础 在开始学习Java基础之前,我们先来学习一下IDEA 打开IDEA,新建一个项目(New Project),选择空项目(Empty Project),填写项目名(Project name)比如我的JavaSE,填写路径(Project localtion)比如我的D:/代码/JavaSE,最后选择结束Finish:这样我们的空项目就建好了:加载好后如果提示就选择This Windows 在IDEA左上角选择文件(File),选择新(New),选择新建模块(New Module),选…
CLIP:多模态领域革命者 当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18年的 DeepDream[1] 噩梦中惊醒过来,开始从2022年 OpenAI 的 DALL·E 2[2] 引来插画效果和联想效果都达到惊人效果.虽然不懂,但是这个话题很吸引ZOMI,于是就着这个领域内容来看看有什么好玩的技术点. 但是要了解:Transformer 带来AI+艺术,从语言开始遇到多模态,碰撞…
同样可参考: http://blog.csdn.net/wsywl/article/details/5889419 http://wenku.baidu.com/link?url=pEBtVQFzTx0I9T9vr01WS6_NmOY7EylNwa-suKpx3ab1YZfL4QvYsPt2chXyvXOvU3bBa_CrTOaZ0QV_KmcMCmTrqXvZQNKy-cLHQ8J2Y0q 转自:https://www.douban.com/note/267043565/ 测量相关程度的相关系…