Tinghua Data Mining 9

【Tinghua Data Mining 9】的更多相关文章

Tinghua Data Mining

Learning Resources 书籍: 期刊: 业界先驱: 开阔视野,掌握业界最新动态. 工具: 数据挖掘是很多学科的综合体: 甭管叫什么名字,归根到底都是数据挖掘: Comprehensive Learning: Learning != Listening 数据 What is Big Data? Big Data: Data Mning Data Integration & Analasis The Process of Data Mining DM Techniques -- Cla…

关联规则,营销购物空缺协同过滤…

Tinghua Data Mining 8

聚类 Clustering 根据评论信息做一些聚类,挖掘关系. bug 期望最大法 peek高峰的个数与高斯函数的个数不一定相同 Z隐含参数不需要求每个点属于哪个簇类似于辅助线跳板借力模型参数是要求的 theta是两个聚类的中心点密度与层次剔除噪点从底往上…

Tinghua Data Mining 7

SVM B分割得更加无偏比较公平卡着分界面的点叫支持向量,就好比托着分界面支持向量决定了可移动的范围,这个范围就叫margin 分界面可移动的距离前提是先要被分对对偶问题一般是不等价的,但是在SVM这里,在满足一些条件的前提下,是等价的.对偶之后,只有alpha,没有w和b 很多alpha是等于0的,只有少数的alpha是不等于0的,非0的乘起来支持向量放宽了约束条件,比如学生学的太差,60分及格的话有人过不了,于是说加上10分之后能够有60分就可以了. 既然放宽了,在目标函数中就…

Tinghua Data Mining 6

Networks 多层感知机不是说这个神经网络要与人的大脑神经完全相似,也不是说要多么的强大,而是在一定程度上模拟了人脑神经元的能力,就足够了为什么要w0呢,因为没有w0超平面一定会经过原点,所以w0和x0是很重要的. 一个样本相当于知错就改理解公式背后的含义,学习率控制每次修改的幅度,很多公式之间都有相似的共性.小的学习率比较稳健. 感知机不能解决线性不可分问题把复杂的问题分解成简单的问题 sigmoid便于求导 t是期望输出,o是实际输出. 要把公式连在一起,不要以为这些公式都是天上…

Tinghua Data Mining 5

ID3 ID3算法倾向于分的很细的变量 C4.5加入分母为惩罚量…

Tinghua Data Mining 4

贝叶斯决策树知道三文鱼和金枪鱼颜色让你去猜 B命中的概率不能直接减去四分之三因为有可能同时命中 A B 命中不是互斥事件即便体检报告是阳性,真正得癌症的概率也很小,只有0.21 绝大多数的阳性都是假阳性 False Positive H头疼 F得了流感了加了一个限定范围之后,居然就独立了.…

Tinghua Data Mining 3

特征选择男女身高男女抽烟先验分布熵衡量系统的不确定性属性的价值降低了不确定性降低的幅度越高越好主成分分析旋转是的数据间的correlation消失掉 Q是正交阵七长八短,长宽相关性不好,信息丢失了很多. 线性判别分析两种颜色投影重叠,分类问题就很尴尬,没法处理 PCA不考虑Label 是无监督的有标签的数据用LDA. 降维的时候保留类的区分信息可分性迄今为止,都是二分类问题…

Tinghua Data Mining 2

数据预处理 https://www.bilibili.com/video/av23933161/?p=11 http://www.xuetangx.com/courses/course-v1:TsinghuaX+80240372X+2018_T1/about Outline 最后2个:特征选择 PC 特征提取 LDA NA:不适用比如学生每个月工资 Outliers离群点离群点对最小二乘影响很大 Anomly 异常点离群点不一定就是异常的姚明不一定有巨人症只是outlier 数据描述…

Distributed Databases and Data Mining: Class timetable

Course textbooks Text 1: M. T. Oszu and P. Valduriez, Principles of Distributed Database Systems, 2nd ed., Prentice-Hall, 1999.Errata Text 2: J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000.Errata Lecture Schedule Th…