1. 线性模型 基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... + wdxd + b 令w=(w1; w2; ......; wd),x = (x1; x2; ......; xd),使用矩阵乘法写为向量形式: f(x) = wTx + b 在w和b的值确定后(w=(w1; w2; ......; wd)),整个模型就得以确定,其中,权重向量w可以直观表达各个…
机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997). 机器学习的研究内容:关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm). 1.名词定义 数据集 (Data set):数据的集合,其中每条数据都称为一条样本 (Sample)或示例 (Instance).即: 样本 (Sample) = 示例 (Instan…
1. 决策树 一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列.其基本流程如下所示: 输入:训练集D={(x1,y1), (x2, y2), ......, (xm, ym)} 属性集A={a1, a2, ......, ad} 过程:函数TreeGenerate(D, A),传入参数为训练集D与属性集A…
1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值,yi是xi的真实标记,评估模型性能,即将预测结果f(x)与真实标记y进行比较. 对于回归任务:均方误差 (Mean squared error) 更一般的,对于数据分布D和概率密度函数p(·),均方误差可描述为: 错误率 (Error rate):分类错误样本数占总样本数比例(其中,II(·)为指…
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等,而测试集则在最后用于模型的整体性能评估. 1. 留出法 (Hold-out) 将数据集D划分为2个互斥子集,其中一个作为训练集S,另一个作为测试集T,即有: D = S ∪ T, S ∩ T = ∅ 用训练集S训练模型,再用测试集T评估误差,作为泛化误差估计. 特点:单次使用留出法得到的估计结果往…
2019/11/2 1.    表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相传递信息.表现层状态转换是根基于超文本传输协议(HTTP)之上而确定的一组约束和属性,是一种设计提供万维网络服务的软件构建风格.符合或兼容于这种架构风格(简称为 REST 或 RESTful)的网络服务,允许客户端发出以统一资源标识符访问和操作网络资源的请求,而与预先定义好的无状态操作集一致化.因此…
字符串是一个有序的字符集合,用于存储和表现基于文本的信息. 常见的字符串常量和表达式 T1=‘’ 空字符串 T2="diege's" 双引号 T3="""...""" 三重引号块 T4=r'\temp\diege' Raw字符串 抑制(取消)转义,完全打印\tmp\diege,而没有制表符 T5=u’diege' Unicode字符串 T1+T2     合并 T1*3    重复 T2[i]    索引 T2[i:j] 分片…
theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation…
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法. 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面,此时我要爬取该索引页中的每个条目的详细信息(纵向爬取),然后在分页器里跳转到下一页(横向爬取),再爬取第二页中的每个条目的详细信息,如此循环,直至最后一个条目. 这样来定义双向爬取: 水平方向 – 从一个索引页到另一个索引页 纯直方向 – 从一个索引页到条目详情页 在本节中, 提取索引页到下一个索引…
Struts2上传下载 文件上传 如果想使用HTML表单上传文件(一个或多个),那么必须把HTML表单的enctype属性设置成multipart/form-data,且method=post, 且使用<input type="file">. 在Struts里,我么使用FileUpload拦截器和 Jakarta Commons FileUpload 组件可以完成文件的上传. 步骤:1.在jsp中使用file标签,如果上传一个文件就写一个,多个文件的话使用多个file标签,…