import os import email import email.policy 1. 读取邮件数据 SPAM_PATH = os.path.join( "E:\\3.Study\\机器学习\\Hand on Machine Learning\\第三章:分类\\spam_data") spam_path = os.path.join(SPAM_PATH, "spam") ham_path = os.path.join(SPAM_PATH, "easy_…
1. 获取数据 使用MNIST数据集练习分类任务 from sklearn.datasets import fetch_mldata from scipy.io import loadmat mnist = fetch_mldata('MNIST original', transpose_data=True, data_home='files') print(mnist) # *DESCR为description,即数据集的描述 # *CLO_NAMES为列名 # *target键,带有标记的数…
-#!/usr/bin/env python -# # # -- coding: utf-8 -- -# # # @Time : 2019.5.22 14:09 -# # # @Author : AndrewCHH -# # # @File : after_class.py 1. 获取数据 使用MNIST数据集练习分类任务 from __future__ import print_function import pandas as pd # 导入后加入以下列,再显示时显示完全. pd.set_o…
ML week3 逻辑回归 Logistic Function h_\theta(x)=g(\theta^Tx) g(t)=\frac{1}{1+e^{-z}} 当t大于0, 即下面公式成立时,y=1 \frac{1}{1+e^{-{\theta^Tx}}}>0.5 => {\theta^Tx}>0 关于theta与数据 y(x)=\theta_0+\theta_1x1+\theta_2x2 y(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3 x…
这门课是CS100.1x的后续课,看课程名字就知道这门课主要讲机器学习.难度也会比上一门课大一点.如果你对这门课感兴趣,可以看看我这篇博客,如果对PySpark感兴趣,可以看我分析作业的博客. Course Software Setup 这门课的环境配置和上一门一模一样,参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark. Lecture 1 Course Overview and Introduction to Machine…
本章通过一个例子,介绍机器学习的整个流程. 2.1 使用真实数据集练手(Working with Real Data) 国外一些获取数据的网站: Popular open data repositories: UC Irvine Machine Learning Repository Kaggle datasets Amazon's AWS datasets Meta portals (they list open data repositories): http://dataportals.o…
本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,作者深入浅出的概述了贝叶斯背后的思想跟应用领域,关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义,关于代码实现可以参考一些开源的包或者自己动手写(之前,闲来无…
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数字识别 通过“约会对象”功能,基本能够了解到kNN算法的工作原理.“手写数字识别”与“约会对象预测”使用完全一样的算法代码,仅仅是数据集有变化. 约会对象预测 1 约会对象预测功能需求 主人公“张三”喜欢结交新朋友.“系统A”上面注册了很多类似于“张三”的用户,大家都想结交心朋友.“张三”最开始通过自己筛选的…
4 回归 之前有转载过一篇文章:容量推荐引擎:基于吞吐量和利用率的预测缩放,里面用到了基本的线性回归来预测容器的资源利用情况.后面打算学一下相关的知识,译自:Machine Learning With Go 我们将探究的第一组机器学习技术通常被称为回归(regression),我们可以将回归理解为一个变量(例如销售额)的变化是如何影响到其他变量(如用户数)的.对于机器学习技术来说,这是一个很好的开端,它们是构成其他更加复杂技术的基础. 机器学习中的回归技术通常会注重评估连续值(如股票价格.温度或…
[]To help you practice strategies for machine learning, the following exercise will present an in-depth scenario and ask how you would act. Consider airplane pilots who’s training involves time spent in flight simulators. These flight simulators acce…