Octave/Matlab Tutorial

Basic Operations

你现在已经掌握不少机器学习知识了在这段视频中我将教你一种编程语言 Octave语言 你能够用它来非常迅速地实现这门课中我们已经学过或者将要学的机器学习算法

过去我一直尝试用不同的编程语言来教授机器学习包括C++、Java、 Python、Numpy 和 Octave 我发现当使用像 Octave这样的高级语言时学生能够更快更好地学习并掌握这些算法

事实上在硅谷我经常看到的情况是进行大规模的机器学习项目的人通常会使用的程序语言就是Octave， Octave是一种很好的原始语言(prototyping language) 使用Octave 你能快速地实现你的算法 剩下的事情你只需要进行大规模的资源配置你只用再花时间用C++或Java这些语言把算法重新实现就行了因为我们知道开发项目的时间或者说你的时间是很宝贵的机器学习的时间也是很宝贵的所以如果你能让你的学习算法在Octave上快速的实现基本的想法实现以后再用C++或者Java去改写这样你就能节省出大量的时间

据我所见人们使用最多的用于机器学习的原始语言是Octave、MATLAB Python、NumPy 和 R Octave很好因为它是开源的当然 MATLAB也很好但它不是每个人都买得起的但是如果你能够使用MATLAB 你也可以在这门课里面使用如果你会Python、NumPy 或者R语言我也见过有人用 R 的但是据我所知这些人不得不中途放弃了因为这些语言在开发上比较慢而且因为这些语言 Python、NumPy的语法相较于Octave来说还是更麻烦一点正因为这样也因为我们最开始用Octave来写程序所以我强烈建议你不要用NumPy或者R来完整这门课的作业我建议你在这门课中用Octave来写程序接下来本视频将快速地介绍一系列的命令目标是迅速地展示通过这一系列Octave的命令让你知道Octave能用来做什么我们的网站会提供所有我在视频中提到的内容的文本所以当你看完这个视频想查询一些命令时你可以查看这些资料这些都放在网上了

总之我建议你先看教学视频之后把Octave安装到电脑上最后去这门课的网站上下载这门课的相关文档和视频然后你可以试着在Octave中键入一些有趣的命令让程序运行在你的电脑上这样你可以看到程序是怎么运行的

让我们开始吧这里是我的Windows桌面启动Octave 现在打开Octave 这是Octave命令行现在让我示范最基本的Octave代码

输入5 + 6 然后得到11 ；输入3 - 2； 5×8；1/2；2 ^ 6 得到64；这些都是基本的数学运算

>> 5+6
ans =  11
>> 3-2
ans =  1
>> 5*8
ans =  40
>> 1/2
ans =  0.50000
>> 2^6
ans =  64

你也可以做逻辑运算例如 1==2 计算结果为 false ( 假 ) 这里的百分号命令表示注释， 1==2 计算结果为假这里用0表示；

1 ~= 2 这是真的因此返回1 请注意不等于符号的写法是这个波浪线加上等于符号 ( ~= ) 而不是等于感叹号加等号 ( != ) 这是和其他一些编程语言中不太一样的地方

让我们看看逻辑运算 1 && 0 使用双＆符号表示逻辑与 1 && 0判断为假 1和0的或运算 1 || 0 其计算结果为真

还有异或运算如XOR ( 1, 0 ) 其返回值为1

>> 1 == 2  %false
ans = 0
>> 1 ~= 2  %true
ans =  1
>> 8>1 && 0  %AND
ans = 0
>> 9>1 || 1  %OR
ans =  1
>> xor(1,0)
ans =  1

从左向右写着 Octave 324.x版本其计算结果等于11 这是默认的Octave提示它显示了当前Octave的版本以及相关的其它信息如果你不想看到那个提示这里有一个隐藏的命令输入命令 PS('>> '); 现在你看到的就是等待命令的快捷提示这句话在中间有一个字符串 ('>> '); 这是我喜欢的命令行样子这里敲一个回车抱歉写错了这样才对要写成PS1这样现在命令提示已经变得简化了这样看起来很棒

>> PS1('>>>');
>>>

接下来我们将谈到Octave的变量 现在写一个变量对变量A赋值为3 并按下回车键显示变量A等于3 如果你想分配一个变量但不希望在屏幕上显示结果 你可以在命令后加一个分号可以抑制打印输出敲入回车后不打印任何东西。 A等于3 只是不显示出来其中这句命令不打印任何东西现在举一个字符串的例子变量b等于"hi" 现在如果我输入b 则会显示字符串变量b的值"hi" C等于3大于等于1 所以现在C变量的值是真如果你想打印出变量或显示一个变量你可以像下面这么做设置A等于圆周率π 如果我要打印该值那么只需键入A 像这样就打印出来了

>>>a = 3
a =  3
>>>a = 3;  #分号抑制打印
>>>

对于更复杂的屏幕输出也可以用DISP命令显示 Disp( A )就相当于像这样打印出A 你也可以用该命令来显示字符串输入disp sprintf 小数 0.2% 逗号 A 像这样通过这条命令将打印出字符串打印显示为“两位小数：3.14” 这是一种旧风格的C语言语法如果就学过C语言的同学来说你可以使用这种基本的语法来将结果打印到屏幕 Sprintf命令生成一个字符串不仅仅是字符串“2 decimal：3.14” 其中的“0.2％F”表示代替A放在这里并显示A值的小数点后两位数字同时DISP 命令对字符串做出操作 DISP命令输出 Sprintf产生的字符串 Sprintf命令和DISP命令显示字符串再说一个细节例如 sprintf命令的六个小数 0.6％F ,A 这应该打印π 的6位小数形式最后看起来像这样也有一些控制输出长短格式的快捷命令默认情况下是字符串显示出的小数位有点多短 ( short ) 格式是默认的输出格式只是打印小数数位的第一位相关这方面的内容还需要你继续练习

>>>a = 3.14;
>>>a
a =  3.1400
>>>disp(a);
 3.1400
>>>disp(sprintf('2 decimals: %0.2f', a));
2 decimals: 3.14

>>>a=pi
a =  3.1416
>>>format long
>>>a
a =  3.14159265358979
>>>format short
>>>a
a =  3.1416

下面让我们来看看向量和矩阵比方说建立一个矩阵A 输入1 2 ; 3 4 ; 5 6 这会产生一个三行两列的矩阵A 其第一行是1 2 第二行是3 4 第三行是5 6 分号的作用从本质上来说就是在矩阵内换行到下一行此外还有其他的方法来建立矩阵A 输入A矩阵的值 1 2 分号 3 4 分号 5 6 这是另一种方法对A矩阵进行赋值考虑到这是一个三行两列的矩阵

>>>A = [1 2; 3 4; 5 6]
A =
 
   1   2
   3   4
   5   6
 
>>>a = [1 2;
3 4;
5 6]
a =
 
   1   2
   3   4
   5   6

你同样可以用向量建立向量V并赋值1 2 3 V是一个行向量或者说是一个3 ( 列 )×1 ( 行 ) 的向量一个胖胖的Y向量或者说一行三列的矩阵注意不是三行一列如果我想分配一个列向量我可以写“1;2;3” 现在便有了一个 3 行 1 列的向量同时这是一个列向量下面是一些更为有用的符号 V等于1：0.1：2 这个该如何理解呢这个集合V是一组值从数值1开始增量或说是步长为0.1 直到增加到2 按照这样的方法对向量V操作可以得到一个行向量这是一个1行11列的矩阵其矩阵的元素是1 1.1 1.2 1.3 依此类推直到数值2

>>>v = [1 2 3]
v =
 
   1   2   3
 
>>>v = [1; 2; 3]
v =
 
   1
   2
   3

>>>v = 1:0.1:2
v =
 
 Columns 1 through 4:
 
    1.0000    1.1000    1.2000    1.3000
 
 Columns 5 through 8:
 
    1.4000    1.5000    1.6000    1.7000
 
 Columns 9 through 11:
 
    1.8000    1.9000    2.0000

>>>v = 1:6
v =
 
   1   2   3   4   5   6

现在我也可以建立一个集合V并用命令“1:6”进行赋值这样V就被赋值了 1至6的六个整数这里还有一些其他的方法来生成矩阵例如“ones(2, 3)” 也可以用来生成矩阵其结果为一个两行三列的矩阵不过矩阵中的所有元素都为1 当我想生成一个元素都为2 两行三列的矩阵就可以使用这个命令你可以把这个方法当成一个生成矩阵的快速方法当你想生成一个三维2×2×2的矩阵时你就可以用这个“ones”命令比方说 w是一个有三个1的行向量或者说一行由三个同样的1组成的向量你也可以说 w为一个一行三列的零矩阵一行三列的A矩阵里的元素全部是零

>>>ones(2,3)
ans =
 
   1   1   1
   1   1   1
 
>>>w = ones(1,3)
w =
 
   1   1   1

还有很多的方式来生成矩阵如果我对W进行赋值用Rand命令建立一个一行三列的矩阵因为使用了Rand命令则其一行三列的元素均为随机值如果我使用 “rand(3, 3)”命令这就生成了一个 3×3的矩阵并且其所有元素均为随机数值介于0和1之间所以正是因为这一点我们可以得到数值均匀介于0和1之间的元素

>>>w = rand(3,3)
w =
 
   0.91025   0.82671   0.14067
   0.90400   0.34350   0.51289
   0.25501   0.24975   0.80750

如果你知道什么是高斯随机变量或者你知道什么是正态分布的随机变量你可以设置集合W 使其等于一个一行三列的N矩阵并且来自三个值一个平均值为0的高斯分布方差或者等于1的标准偏差还可以设置地更复杂

벵>>>w = randn(1,3)
w =
 
  -0.052546  -1.786869   0.754202

例如 W减去6 再加上10的平方两者相乘 Rand命令生成一个1行10000列的矩阵把分号放到末尾这样结果就打印不出来那这样会得到什么呢这样就可以得到一个有10000元素的向量想知道具体是多少我们也可把它打印出来这将产生一个这样的矩阵生成了这个叫做 data 的对象是吧？这就是一个有着10000个元素的矩阵W 如果我现在用绘制直方图命令绘制出一个直方图使用Octave的打印直方图命令你只需要数秒钟就可以将它绘制出来这是一个对随机变量W 绘制出的直方图这里是-6+0 乘上十倍的高斯随机变量这样可以绘制出一个有着更多条的乃至50个条的直方图来这样就有一个均值减去6的高斯直方图因为这里是 -6加10的平方根并与这项相乘因此这个高斯随机变量的方差是10 且其标准偏差为10的平方根 3.1

w = -6 + sqrt(10)*(randn(1,10000));
hist(w)
hist(w, 50)

最后说一个生成矩阵的特殊命令I 其实 I也可说是一个双关语字标识设置一个4阶单位矩阵这是一个4×4矩阵所以I为“eye(4)” 通过上面的命令得到4×4矩阵 I可以等于5阶单位阵 6阶单位阵那么就有 6阶单位阵 eye( 3 )是一个3阶方阵

>> eye(4)
ans =
 
Diagonal Matrix
 
   1   0   0   0
   0   1   0   0
   0   0   1   0
   0   0   0   1

在本节视频的最后还有一个比较有用的命令那就是帮助命令例如你可以键入help i 它就会将矩阵的相关信息显示出来命令Q可以退出Octave 你也可以键入help rand 将会显示出有关rand函数的相关帮助文档以及相关的随机数生成函数甚至可以使用命令help help 将会显示出help命令的使用方法

>> help
 
  For help with individual commands and functions type
 
    help NAME
 
  (replace NAME with the name of the command or function you would
  like to learn more about).
 
  For a more detailed introduction to GNU Octave, please consult the
  manual.  To read the manual from the prompt type
 
    doc
 
  GNU Octave is supported and developed by its user community.
  For more information visit http://www.octave.org.

以上讲解的内容都是Octave的基本操作希望你能通过上面的讲解自己练习一些矩阵、乘、加等操作将这些操作在Octave中熟练在接下来的视频中将会涉及更多复杂的命令并使用它们在Octave中对数据进行更多的操作

Moving Data Around移动数据

在第二段关于 Octave的辅导课视频中我将开始介绍如何在 Octave 中移动数据 具体来说如果你有一个机器学习问题你怎样把数据加载到 Octave 中？怎样把数据存入一个矩阵？如何对矩阵进行相乘？如何保存计算结果？如何移动这些数据并用数据进行操作？

和之前一样这是我的 Octave 窗口我们继续沿用上次的窗口我键入 A 得到我们之前构建的矩阵 A 也就是用这个命令生成的 A = 这是一个三行二列的矩阵

Octave 中的 size() 命令返回矩阵的尺寸所以 size(A) 命令返回3 2 实际上 size() 命令返回的是一个 1×2 的矩阵我们可以用 sz 来存放设置 sz = size(A) 因此 sz 就是一个1×2的矩阵第一个元素是3 第二个元素是2 所以如果键入 size(sz) 看看 sz 的尺寸返回的是1 2 表示是一个1×2的矩阵 1 和 2 分别表示矩阵 A 的维度 (此处口误应为 sz 的维度译者注)

>> A = [1 2; 3 4; 5 6]
A =
 
   1   2
   3   4
   5   6
 
>> size(A)
ans =
 
   3   2
 
>> sz = size(A)
sz =
 
   3   2
 
>> size(sz)
ans =
 
   1   2

>> size(A,1)
ans =  3
>> size(A,2)
ans =  2

你也可以键入 size(A, 1) 这个命令会返回 A 矩阵的第一个元素 A 矩阵的第一个维度的尺寸也就是 A 矩阵的行数同样命令 size(A, 2) 将返回2 也就是 A 矩阵的列数也就是 A 矩阵的列数如果你有一个向量 v 假如 v = 假如 v = 然后键入 length(v) 这个命令将返回最大维度的大小你也可以键入 length(A) 由于矩阵 A 是一个3×2的矩阵因此最大的维度应该是3 因此该命令会返回3 但通常我们还是对向量使用 length 命令比如 length() 比如 length() 而不是对矩阵使用 length 命令因为毕竟有点容易让人弄混

>> V = [1 2 3 4]
V =
 
   1   2   3   4
 
>> length(V)
ans =  4
>> length(A)
ans =  3

下面让我们来看看如何在系统中 加载数据和寻找数据 当我们打开 Octave 时我们通常已经在一个默认路径中这个路径是 Octave 的安装位置 pwd 命令可以显示出 Octave 当前所处路径 Octave 当前所处路径所以现在我们就在这个目录下 cd 命令意思是改变路径我可以把路径改为C:\Users\ang\Desktop 这样当前目录就变为了桌面如果键入 ls ls 来自于一个 Unix 或者 Linux 命令 ls 命令将列出我桌面上的所有路径因此这些就是我桌面上的所有文件了

>> pwd
ans = C:\Users\xin
>> cd 'E:\TEMPsrc\octave'
>> pwd
ans = E:\TEMPsrc\octave
>> ls

事实上我的桌面上有两个文件 featuresX.dat 和 priceY.dat 是两个我想解决的机器学习问题这是我的桌面这是 featuresX 文件 featuresX 文件如这个窗口所示是一个含有两列数据的文件这其实就是我的房屋价格数据我想应该是数据集中有47行第一个房子样本面积是2104平方英尺有3个卧室第二套房子面积为1600 有3个卧室等等 priceY 是这个文件也就是训练集中的价格数据所以 featuresX 和 priceY 就是两个存放数据的文档那么应该怎样把数据读入 Octave 呢？好的我们只需要键键入 featuresX.dat 这样我将加载了 featuresX 文件同样地我可以加载 priceY.dat 其实有好多种办法可以完成如果你把命令写成字符串的形式 load('featureX.dat') 也是可以的这里打错了这跟刚才的命令效果是相同的只不过是把文件名写成了一个字符串的形式现在文件名被存在一个字符串中 Octave 中使用引号来表示字符串就像这样这就是一个字符串因此我们读取的文件文件名由这个字符串给出

load featuresX.dat
load priceY.dat
load('featuresX.dat')

另外 who 命令能显示出在我的 Octave 工作空间中的所有变量因此 who 命令显示出当前 Octave 储存的变量包括 featureX 和 priceY 同样还包括在此之前你创建的那些变量

>> who
Variables in the current scope:
 
a    ans  b    c

所以我可以键入 featuresX 回车来显示 featuresX 这些就是存在里面的数据还可以键入 size(featuresX) 得出的结果是 47 2 代表这是一个47×2的矩阵类似地输入 size(priceY) 结果是 47 1 表示这是一个47维的向量是一个列矩阵存放的是训练集中的所有价格 Y 的值 who 函数能让你看到当前工作空间中的所有变量

同样还有另一个 whos 命令能更详细地进行查看因此在 who 后面加一个 s 同样也列出我所有的变量不仅如此还列出了变量的维度我们看到 A 是一个 3×2的矩阵 X 是一个47×2的矩阵 priceY 是一个47×1的矩阵也就是一个向量同时还显示出需要占用多少内存空间以及数据类型是什么 double 意思是双精度浮点型这也就是说这些数都是实数是浮点数

>> whos
Variables in the current scope:
 
   Attr Name        Size                     Bytes  Class
 
   ==== ====        ====                     =====  =====
 
        a           1x1                          8  doubl
e
        ans         1x17                        17  char
        b           1x1                          8  doubl
e
        c           1x1                          8  doubl
e
        d           3x2                         48  doubl
e
 
Total is 26 elements using 89 bytes

如果你想删除某个变量你可以使用 clear 命令因此我们键入 clear featuresX 然后再输入 whos 命令你会发现 featuresX 消失了

>> who
Variables in the current scope:
 
a    ans  b    c    d
 
>> clear a
>> who
Variables in the current scope:
 
ans  b    c    d

另外我们怎么储存数据呢？我们来看我们设变量 v 为 priceY(1:10) 这表示的是将向量 Y 的前10个元素存入 v 中我们输入 who 或者 whos Y 是一个47×1的向量因此现在 v 就是10×1的向量因为刚才设置了 v = priceY(1:10) 这便将 v 的值设为了 Y 的前十个元素假如我们想把它存入硬盘那么用 save hello.mat v 命令这个命令会将变量 v 存成一个叫 hello.mat 的文件让我们回车现在我的桌面上就出现了一个新文件名为 hello.mat 由于我的电脑里也同时安装了 MATLAB 所以这个图标上面有 MATLAB 的标识因为操作系统把文件识别为 MATLAB 文件所以如果在你的电脑上图标显示的不一样的话也没有关系

>> save hello.mat d

现在我们清除所有变量直接键入 clear 这样将删除工作空间中的所有变量所以现在工作空间中啥都没了

>> clear
>> who

但如果我载入 hello.mat 文件我又重新读取了变量 v 因为我之前把变量 v存入了 hello.mat 文件中所以我们刚才用 save 命令做了什么这个命令把数据按照二进制形式储存或者说是更压缩的二进制形式因此如果 v 是很大的数据那么压缩幅度也更大占用空间也更小如果你想把数据存成一个人能看懂的形式那么可以键入 save hello.txt v -ascii 这样就会把数据存成一个文本文档或者将数据的 ascii 码存成文本文档现在我键入了这个命令以后我的桌面上就有了 hello.txt 文件就有了 hello.txt 文件如果打开它我们可以发现这个文本文档存放着我们的数据这就是读取和储存数据的方法

>> v = [1 2; 3 4; 5 6; 7 8; 9 0]
v =
 
   1   2
   3   4
   5   6
   7   8
   9   0
 
< -ascii  %save as text(ASCII)

接下来我们再来讲讲操作数据的方法 假如 A 还是那个矩阵跟刚才一样还是那个 3×2 的矩阵现在我们加上索引值比如键入 A(3,2) 这将索引到 A 矩阵的 (3,2) 元素 A 矩阵的 (3,2) 元素这就是我们通常书写矩阵的形式写成 A 下标32 下标32

3和2分别表示矩阵的第三行和第二列对应的元素因此也就对应 6 我也可以键入 A(2,:) 来返回第二列的所有元素因此冒号表示该行或该列的所有元素因此 A(2,:) 表示 A 矩阵的第二行的所有元素类似地如果我键入 A(:,2) 这将返回 A 矩阵第二列的所有元素这将得到 2 4 6 这表示返回 A 矩阵的第二列的所有元素因此这就是矩阵 A 的第二列就是 2 4 6 你也可以在运算中使用这些较为复杂的索引

>> A = [1 2; 3 4; 5 6]
A =
 
   1   2
   3   4
   5   6
 
>> A(3,2)
ans =  6
>> A(2,:)
ans =
 
   3   4
 
>> A(:,2)
ans =
 
   2
   4
   6

我再给你展示几个例子可能你也不会经常使用但我还是输入给你看 A(,:) 这个命令意思是取 A 矩阵第一个索引值为1或3的元素也就是说我取的是 A 矩阵的第一行和第三行的每一列第三行的每一列这是 A 矩阵因此输入 A(, :) 返回第一行返回第三行冒号表示的是取这两行的每一列元素也就是第一行和第二行的所有元素(此处口误应为第三行译者注) 因此返回结果为 1 2 5 6

>> A([1 3], :)
ans =
 
   1   2
   5   6

可能这些比较复杂一点的索引操作你不会经常用到我们还能做什么呢这依然是 A 矩阵 A(:,2) 命令返回第二列你也可以为它赋值所以我可以取 A 矩阵的第二列然后将它赋值为 10 11 12 如果我这样做的话我实际上是取出了 A 的第二列然后把一个列向量赋给了它因此现在 A 矩阵的第一列还是 1 3 5 第二列就被替换为 10 11 12 接下来一个操作让我们把 A 设为 A = ] 这样做的结果是在原矩阵的右边附加了一个新的列矩阵附加了一个新的列矩阵现在见证奇迹的时刻... 噢我又犯错了应该放分号的现在 A 矩阵就是这样了明白吗？我希望你听懂了所以这是个列矩阵而我们所做的就是把 A 矩阵设置为原来的 A 矩阵再在右边附上一个新添加的列矩阵我们的原矩阵 A 就是右边这个6个元素就是右边这个6个元素所以我们就是把 A 矩阵右边加上了一个新的列向量所以现在 A 矩阵变成这样一个 3×3 的矩阵

>> A(:,2) = [10;11;12]
A =
 
    1   10
    3   11
    5   12
 
>> A = [A, [100;101;102]]
A =
 
     1    10   100
     3    11   101
     5    12   102

最后还有一个小技巧我也经常使用如果你就输入 A(:) 这是一个很特别的语法结构意思是把 A 中的所有元素放入一个单独的列向量这样我们就得到了一个 9×1 的向量这些元素都是 A 中的元素排列起来的

再来几个例子好了我还是把 A 重新设为假如说我再设一个 B 为我可以新建一个矩阵 C C = 这个意思就是这是我的矩阵 A 这是我的矩阵 B 我设 C = 这样做的结果就是把这两个矩阵直接连在一起矩阵 A 在左边矩阵 B 在右边这样组成了 C 矩阵就是直接把 A 和 B 合起来我还可以设 C = 这里的分号表示把分号后面的东西放到下面所以的作用依然还是把两个矩阵放在一起只不过现在是上下排列所以现在 A 在上面 B 在下面 C 就是一个 6×2 矩阵简单地说分号的意思就是换到下一行所以 C 就包括上面的 A 然后换行到下面然后在下面放上一个 B 另外顺便说一下这个命令跟是一样的这两种写法的结果是相同的

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [A B]
C =
 
    1    2   11   12
    3    4   13   14
    5    6   15   16

>> C = [A; B]
C =
 
    1    2
    3    4
    5    6
   11   12
   13   14
   15   16

好了通过以上这些操作希望你现在掌握了怎样构建矩阵 也希望我展示的这些命令能让你很快地学会怎样把矩阵放到一起怎样取出矩阵 并且把它们放到一起组成更大的矩阵通过几句简单的代码 Octave 能够很方便地很快速地帮助我们组合复杂的矩阵以及对数据进行移动这就是移动数据这一节课

在下一段视频中我们将一起来谈谈怎样利用数据进行更为复杂的计算希望这节课的内容能让你明白在 Octave 中怎样用几句简单的命令很快地对数据进行移动包括加载和储存一个向量或矩阵加载和存储数据把矩阵放在一起构建更大的矩阵用索引对矩阵某个特定元素进行操作等等我知道可能我一下子讲了很多命令所以我认为对你来讲

最好的学习方法是下课后复习一下我键入的这些代码好好地看一看从课程的网上把代码的副本下载下来重新好好看看这些副本然后自己在 Octave 中把这些命令重新输一遍慢慢开始学会使用这些命令当然没有必要把这些命令都记住你也不可能记得住你要做的就是从这段视频里了解一下你可以用哪些命令做哪些事这样在你今后需要编写学习算法时如果你要找到某个 Octave 中的命令你可能回想起你之前在这里学到过然后你就可以查找课程中提供的程序副本这样就能很轻松地找到你想使用的命令了好了这就是移动数据这节课的全部内容

在下一段视频中我将开始向你介绍怎样进行一些更复杂的计算 怎样对数据进行计算怎样对数据进行计算同时开始实现学习算法

Computing on Data

现在你已经学会了在Octave中如何加载或存储数据 如何把数据存入矩阵等等在这段视频中我将向你介绍 如何对数据进行运算 稍后我们将使用这些运算操作来实现我们的学习算法

现在我们开始吧这是我的 Octave 窗口我现在快速地初始化一些变量比如设置A 为一个3×2的矩阵设置B为一个3 × 2矩阵设置C为 2 × 2矩阵现在我想算两个矩阵的乘积比如说 A × C 我只需键入A×C 这是一个 3×2 矩阵乘以 2×2 矩阵得到这样一个3×2矩阵你也可以对每一个元素做运算方法是做点乘运算A .*B 这么做 Octave将矩阵 A 中的每一个元素与矩阵 B 中的对应元素相乘这是A 这是B 这是A .* B 比如说这里第一个元素 1乘以11得到11 第二个元素是 2乘以12得到24 这就是两个矩阵的元素位运算通常来说在Octave中点号一般用来表示元素位运算这里是一个矩阵A 这里我输入A .^ 2 这将对矩阵A中每一个元素平方所以 1的平方是1 2的平方是4 等等

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [1 1; 2 2];
>> A*C
ans =
 
    5    5
   11   11
   17   17
 
>> A .* B
ans =
 
   11   24
   39   56
   75   96
 
>> A .^ 2
ans =
 
    1    4
    9   16
   25   36

我们设V是一个向量设V为是列向量你也可以输入 1 ./ V 得到每一个元素的倒数所以这样一来就会分别算出 1/1 1/2 1/3 矩阵也可以这样操作 1 ./ A 得到 A中每一个元素的倒数

>> V = [1; 2; 3];
>> 1 ./ V
ans =
 
   1.00000
   0.50000
   0.33333
 
>> 1 ./ A
ans =
 
   1.00000   0.50000
   0.33333   0.25000
   0.20000   0.16667

同样地这里的点号还是表示对每一个元素进行操作我们还可以进行求对数运算也就是对每个元素进行求对数运算还有自然数e的幂次运算就是以e为底以这些元素为幂的运算所以这是e 这是e的平方这是e的立方 v 矩阵是这样的我还可以用 abs 来对 v 的每一个元素求绝对值当然这里 v 都是正数我们换成另一个这样对每个元素求绝对值得到的结果就是这些非负的元素还有 -v 给出V中每个元素的相反数这等价于 -1 乘以 v 不过一般就直接用 -v 就好了其实就等于 -1*v 还有什么呢？

>> log(V)
ans =
 
   0.00000
   0.69315
   1.09861
 
>> exp(V)
ans =
 
    2.7183
    7.3891
   20.0855
 
>> abs(V)
ans =
 
   1
   2
   3

还有一个技巧比如说我们想对v中的每个元素都加1 那么我们可以这么做首先构造一个 3行1列的1向量然后把这个1向量跟原来的向量相加因此 v 向量从增至我用了一个 length(v) 命令因此这样一来 ones(length(v) ,1) 就相当于 ones(3,1) 所以这是ones(3,1) 对吧然后我做的是 v + ones(3,1) 也就是将 v 的各元素都加上这些1 这样就将 v 的每个元素增加了1 另一种更简单的方法是直接用 v+1 所以这是 v v + 1 也就等于把 v 中的每一个元素都加上1

>> v = [1;2;3]
v =
 
   1
   2
   3
 
>> v + ones(length(v), 1)
ans =
 
   2
   3
   4
 
>> v + ones(3,1)
ans =
 
   2
   3
   4
 
>> v + 1
ans =
 
   2
   3
   4

现在让我们来谈谈更多的操作这是我的矩阵A 如果你想要求它的转置那么方法是用A‘ 这是单引号符号并且是左引号可能你的键盘上有一个左引号和一个右引号这里用的是左引号也就是标准的引号因此 A’ 将得出 A 的转置矩阵当然如果我写 (A‘)’ 也就是 A 转置两次那么我又重新得到矩阵 A

还有一些有用的函数假如说小写a 是这是一个1行4列矩阵假如说 val=max(a) 这将返回 A矩阵中的最大值在这里是15 我还可以写 = max(a) 这将返回 a矩阵中的最大值存入val 以及该值对应的索引因此元素15对应的索引值为2 存入ind 所以 ind 等于2

>> a = [1 15 2 0.5]
a =
 
    1.00000   15.00000    2.00000    0.50000
 
>> val = max(a)
val =  15
>> [val, ind] = max(a)
val =  15
ind =  2

特别注意一下如果你用命令 max(A) A是一个矩阵的话这样做就是对每一列求最大值等下再仔细讲讲

我们还是用这个例子这个小a 矩阵如果输入 a<3 这将进行逐元素的运算 所以第一个元素是小于3的因此返回1 a的第二个元素不小于3 所以这个值是0 表示"非" 第三个和第四个数字仍然是小于3 2和0.5都小于3 因此这返回也就是说对a矩阵的每一个元素与3进行比较然后根据每一个元素与3的大小关系返回1和0表示真与假

现在如果我写 find(a<3) 这将告诉我 a 中的哪些元素是小于3的是小于3的在这里就是第一第三和第四个元素是小于3的

a =
 
    1.00000   15.00000    2.00000    0.50000
 
>> a < 3
ans =
 
   1   0   1   1
 
>> find(a < 3)
ans =
 
   1   3   4

下一个例子设A = magic(3) magic 函数返回什么呢让我们查看 magic 函数的帮助文件

magic 函数将返回一个矩阵称为魔方阵或幻方 (magic squares) 它们具有以下这样的数学性质它们所有的行和列和对角线加起来都等于相同的值当然据我所知这在机器学习里基本用不上但我可以用这个方法很方便地生成一个 3行3列的矩阵而这个魔方矩阵这神奇的方形屏幕。每一行每一列每一个对角线三个数字加起来都是等于同一个数我只有在演示功能或者上课教 Octave 的时候会用到这个矩阵在其他有用的机器学习应用中这个矩阵其实没多大作用让我来看看别的如果我输入 = find( A>=7 ) 这将找出所有A矩阵中大于等于7的元素因此 r 和 c 分别表示行和列这就表示第一行第一列的元素大于等于7 第三行第二列的元素大于等于7 第二行第三列的元素大于等于7 我们来看看第二行第三列的元素就是 A(2,3) 是等于7的就是这个元素确实是大于等于7的顺便说一句其实我从来都不去刻意记住这个 find 函数到底是怎么用的我只需要会用 help 函数就可以了每当我在使用这个函数忘记怎么用的时候我就可以用 help 函数键入 help find 来找到帮助文档

>> A = magic(3)
A =
 
   8   1   6
   3   5   7
   4   9   2
 
>> [r, c] = find(A >= 7)
r =
 
   1
   3
   2
 
c =
 
   1
   2
   3

好吧最后再讲两个内容一个是求和函数这是 a 矩阵键入 sum(a) 就把 a 中所有元素加起来了如果我想把它们都乘起来键入 prod(a) prod 意思是 product(乘积) 它将返回这四个元素的乘积 floor(a) 是向下四舍五入因此对于 a 中的元素 0.5将被下舍入变成0 还有 ceil(A) 表示向上四舍五入所以0.5将上舍入变为最接近的整数也就是1

>> a
a =
 
    1.00000   15.00000    2.00000    0.50000
 
>> sum(a)
ans =  18.500
>> prod(a)
ans =  15
>> floor(a)
ans =
 
    1   15    2    0
 
>> ceil(a)
ans =
 
    1   15    2    1

还有我们来看键入 type(3) 这通常得到一个3×3的矩阵如果键入 max(rand(3), rand(3)) 这样做的结果是返回两个3×3的随机矩阵并且逐元素比较取最大值所以你会发现所有这些数字几乎都比较大因为这里的每个元素都实际上是两个随机生成的矩阵逐元素进行比较取最大的那个值这是刚才生成的 3×3魔方阵 A 假如我输入 max(A,[],1) 这样做会得到每一列的最大值所以第一例的最大值就是8 第二列是9 第三列的最大值是7 这里的1表示取A矩阵第一个维度的最大值相对地如果我键入 max(A,[],2) 这将得到每一行的最大值所以第一行的最大值是等于8 第二行最大值是7 第三行是9 所以你可以用这个方法来求得每一行或每一列的最值

>> max(rand(3), rand(3))
ans =
 
   0.957477   0.083887   0.459507
   0.799441   0.975439   0.927632
   0.888604   0.942436   0.612661
 
>> A
A =
 
   8   1   6
   3   5   7
   4   9   2
 
>> max(A, [], 1)
ans =
 
   8   9   7

另外你要知道默认情况下 max(A)返回的是每一列的最大值如果你想要找出整个矩阵A的最大值你可以输入 max(max(A)) 像这样或者你可以将 A 矩阵转成一个向量然后键入 max(A(:)) 这样做就是把 A 当做一个向量并返回 A 向量中的最大值

>> max(max(A))
ans =  9
>> max(A(:))
ans =  9

最后让我们把 A 设为一个 9行9列的魔方阵别忘了魔方阵具有的特性是每行每列和对角线的求和都是相等的这是一个9×9的魔方阵我们来求一个 sum(A,1) 这样就得到每一列的总和所以这样做就是把 A 的每一列进行求和从这里我们也可以看出这也验证了一个9×9的魔方阵确实每一列加起来都相等都为369 现在我们来求每一行的和键入sum(A,2) 这样就得到了 A 中每一行的和 A 中每一行的和加起来还是369

>> A = magic(5)
A =
 
   17   24    1    8   15
   23    5    7   14   16
    4    6   13   20   22
   10   12   19   21    3
   11   18   25    2    9
 
>> sum(A,1)
ans =
 
   65   65   65   65   65
 
>> sum(A,2)
ans =
 
   65
   65
   65
   65
   65

现在我们来算 A 的对角线元素的和看看它们的和是不是也相等我们现在构造一个 9×9 的单位矩阵键入 eye(9) 设为I9 然后我们要用 A 逐点乘以这个单位矩阵这是矩阵A 我现在用 A 逐点乘以 eye(9) 这样做的结果是两个矩阵对应元素将进行相乘除了对角线元素外其他元素都会得到0 然后我对刚才求到的结果键入sum(sum(A.*eye(9)) 这实际上是求得了这个矩阵对角线元素的和确实是369

>> sum(sum(A.*eye(5)))
ans =  65

你也可以求另一条对角线的和这个是从左上角到右下角的你也可以求另一条对角线从左下角到右上角这个和这个命令会有点麻烦其实你不需要知道这个我只是想给你看如果你感兴趣的话可以听听让我们来看看 flipup/flipud 表示向上/向下翻转如果你用这个命令的话计算的就是副对角线上所有元素的和还是会得到369 我来给你演示一下 eye(9) 矩阵是这样那么 flipup(eye(9)) 将得到一个单位矩阵并且将它翻转不好意思打错了应该是flipud 翻转以后所有的1就变成副对角线了

>> eye(9)
ans =
 
Diagonal Matrix
 
   1   0   0   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   0   0   1
 
>> flipud(eye(9))
ans =
 
Permutation Matrix
 
   0   0   0   0   0   0   0   0   1
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   1   0   0   0   0   0   0   0   0

最后再说一个命令然后就下课假如 A 是一个 3×3的魔方阵同样地如果你想这个矩阵的逆矩阵键入 pinv(A) 通常称为伪逆矩阵但这个名字不重要你就把它看成是矩阵 A 求逆因此这就是 A 矩阵的逆矩阵设 temp = pinv(A) 然后再用temp 乘以 A 这实际上得到的就是单位矩阵对角线为1 其他元素为0 稍微圆整一下就是好了这样我们就介绍了如何对矩阵中的数字进行各种操作

>> A = magic(3)
A =
 
   8   1   6
   3   5   7
   4   9   2
 
>> pinv(A)
ans =
 
   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778
 
>> temp = pinv(A)
temp =
 
   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778
 
>> temp * A
ans =
 
   1.00000   0.00000  -0.00000
  -0.00000   1.00000   0.00000
   0.00000   0.00000   1.00000

在运行完某个学习算法之后通常一件最有用的事情是看看你的结果或者说让你的结果可视化在接下来的视频中我会非常迅速地告诉你如何很快地画出如何只用一两行代码你就可以快速地可视化你的数据画出你的数据这样你就能更好地理解你使用的学习算法

Plotting Data

当开发学习算法时往往几个简单的图可以让你更好地理解算法的内容并且可以完整地检查下算法是否正常运行是否达到了算法的目的例如在之前的视频中我谈到了绘制成本函数J(θ) 可以帮助确认梯度下降算法是否收敛 通常情况下绘制数据或学习算法所有输出也会启发你如何改进你的学习算法幸运的是 Octave有非常简单的工具用来生成大量不同的图当我用学习算法时我发现绘制数据绘制学习算法等往往是我获得想法来改进算法的重要部分在这段视频中我想告诉你一些 Octave的工具来绘制和可视化你的数据

这是我的 Octave 窗口我们先来快速生成一些数据用来绘图我先设置t 等于这个数列这是t 是从0到0.98的集合让我们设置y1等于sin 2*pi*4*t （此处pi表示π）如果我想绘制正弦函数这是很容易的我只需要输入plot(t, y1) 并回车就出现了这个图横轴是 t变量纵轴是y1 也就是我们刚刚所输出的正弦函数

>> t=[0:0.01:0.98];
>> y1 = sin(2*pi*4*t);
>> plot(t,y1);

让我们设置y2 等于cos 2*pi*4*t 而如果我输入plot t逗号y2 Octave将会消除之前的正弦图并且用这个余弦图来代替它这里纵轴cos(x)从1开始

>> t=[0:0.01:0.98];
>> y2 = cos(2*pi*4*t);
>> plot(t,y2);

如果我要同时表示正弦和余弦曲线我要做的就是输入plot(t, y1) 这是我的正弦函数我使用函数hold on hold on函数的功能是将新的图像绘制在旧的之上我现在绘制t y2 我要以不同的颜色绘制余弦函数所以我在这里输入带引号的r 我将绘制余弦函数在这之上而不是替换了现有的图 r表示所使用的颜色再加上命令xlabel('time') 来标记X轴即水平轴输入ylabel('value') 来标记垂直轴的值同时我也可以

来标记我的两条函数曲线用这个命令 legend('sin', 'cos') 将这个图例放在右上方表示这两条曲线表示的内容最后输入title('myplot') 在图像的顶部显示这幅图的标题如果你想保存这幅图像，你输入print -dpng 'myplot.png' png是一个图像文件格式如果你这样做了它可以让你保存为一个文件如果我这样做让我先改一下路径像这样然后我将它打出来这需要一点时间而这取决于你的 Octave的配置设置可能需要几秒钟但改变路径到我的桌面现在Octave需要几秒钟的时间来保存它如果我现在去到我的桌面先最小化这些窗口这就是 Octave所保存的myplot.png 这就是保存为PNG的文件

>> plot(t, y1);
>> hold on;
>> plot(t, y2, 'r');
>> xlabel('time')
>> ylabel('value')
>> legend('sin', 'cos')
>> title('my plot')
>> print -dpng 'myplot.png'

Octave也可以保存为很多其他的格式你可以键入help plot 如果你想试试其他格式的文件而不是 PNG 你可以把图片保存为其他格式最后如果你想删掉这个图像命令close会让这个图像关掉如果我键入 close 这个图像就从我的桌面消失了

>> close

Octave也可以让你为图像标号你键入figure(1); plot(t, y1); 将显示第一张图绘制了变量t y1 如果你想绘制第二个图你可以指定一个不同的数字编号键入figure(2); plot(t, y2); 正如这样现在我的桌面上其实有2个图图1和图2 此时一个绘制正弦函数另一个绘制了余弦函数

>> figure(1); plot(t, y1);
>> figure(2); plot(t, y2);

这是另一个我经常使用的命令 subplot命令我们要使用subplot(1,2,1) 它将图像分为一个 1*2的格子也就是前两个参数然后它使用第一个格子也就是最后一个参数1的意思所以，将我的图像分成 1*2的格子我现在使用第一个格子如果我键入这个那么这个图像显示在左边如果键入plot(t, y1) 现在这个图显示在第一个格子如果我键入subplot(1,2,2) 那么我就要使用第二个格子键入plot(t, y2); 现在y2显示在右边也就是第二个格子最后一个命令你可以改变轴的刻度比如改成也就是设置了右边图的x轴和y轴的范围具体而言它将右图中的横轴的范围调整至0.5到1 竖轴的范围为 -1到1 而且你不需要记住所有这些命令如果你需要改变坐标轴或者需要知道axis命令你可以用Octave中 help命令了解细节

>> subplot(1,2,1);
>> plot(t, y1);
>> subplot(1,2,2);
>> plot(t, y2);
>> axis([0.5 1 -1 1])

最后还有几个命令 clf清除一幅图像 这里有一个独特的特点让我们设置A等于一个5×5 magic方阵现在A是这个5*5 的矩阵我有时用一个巧妙的方法来可视化矩阵也就是imagesc(A) 它将会绘制一个5*5的矩阵一个5*5的彩色格图不同的颜色对应 A矩阵中的不同值具体地说我还可以使用函数colorbar 让我用一个更复杂的命令 imagesc(A) colorbar colormap gray 这实际上是在同一时间运行三个命令运行imagesc然后运行 colorbar 然后运行colormap gray 它生成了一个颜色图像一个灰度分布图并在右边也加入一个颜色条所以这个颜色条显示不同深浅的颜色所对应的值

>> clf;
>> A = magic(5);
>> imagesc(A)
>> imagesc(A), colorbar, colormap gray;

具体地左上 A矩阵的元素是17 所以对应的是这样中等的灰度而与此相反的第二个元素也就是 A(1,2)元素代表的值为24 它对应于这里的这个方块是接近白色的灰度较小的值比如 A多少呢 A(4,5) 为3对应着你可以看到在我的颜色条它对应于一个更暗的灰度这里是另一个例子我可以绘制一个较大的比如magic（15）给你一个15* 15 magic方阵这将会是一幅 15*15的magic方阵值的图

最后总结一下这段视频你看到我所做的是使用逗号连接函数调用这里是你如何真正做到这一点如果我键入a=1 b=2 c=3 然后按Enter键其实这是将这三个命令同时执行或者是将三个命令一个接一个执行它将输出所有这三个结果这很像 a=1; b=2; c=3; 如果我用分号来代替逗号没有输出出任何东西所以你知道这里我们称之为逗号连接的命令或函数调用只是另一种 Octave中更便捷的方式将多条命令例如imagesc colorbar colormap 将这多条命令写在同一行中就是这样现在你知道如何绘制 Octave中不同的图像

在下面的视频中下一个主要内容我将告诉你怎样在Octave中写控制语句比如if while for语句并且定义和使用函数

Control Statements: for, while, if statement

在这段视频中告诉你怎样为你的 Octave 程序写控制语句 诸如 "for" "while" "if" 这些语句并且如何定义和使用方程

这是我们的 Octave 窗口我先告诉你如何使用 “for” 循环首先我要将 v 值设为一个10行1列的零向量现在我要写一个 “for" 循环让 i 等于 1 到 10 写出来就是 i = 1:10 让我们来看看我要设 v(i) 的值等于 2 的 i 次方循环最后结束 (end) 这里的空格没关系所以我就加一些空格让缩进后的代码看起来结构更清晰但是你要知道这里的空格没有意义如果按我这样做那么向量 v 的值就是这样一个集合 2的一次方 2的二次方依此类推于是这就是我的 i 等于 1 到 10 的语句结构让 i 遍历 1 到 10 的值

>> v=zeros(10,1);
>> for i=1:10,
     v(i) = 2^i;
   end;
>> v
v =
 
      2
      4
      8
     16
     32
     64
    128
    256
    512
   1024

另外你还可以通过设置你的 indices (索引) 等于 1 一直到10 来做到这一点这时 indices 就是一个从1到10的序列你也可以写 i = indices 这实际上和我直接把 i 写到 1 到 10 是一样你可以写 disp(i) 也能得到一样的结果

>> for i=indices,
     disp(i);
   end;
 1
 2
 3
 4
 5
 6
 7
 8
 9
 10

所以这就是一个 “for” 循环如果你对 “break” 和 “continue” 语句比较熟悉 Octave里也有 “break” 和 “continue” 语句你也可以在 Octave环境里使用那些循环语句

但是首先让我告诉你一个 while 循环是如何工作的这是我的 v 向量让我们写个 while 循环 i = 1 ; while i <= 5 ; 让我们设置 v(i) 等于 100 然后 i 加 1 结束 (end) 所以这是什么意思呢我让 i 取值从 1 开始然后我要让 v(i) 等于 100 再让 i 递增 1 直到 i 大于 5停止

>> i = 1;
>> while i <= 5,
     v(i) = 100;
     i = i+1;
   end;
>> v
v =
 
    100
    100
    100
    100
    100
     64
    128
    256
    512
   1024

现在来看一下结果原来的向量 v 是2的这些次方我现在已经取出了向量的前五个元素把他们用100覆盖掉这就是一个while循环的句法结构

现在我们来分析另外一个例子 i = 1; while true, 这里我将向你展示如何使用break语句比方说 v(i) = 999 然后让 i = i+1 当 i 等于6的时候 break (停止循环) 结束 (end) 当然这也是我们第一次使用一个 if 语句所以我希望你们可以理解这个逻辑让 i 等于1 然后开始下面的增量循环 while语句重复设置 v(i) 等于1 (此处口误应为999 译者注) 不断让i增加然后当 i 达到6 做一个中止循环的命令尽管有while循环语句也就此中止所以最后的效果是取出向量 v 的前5个元素并且把它们设置为999 然后运行的确如此我们用999覆盖了 v 的前五个元素所以这就是 if 语句和 while 语句的句法结构并且要注意要有end 这里是有两个 end 的这里的 end 结束的是 if 语句第二个 end 结束的是 while 语句

>> i=1;
>> while true,
     v(i) = 999;
     i = i+1;
     if i == 6,
       break;
     end;
    end;
>> v
v =
 
    999
    999
    999
    999
    999
     64
    128
    256
    512
   1024

现在让我告诉你使用 if-else 语句时更一般的句法结构举个例子 v(1) 等于999 假设我们令 v(1) 等于2 所以让我输入 if v(1) == 1, disp('The value is one'); 这里出现了一个else语句或者更确切地说这里是一个 elseif语句 elseif v(1) == 2, 这就是说如果这种情况下命题为真执行 disp('The value is two'); 否则(else) 执行 disp('The value is not one or two'); 好了这就是一个if-else语句 if-else语句记得最后有end 当然了我们刚刚设置过 v(1)等于2 所以显然显示的是 "The value is two"

>> v(1)
ans =  999
>> v(1) = 2;
>> if v(1)==1,
     disp('The value is one');
   elseif v(1) == 2,
     disp('The value is two');
   else
     disp('The value is not one or two');
   end;

最后我觉得现在提醒一件事如果你需要退出 Octave 你可以键入 exit 命令然后回车就会退出 Octave 或者命令 ‘quit’ 也可以

最后让我们来说说 函数 (functions) 如何定义和调用函数这是我的桌面我在桌面上存了一个预先定义的文件名为 “squarethisnumber.m” 这就是在 Octave 环境下定义的函数你需要创建一个文件用你的函数名来命名然后以 .m 的后缀结尾当 Octave 发现这文件它知道应该在什么位置寻找 squareThisNumber.m 这个函数的定义让我们打开这个文件请注意我使用的是微软的写字板程序来打开这个文件我只是想建议你如果你也使用微软的 Windows 系统那么可以使用写字板程序而不是记事本来打开这些文件如果你有别的什么文本编辑器那也可以但记事本有时会把代码的间距弄得很乱如果你只有记事本程序那也能用但最好是如果你有写字板的话我建议你用写字板或者其他可以编辑函数的文本编辑器现在我们来说如何在 Octave 里定义函数我们先来放大一点这个文件只有三行第一行写着 function y = squareThisNumber(x) 这就告诉 Octave 我想返回一个 y 值我想返回一个值并且返回的这个值将被存放于变量 y 里另外它告诉了 Octave 这个函数有一个参数就是参数 x 还有定义的函数体也就是 y 等于 x 的平方

function y = squareThisNumber(x)
y = x^2;

现在让我们尝试调用这个函数 SquareThisNumber(5) 这实际上是行不通的 Octave 说这个方程未被定义这是因为 Octave 不知道在哪里找这个文件所以像之前一样我们使用 pwd 现在不在我的目录下因此我们把路径设为 "C:\User\ang\desktop" 这就是我的桌面的路径噢打错了应该是 "Users" 现在如果我键入SquareThisNumber(5) 返回值是25

cd 'C:\Users\ang\desktop'
pwd

还有一种更高级的功能这只是对那些知道 “search path (搜索路径)” 这个术语的人使用的所以如果你想要修改 Octave 的搜索路径你可以把下面这部分作为一个进阶知识或者选学材料仅适用于那些熟悉编程语言中搜索路径概念的同学你可以使用 addpath 命令添加路径添加路径 “C:\Users\ang\desktop” 将该目录添加到 Octave 的搜索路径这样即使你跑到其他路径底下 Octave依然知道会在 Users\ang\desktop 目录下寻找函数这样即使我现在在不同的目录下它仍然知道在哪里可以找到 “SquareThisNumber” 这个函数明白吗？

addpath('C:\Users\ang\desktop')

但是如果你不熟悉搜索路径的概念不用担心只要确保在执行函数之前先用 cd 命令设置到你函数所在的目录下实际上也是一样的效果

Octave 还有一个 其他许多编程语言都没有的概念 那就是它可以允许你定义一个函数使得返回值是多个值或多个参数这是一个例子定义一个函数叫 “SquareAndCubeThisNumber(x)” (x的平方以及x的立方) 这说的就是函数返回值是两个 y1 和 y2 接下来就是 y1是被平方后的数 y2是被立方后的结果这就是说函数会真的返回2个值

function [y1, y2] = squareAndCubeThisNumber(x)
y1 = x^2;
y2 = x^3;

所以有些同学可能会根据你使用的编程语言比如你们可能熟悉的C或C++ 通常情况下认为作为函数返回值只能是一个值但 Octave 的语法结构就不一样可以返回多个值现在回到 Octave 窗口如果我键入 = SquareAndCubeThisNumber(5) 然后 a 就等于25 b 就等于 5的立方 125 所以说如果你需要定义一个函数并且返回多个值这一点常常会带来很多方便

最后我来给大家演示一下一个更复杂一点的函数的例子比方说我有一个数据集像这样数据点为, , 我想做的事是定义一个 Octave 函数来计算代价函数 J(θ) 就是计算不同 θ 值所对应的代价函数值 J 首先让我们把数据放到 Octave 里我把我的矩阵设置为 X = ; 这就是我的设计矩阵 X 第一列表示x0项矩阵的第一列第二列表示我的三个训练样本的 x 值现在我再来设置 y 值为就像这样是y轴对应值现在我们设定 theta 为

>> x = [1 1; 1 2; 1 3];
>> y = [1; 2; 3];
>> theta = [0;1];

现在我的桌面上已经有我预定义的代价函数 J 如果我打开函数函数的定义应该是下面这样的所以函数J 就写成 J = costFunctionJ(X, y, theta) 这里有一些注释主要用于解释输入变量接下来几步设定 m 为训练样本的数量也就是 X 的行数计算预测值 predictions 预测值等于 X 乘以 theta 这里是注释行是上一个注释行拐过来的部分下面就是计算平方误差公式就是预测值减去 y 值然后取出来每一项进行平方最后就可以计算代价函数 J 并且 Octave 知道 J 是一个我想返回的值因为 J 出现在了我函数的定义里

function J = costFunctionJ(X,y,theta)
m = size(X,1);
predictions = X*theta;
sqrErrors = (predictions-y).^2;
J = 1/(2*m) * sum(sqrErrors);

另外你可以随时暂停一下视频如果你想仔细看一下这个函数的定义确保你明白了定义中的每一步现在当我在 Octave 里运行时我键入 j = costFunctionJ(x, y, theta) 然后他就开始计算噢又打错了这里应该是大写 X 它就计算出 j 等于0 这是因为如果我的数据集 x 为 y 也为然后设置 θ0 等于0 θ1 等于1 这给了我恰好45度的斜线这条线是可以完美拟合我的数据集的

>> j = costFunctionJ(X,y,theta)

而相反地如果我设置 theta 等于那么这个假设就是 0是所有的预测值和刚才一样设置θ0 = 0 θ1 也等于0 然后我计算的代价函数结果是2.333 实际上他就等于1的平方也就是第一个样本的平方误差加上2的平方加上3的平方然后除以2m 也就是训练样本数的两倍这就是2.33 因此这也反过来验证了我们这里的函数计算出了正确的代价函数这些就是我们用简单的训练样本尝试的几次试验这也可以作为我们对定义的代价函数 J 进行了完整性检查确实是可以计算出正确的代价函数的至少基于这里的 X 和 y 是成立的也就是我们这几个简单的训练集至少是成立的

好啦现在你知道如何在 Octave 环境下写出正确的控制语句 比如 for 循环、while 循环和 if 语句以及如何定义和使用函数

在接下来的视频中我会非常快的介绍一下如何在这门课里完成和提交作业如何使用我们的提交系统在此之后在最后的 Octave 教程视频里我会讲解一下向量化 这是一种可以使你的 Octave 程序运行非常快的思想

Vectorization向量化

在这段视频中我将介绍有关向量化的内容无论你是用Octave 还是别的语言比如MATLAB 或者你正在用Python NumPy 或 Java C C++ 所有这些语言都具有各种线性代数库 这些库文件都是内置的 容易阅读和获取他们通常写得很好已经经过高度优化通常是数值计算方面的博士或者专业人士开发的而当你实现机器学习算法时如果你能好好利用这些 线性代数库或者说 数值线性代数库 并联合调用它们而不是自己去做那些函数库可以做的事情如果是这样的话那么通常你会发现首先这样更有效也就是说运行速度更快并且更好地利用你的计算机里可能有的一些并行硬件系统等等第二这也意味着你可以用更少的代码来实现你需要的功能因此实现的方式更简单代码出现问题的有可能性也就越小

举个具体的例子与其自己写代码做矩阵乘法如果你只在Octave中输入 a乘以b 就是一个非常有效的两个矩阵相乘的程序有很多例子可以说明如果你用合适的向量化方法来实现你就会有一个简单得多也有效得多的代码

让我们来看一些例子这是一个常见的线性回归假设函数 如果你想要计算 h(x) 注意到右边是求和那么你可以自己计算 j =0 到 j = n 的和但换另一种方式来想想是把 h(x) 看作 θ 转置乘以 x 那么你就可以写成 两个向量的内积 其中 θ 就是 θ0 θ1 θ2 如果你有两个特征量如果 n 等于2 并且如果你把 x 看作 x0 x1 x2 这两种思考角度会给你两种不同的实现方式

比如说这是未向量化的代码实现方式 计算 h(x) 是未向量化的我的意思是没有被向量化我们可能首先要初始化变量 prediction 的值为0.0 而这个变量 prediction 的最终结果就是 h(x) 然后我要用一个 for 循环 j 取值 0 到 n+1 变量prediction 每次就通过自身加上 theta(j) 乘以 x(j) 更新值这个就是算法的代码实现顺便我要提醒一下这里的向量我用的下标是 0 所以我有 θ0 θ1 θ2 但因为 MATLAB 的下标从1开始在 MATLAB 中 θ0 我们可能会用 theta(1) 来表示这第二个元素最后就会变成 theta(2) 而第三个元素最终可能就用 theta(3) 表示因为 MATLAB 中的下标从1开始即使我们实际的 θ 和 x 的下标从0开始这就是为什么这里我的 for 循环 j 取值从 1 直到 n+1 而不是从 0 到 n 清楚了吗？但这是一个未向量化的代码实现方式我们用一个 for 循环对 n 个元素进行加和

作为比较接下来是 向量化的代码实现 你把 x 和 θ 看做向量而你只需要令变量 prediction 等于 theta转置乘以 x 你就可以这样计算与其写所有这些 for 循环的代码你只需要一行代码这行代码右边所做的就是利用 Octave 的高度优化的数值线性代数算法来计算两个向量的内积 θ 以及 x 这样向量化的实现不仅仅是更简单它运行起来也将更加高效

这就是 Octave 所做的而向量化的方法在其他编程语言中同样可以实现让我们来看一个 C++ 的例子 这就是未向量化的代码实现的样子我们再次初始化变量 prediction 为 0.0 然后我们现在有一个完整的从 j 等于 0 直到 n 变量 prediction += theta 乘以 x 再一次你有这样的自己写的 for 循环与此相反使用一个比较好的 C++ 数值线性代数库你就可以用这个方程来写这个函数与此相反使用较好的 C++ 数值线性代数库 你可以写出像这样的代码因此取决于你的数值线性代数库的内容你可以有一个对象 (object) 像这个 C++ 对象 theta 和一个 C++ 对象向量 x 你只需要用 theta.transpose ( ) 乘以 x 而这次是让 C++ 来实现运算因此你只需要在 C++ 中将两个向量相乘根据你所使用的数值和线性代数库的使用细节的不同你最终使用的代码表达方式可能会有些许不同但是通过一个库来做内积你可以得到一段更简单更有效的代码

现在让我们来看一个更为复杂的例子提醒一下这是线性回归算法梯度下降的更新规则 所以我们用这条规则对 j 等于 0 1 2 等等的所有值更新对象 θj 我只是用 θ0 θ1 θ2 来写方程那就是假设我们有两个特征量所以 n等于2 这些都是我们需要对 θ0 θ1 θ2 进行更新你可能还记得在以前的视频中说过这些都应该是同步更新

因此让我们来看看我们是否可以拿出一个 向量化的代码实现 这里是和之前相同的三个方程只不过写得小一点而已你可以想象实现这三个方程的方式之一就是用一个 for 循环就是让 j 等于0 等于等于2 来更新 θj 但让我们用向量化的方式来实现看看我们是否能够有一个更简单的方法基本上用三行代码或者一个 for 循环一次实现这三个方程让我们来看看怎样能用这三步并将它们压缩成一行向量化的代码来实现做法如下我打算把 θ 看做一个向量然后我用 θ 减去 α 乘以某个别的向量 δ 来更新 θ 这里的 δ 等于 m 分之 1 对 i=1 到 m 进行求和然后这个表达式对吧? 让我解释一下是怎么回事在这里我要把 θ 看作一个向量有一个 n+1 维向量我是说 θ 被更新我们的 n+1 维向量 α 是一个实数 δ 在这里是一个向量所以这个减法运算是一个向量减法没问题吧 ? 因为 α 乘以 δ 是一个向量所以 θ 就是 θ 减去 α 乘以 δ 得到的向量那么什么是向量 δ 呢 ? 嗯向量 δ 是这样子的这部分实际上代表的就是这部分内容具体地说 δ 将成为 n+1 维向量并且向量的第一个元素就等于这个所以我们的 δ 如果要写下标的话就是从零开始 δ0 δ1 δ2 我想要的是 δ0 等于这个第一行绿色框起来的部分事实上你可能会写出 δ0 是 m 分之 1 乘以 h(x(i)) 减去 y(i) 乘以 x(i)0 的求和所以让我们在同一页上计算真正的 δ δ 就是 m 分之 1 乘以这个和那这个和是什么 ? 嗯这一项是一个实数这里的第二个项是 x(i) 这一项是一个向量对吧 ? 因为 x(i) 可能是一个向量这将是 x(i)0 x(i)1 x(i)2 对吧 ? 那这个求和是什么 ? 嗯这个求和就是这里的式子这里的这一项等于 h(x(1)) - y(1) 乘以 x(1) 加上 h(x(2)) - y(2) 乘以 x(2) 依此类推对吧 ? 因为这是对 i 的加和所以当 i 从 1 到 m 你就会得到这些不同的式子然后作加和每个式子的意思很像如果你还记得实际上在以前的一个小测验如果你要解这个方程我们说过为了向量化这段代码我们会令 u = 2v +5w 因此我们说向量u 等于2乘以向量v 加上 5乘以向量 w 用这个例子说明如何对不同的向量进行相加这里的求和是同样的道理这一部分只是一个实数就有点像数字 2 而这里是别的一些数字来乘以向量x1 这就像是 2v 只不过用别的数字乘以 x1 然后加上你知道不是5w 而是用别的实数乘以一个别的向量然后你加上其他的向量这就是为什么总体而言在这里这整个量 δ 就是一个向量具体而言对应这三个 δ 的元素如果n等于2 δ 的三个元素一一对应这个第二个以及这第三个式子这就是为什么当您更新 θ 值时根据 θ - αδ 这个式子我们最终能得到完全符合最上方更新规则的同步更新我知道幻灯片上的内容很多

但是再次重申请随时暂停视频我也鼓励你一步步对比这两者的差异如果你不清楚刚才的内容我希望你能一步一步读幻灯片的内容 以确保你理解为什么这个式子用 δ 的这个定理 定义的好吗 ? 以及它为什么和最上面的更新方式是等价的为什么是这样子的就是这里的式子这就是向量 x 而我们只是用了你知道这三个计算式并且压缩成一个步骤用这个向量 δ 这就是为什么我们能够向量化地实现线性回归所以我希望步骤是有逻辑的请务必看视频并且保证你确实能理解它如果你实在不能理解它们数学上等价的原因你就直接实现这个算法也是能得到正确答案的所以即使你没有完全理解为何是等价的如果只是实现这种算法你仍然能实现线性回归算法所以如果你能弄清楚为什么这两个步骤是等价的那我希望你可以对向量化有一个更好的理解以及最后如果你在实现线性回归的时候使用一个或两个以上的特征量有时我们使用几十或几百个特征量来计算线性归回当你使用向量化地实现线性回归通常运行速度就会比你以前用你的 for 循环快的多也就是自己写代码更新 θ0 θ1 θ2 因此使用向量化实现方式你应该是能够得到一个高效得多的线性回归算法而当你向量化我们将在之后的课程里面学到的算法这会是一个很好的技巧无论是对于 Octave 或者一些其他的语言如C++ Java 来让你的代码运行得更高效

Octave入门的更多相关文章

Octave入门基础
Octave入门基础一.简单介绍 1.1 Octave是什么? Octave是一款用于数值计算和画图的开源软件.和Matlab一样,Octave 尤其精于矩阵运算:求解联立方程组.计算矩阵特征值和特 ...
Machine Learning – 第2周（Linear Regression with Multiple Variables、Octave/Matlab Tutorial）
Machine Learning – Coursera Octave for Microsoft Windows GNU Octave官网 GNU Octave帮助文档 (有900页的pdf版本) O ...
octave installation on RHEL6.4
octave installation on RHEL6.4 rhel6.4上安装octave GNU Octave 是一种高级语言,主要设计用来进行数值计算,它是 MathWorks 出品的 Mat ...
免费的编程中文书籍索引 from github
免费的编程中文书籍索引免费的编程中文书籍索引,欢迎投稿. 国外程序员在 stackoverflow 推荐的程序员必读书籍,中文版. stackoverflow 上的程序员应该阅读的非编程类书籍有哪些 ...
GitHub 上值得推荐的开源电子书
GitHub 上值得推荐的开源电子书开源不仅局限于软件领域,开源同样意味着自由选择的权利和对知识开放的追求. 可以参照这篇文章,已附上所有超链接编程类开放书籍荟萃-Linux Story 语言无关类 ...
【Stanford Machine Learning Open Course】学习笔记目录
这里是斯坦福大学机器学习网络课程的学习笔记. 课程地址是:https://class.coursera.org/ml-2012-002/lecture/index 课程资料百度网盘分享链接:https ...
计算机电子书 2016 BiliDrive 备份
下载方式根据你的操作系统下载不同的 BiliDrive 二进制. 执行: bilidrive download <link> 链接文档链接 Go入门指南.epub (1.87 MB) ...
Ubuntu 16.04 下octave的使用入门
SciLab和octave是开源的且免费的矩阵计算工具,二者都有希望成为矩阵计算的新宠.相比之下, octave与MatLab的兼容性更高. octave遵循GPL协议(GNU General Pub ...
从零单排入门机器学习：Octave/matlab的经常使用知识之矩阵和向量
Octave/matlab的经常使用知识之矩阵和向量之前一段时间在coursera看了Andrew ng的机器学习的课程,感觉还不错.算是入门了.这次打算以该课程的作业为主线,对机器学习基本知识做一 ...

随机推荐

将本地项目上传到Github
将本地项目上传到Github 转载请注明出自天外归云的博客. 前提已经下载了Git到本地. 创建Repository 首先登陆我的Github页面,在Repositories中New一个并起Repo ...
Android JUnit Test——批量运行测试代码
转载请注明出自天外归云的博客园:http://www.cnblogs.com/LanTianYou/ Android测试三要素写Android测试用例有三要素,一是我们用的“安卓模拟器device” ...
Java的Properties类和读取.properties文件
一..properties文件的作用 Properties属性文件在JAVA应用程序中是经常可以看得见的,也是特别重要的一类文件.它用来配置应用程序的一些信息,不过这些信息一般都是比较少的数据,没有必 ...
pip安装使用详解
pip类似RedHat里面的yum,安装Python包非常方便.本节详细介绍pip的安装.以及使用方法. 1.pip下载安装 1.1 pip下载 1 # wget "https://py ...
excel小写金额转换成中文大写
假设假设数据在A1单元格任何一个个单元格输入公式=TEXT(INT(A1),"[dbnum2]")&"元"&IF(INT(A1*10)-IN ...
PHP 对字符串进行十六进制替换 invalid character in attribute value
最近在xml传输过程中遇到字符串报错,表面看上去没有任何错误.将文件用winhex打开,看到对应字符串中多了'1F'.xml无法解析'1F'.随后在代码中将这个替换掉. $str = pack(&qu ...
友情提醒:欲开发android5.0以上应用，请全部更新开发工具至最新
周末帮人完成一个项目,android5.0以上版本,谁知道被开发工具折腾的死去活来.我的开发环境是adt-bundle-windows-x86-20140702.zip版本,也是目前能找到的adt-b ...
关于float的说明
关于float的说明如图所示,蓝色的div和红色的div处于黑色的div(宽为500px)之中,其中蓝色的div设置了做浮动: 由图一(红色div的margin-top为10px,margi ...
[CVE:2013-4810]Apache Tomcat/JBoss远程命令执行
<?php $host=gethostbyname($argv[1]); $port=$argv[2]; $cmd=$argv[3]; //small jsp shell //change th ...
bzoj 1054: [HAOI2008]移动玩具 bfs
1054: [HAOI2008]移动玩具 Time Limit: 10 Sec Memory Limit: 162 MB[Submit][Status][Discuss] Description 在 ...

Octave入门

Octave/Matlab Tutorial