机器学习 - Python 02

好了，咱们接着上一节的内容，继续学习机器学习中的Python语法部分。这一节算是Python语法的最后一节了。也就是说如果真的看懂了这两节的内容，理论上说就机器学习的领域或者方向，语言已经不是问题了。同时也意味着马上真正的进入机器学习的核心部分了。好了，那咱们接下来正式开始咱们的学习啦。

Tuples

Tuples是Python中的一种新的形式的数据collection（至少相对于C++， objective-C，Java是新的。其他的我就不敢肯定了，免得被打脸，哈哈）。其实她和List几乎是一样的，除了2个方面的不同。她和list的区别主要是下面2个方面的不同：1）Tuples 的创建的展现是讲元素element用括号包起来，而List是用的中括号。2）Tuples一旦创建元素是不可改变的，即它是immutable的，而List的元素是可以改变的，即Mutable的。好了，下面看一下tuples的创建代码展示一下，否则光说不练假把式。哈哈哈

t = (1,2,3)

上面的代码就是创建了一个tuple，他的元素有三个，分别是1,2,3. 那么既然有了list为什么还要Tuples呢？这主要是因为Tuple的应用场景主要是用于那些有多个返回值的函数中，想象一下，如果一个函数有多个返回值，你要怎么弄呢？对了，你肯定想到了List对吧？可是List里面的数据可能因为多人协同开发的时候被其他同事修改了，是会有一定Risk的。那么自然而然我们就想到了要用Tuples这个数据结构，因为他是Immutable的，如果有人试图修改她的值，他会报错的。总结起来就是List是可读可写的，而Tuples是只读的。看看下面这个返回多个值的例子吧。

a = 0.125.as_integer_ratio()

上面的函数返回了2个值，分别是分子和分母，都是整型数据。返回的数据是（1,8）。

关于Tuples还有一个点是Individual assignments(翻译过来应该是叫单独赋值，不知道翻译的对不对，容我装个B，哈哈哈)，这里的意思是讲Tuple中的值可以分别赋值给不同的变量，如下所示：

numerator,demonstrater = a

上面代码的运行结果就是：numerator = 1, demonstrater = 8.

Dictionary

好了，现在接受最后一种形式的collection，就是字典。这和其他语言都很像，就是key-value键值对。好了，下面先来瞧一瞧咱们dictionary的创建

numbers = {"one":1,"two":2,"three":3}

这和其他很多种的语言的都一样，再来看看如何通过Key值来retrieve value。

numbers["one"]

下面介绍一下dictionary中的比较高级但是在实际中会经常用到的的功能，这些语法特性看起来挺牛逼，其实都是纸老虎，哈哈，心态上我们要藐视他妈，操作上要重视他们哈。

1） in operator

in的关键字是Python中最常见的一个关键字，没有之一！！！！在list中用，在dictionary中用，在条件判断时会用，在循环中还是会用的。既然这一节讲的是dictionary，我们就看看她在dictionary中的应用吧。

#create a dictionary

planets = ['Mercury', 'Venus', 'Earth', 'Mars', 'Jupiter', 'Saturn', 'Uranus', 'Neptune']

plants_to_initial = {planet:planet[0] for planet in planets}

"Mercury" in plants_to_initial  # the in operator will tell us whether something is a key in the dictionary

上面的创建字典代码现在看不懂没关系，她就是创建了一个字典，这个字典的key值是这些星星的名字，value值就是这些星星的首字母。这里重要的是最后一行代码，判断“Mercury”这个字符串是不是这个字典的key值。如果是key,返回True, 否则返回False。

2）遍历key值

#the for loop will loop over its keys

for key in plants_to_initial:

    print(key,end = " ")

如上代码所示，直接对dictionary遍历，返回的是每一个key-value键值对的key值。上面代码就是打印这个字典的所有的key值。

3）同事遍历key-value 键值对

在字典中，如果想要同时遍历键值对，我们必须通过dictionary的一个method，叫做：items(). 这个方法返回一个list，里面的元素是tuples,这些tuples里面的元素就是key,values. 话不多说，直接上代码看

for planet, initial in plants_to_initial.items():#items()will return its key-value pairs

    print(planet,initial)

String

好了，终于进入到最最常用的一种基本数据类型了-string。几乎在所用的应用中，产生和消费的数据，几乎字符串占了绝大部分。当然啦，在机器学习中最常用到的数据类型是int和float，但是string类型的也是经常会出现的。其实String可以将它看成一串字符，这一串字符就好比一个list。用英文来说就是 A string is a sequences of characters. (是不是瞬间高大上了，从大蒜变成了咖啡。哈哈哈哈)。所以在Python中，几乎你在list中看到的方法，都同样适用于String.

1) String 的创建和index

planet = "Pluto"

planet[0]#return P

planet[-3:]#return uto

len(planet)#return 5

2)常用的String方法

#string methods

planet.upper()#return PLUTO

planet.lower()#return pluto

planet.index("uto")#return 2

planet.startswith("Plu")#return True

planet.endswith("asds")#return False

3) List 和 String之间的相互转换

#going between strings and lists

#string -> list   split method

planets = "Pluto is a planet"

list_planets = planets.split()#return a list of ["Pluto","is","a","planet"]

dates = '2019-10-08'

list_dates = dates.split('-')#returns ["2019","10","08"], the element are also all string types

#list->string  join method

year,month,day = list_dates #individual assignment

'/'.join([year,month,day]) #returns "2019/10/08"

注意无论是String->List还是List->String, 他们的基本元素都是String，而不会是Int或者Float或者其他什么稀奇古怪的数据类型。也就是说，无论是Split还是Join, 他们操作的对象都是String。例如：'/'.join([1,2,3]),这句代码就会报错，因为1，2,3都是整型数据而不是string。这里比较抽象哈，自己慢慢体会。

4）formatting a string

String是一个非常灵活的数据类型，例如int也可以转换成string，等等。因此我们常常需要将不同数据类型的数据拼接在一起，然后转换成一个string。这种情况下，我们经常需要用到format方法，当然也存在其他方法可以完成这个任务，但是format的牛逼之处不仅仅在于这，她还可以格式化数据的表现格式，例如保留几位小数点，大数字的表现形式等等，具体的可以参考下面的代码。

position = 9

"{}, you will be the {}th planet to me".format(planet,position) #returns 'Pluto, you will be the 9th planet to me'

"{:.2}".format(0.123345) #returns "0.12", the result is converted to string type

"{:,}".format(1234578) #returns '1,234,578' the result is also converted to string type

"{0},{1},{1},{0},{0}".format(12,55)#indexing of format the result is '12,55,55,12,12', the result is also string type

Loop comprehension

Loop comprehension 是Python中非常受欢迎的一个特性，她能够快速创建List和dictionary，并且使用起来非常灵活，在将来机器学习的实践中你们会发现非常好用。说了这么多，那么接下来我们来看看到底什么是Loop Comprehension.

1) 利用Loop Comprehension 来快速创建dictionary。

其实这已经在前面的代码中有所体现了，如下面的代码所示，快速创建字典。

plants_to_initial = {planet:planet[0] for planet in planets}

其实就是用for in 的循环，然后通过key:value的形式，批量的产生键值对，最后生成一个字典。

2）利用Loop Comprehension 来创建List

List的创建也是很灵活的，也可以操作循环的元素，来达到一些个性化或者特殊需求的一些目的。甚至她还可以通过组合条件判断的语句达到更加精细化的控制，创建List的一些常用方式如下所示

numbers = [1,2,3,4]

squares = [n**2 for n in numbers] #returns [1,4,9,16]

print(squares)

short_squares = [n for n in squares if n<9] #returns [1,4]

count_number_of_squares = len([n for n in squares if n < 100]) #returns 4

总结：前面一节内容还有这一节内容大体上已经介绍了常用Python的绝大部分特性，如果已经掌握，我觉得仅仅对于机器学习这个领域的学习的话，已经够用了。这两节的内容是给已经有其他语言经验的人准备的（如果一点计算机语言经验都没有，我建议还是从Hello World开始）

机器学习 - Python 02的更多相关文章

机器学习---python环境搭建
一安装python2.7 去https://www.python.org/downloads/ 下载,然后点击安装,记得记住你的安装路径,然后去设置环境变量,这些自行百度一下就好了. 由于2.7没有 ...
[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-03-数据整理
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
【原】Spark之机器学习(Python版)(二)——分类
写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了.然而我在学习的过程中发现,PySpark很鸡肋( ...
【原】Spark之机器学习(Python版)(一)——聚类
kmeans聚类相信大家都已经很熟悉了.在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单).那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困 ...
机器学习Python包
随着机器学习的逐日升温,各种相关开源包也是层出不群,面对如此多种类的工具包,该如何选择,有的甚至还知之甚少或者不知呢,本文简单汇总了一下当下使用比较多的Python版本机器学习工具包,供大家参看,还很 ...
R︱mlr包帮你挑选最适合数据的机器学习模型（分类、回归）+机器学习python和R互查手册
一.R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-listLearners() ...
机器学习 python库介绍
开源机器学习库介绍 MLlib in Apache Spark:Spark下的分布式机器学习库.官网 scikit-learn:基于SciPy的机器学习模块.官网 LibRec:一个专注于推荐算法的j ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
机器学习Python实现 SVD 分解
这篇文章主要是结合机器学习实战将推荐算法和SVD进行对应的结合不论什么一个矩阵都能够分解为SVD的形式事实上SVD意义就是利用特征空间的转换进行数据的映射,后面将专门介绍SVD的基础概念.先给出p ...

随机推荐

TIJ——Chapter Four:Controlling Execution
同上一章,本章依然比较简单.基础,因此只是做一些总结性的笔记. 1. 不像C和C++那样(0是假,非零为真),Java不允许用一个数字作为boolean值. 2. C中,为了给变量分配空间,所有变量的 ...
【Leetcode链表】反转链表（206）
题目反转一个单链表. 示例: 输入: 1->2->3->4->5->NULL 输出: 5->4->3->2->1->NULL 进阶: 你可 ...
一维数组的求平均成绩 Day06
package com.sxt.arraytest1; /* * 求班里学生的平均成绩,以及成绩的综合输出每个同学的成绩 */ import java.util.Arrays; import jav ...
Laravel Class config does not exist in
修改了Laravel里面的.env文件之后报这个错误,找半天,找到罪魁祸首了,错误信息: Fatal error: Uncaught ReflectionException: Class config ...
LeetCode54 Spiral Matrix
题目: Given a matrix of m x n elements (m rows, n columns), return all elements of the matrix in spira ...
17-1 djanjo进阶-路由，视图，模板
一路由系统进阶(urls.py) 动态路由 urls.py中通过正则表达式的分组匹配,捕获用户访问的url中的值,传递给视图函数1 分组匹配(通过圆括号): 相当于给视图函数传递位置参数例子: ...
SDUT-3331_数据结构实验之链表八：Farey序列
数据结构实验之链表八:Farey序列 Time Limit: 10 ms Memory Limit: 600 KiB Problem Description Farey序列是一个这样的序列:其第一级序 ...
H3C 以太网流量控制
Python--day67--include包含其他的url和反向解析URL
1,include包含其他的url: 2,反向解析URL:
2013年NOIP普及组复赛题解
题目涉及算法: 计数问题:枚举: 表达式求值:栈: 小朋友的数字:动态规划: 车站分级:最长路. 计数问题题目链接:https://www.luogu.org/problem/P1980 因为数据量 ...

机器学习 - Python 02

机器学习 - Python 02的更多相关文章

随机推荐

热门专题