100天搞定机器学习：PyYAML基础教程

编程中免不了要写配置文件，今天我们继续Python网络编程，学习一个比 JSON 更简洁和强大的语言————YAML 。本文老胡简单介绍 YAML 的语法和用法，以及 YAML 在机器学习项目中的应用实例。欢迎大家一起学习，也欢迎点赞、在看、分享！

前篇：我开始学Python网络编程了

YAML

YAML 是 "YAML Ain't a Markup Language"（YAML 不是一种标记语言）的递归缩写。YAML 的语法和其他高级语言类似，并且可以简单表达清单、散列表，标量等数据形态。它使用空白符号缩进和大量依赖外观的特色，特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。YAML 的配置文件后缀为 .yaml

YAML 它的基本语法规则如下：

大小写敏感
使用缩进表示层级关系
缩进时不允许使用Tab键，只允许使用空格。
缩进的空格数目不重要，只要相同层级的元素左侧对齐即可
号表示注释

YAML 支持的数据结构有三种：

对象：键值对的集合，对象键值对使用冒号结构表示 key: value，冒号后面要加一个空格。
数组：一组按次序排列的值，又称为序列/ 列表，用 - 表示。
纯量（scalars）：单个的、不可再分的值

YAML 用法

安装

pip install pyyaml

yaml 文件格式很简单，比如：

# categories.yaml file

sports: #注意，冒号后面要加空格

  - soccer # 数组

  - football

  - basketball

  - cricket

  - hockey

  - table tennis

countries: 

  - Pakistan

  - USA

  - India

  - China

  - Germany

  - France

  - Spain

python 读取 yaml 文件

# read_categories.py file

import yaml

with open(r'categories.yaml') as file:

    documents = yaml.full_load(file)

    for item, doc in documents.items():

        print(item, ":", doc)

运行结果：

sports : ['soccer', 'football', 'basketball', 'cricket', 'hockey', 'table tennis']

countries : ['Pakistan', 'USA', 'India', 'China', 'Germany', 'France', 'Spain']

以上便是 YAML 最基础的应用了，可能大家还是有点一头雾水，咱们更进一步，看看在机器学习项目中如何写 YAML 配置文件。

YAML & Machine Learning

我们直接改写100天搞定机器学习|Day62 随机森林调参实战中的代码。

写配置文件rf_config.yaml

#INITIAL SETTINGS

data_directory: ./data/

data_name: creditcard.csv

target_name: Class

test_size: 0.3

model_directory: ./models/

model_name: RF_classifier.pkl

#RF parameters

n_estimators: 50

max_depth: 6

min_samples_split: 5

oob_score: True

random_state: 666

n_jobs: 2

完整代码，可以对比源代码看看区别：

# rf_with_yaml_file.py

import os

import yaml

import joblib

import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import roc_auc_score

CONFIG_PATH = "./config/"

def load_config(config_name):

    with open(os.path.join(CONFIG_PATH, config_name)) as file:

        config = yaml.safe_load(file)

    return config

config = load_config("rf_config.yaml")

df = pd.read_csv(os.path.join(config["data_directory"], config["data_name"]))

data = df.iloc[:, 1:31]

X = data.loc[:, data.columns != config["target_name"]]

y = data.loc[:, data.columns == config["target_name"]]

number_records_fraud = len(data[data.Class == 1])

fraud_indices = np.array(data[data.Class == 1].index)

normal_indices = data[data.Class == 0].index

random_normal_indices = np.random.choice(

    normal_indices, number_records_fraud, replace=False)

random_normal_indices = np.array(random_normal_indices)

under_sample_indices = np.concatenate(

    [fraud_indices, random_normal_indices])

under_sample_data = data.iloc[under_sample_indices, :]

X_undersample = under_sample_data.loc[:,

                                      under_sample_data.columns != config["target_name"]]

y_undersample = under_sample_data.loc[:,

                                      under_sample_data.columns == config["target_name"]]

X_train, X_test, y_train, y_test = train_test_split(

    X, y, test_size=config["test_size"], random_state=42

)

rf1 = RandomForestClassifier(

    n_estimators=config["n_estimators"],

    max_depth=config["max_depth"],

    min_samples_split=config["min_samples_split"],

    oob_score=config["oob_score"],

    random_state=config["random_state"],

    n_jobs=config["n_jobs"]

)

rf1.fit(X_train, y_train)

print(rf1.oob_score_)

y_predprob1 = rf1.predict_proba(X_test)[:, 1]

print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob1))

joblib.dump(rf1, os.path.join(config["model_directory"], config["model_name"]))

reference

https://www.runoob.com/w3cnote/yaml-intro.html

https://www.ruanyifeng.com/blog/2016/07/yaml.html

100天搞定机器学习：PyYAML基础教程的更多相关文章

100天搞定机器学习|Day19-20 加州理工学院公开课：机器学习与数据挖掘
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...
100天搞定机器学习|Day21 Beautiful Soup
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...
100天搞定机器学习|Day35 深度学习之神经网络的结构
100天搞定机器学习|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习 ...
100天搞定机器学习|day40-42 Tensorflow Keras识别猫狗
100天搞定机器学习|1-38天 100天搞定机器学习|day39 Tensorflow Keras手写数字识别前文我们用keras的Sequential 模型实现mnist手写数字识别,准确率0. ...
100天搞定机器学习|Day56 随机森林工作原理及调参实战（信用卡欺诈预测）
本文是对100天搞定机器学习|Day33-34 随机森林的补充前文对随机森林的概念.工作原理.使用方法做了简单介绍,并提供了分类和回归的实例. 本期我们重点讲一下: 1.集成学习.Bagging和随 ...
100天搞定机器学习|Day7 K-NN
最近事情无比之多,换了工作.组队参加了一个比赛.和朋友搞了一些小项目,公号荒废许久.坚持是多么重要,又是多么艰难,目前事情都告一段落,我们继续100天搞定机器学习系列.想要继续做这个是因为,一方面在具 ...
100天搞定机器学习|Day11 实现KNN
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...
100天搞定机器学习|Day8 逻辑回归的数学原理
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...
100天搞定机器学习|Day9-12 支持向量机
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...

随机推荐

django学习-3.如何编写一个html页面并展示到浏览器，及相关导入错误的解决方案
1.前言在django中,视图的概念是:具有相同功能和模板的网页,都可以称为视图.通俗一点来说,就是你平常打开任一浏览器,输入一个地址A后看到浏览器窗口展示出来地址A所对应的页面内容B,页面内容B就 ...
IO、NIO、BIO的区别
我们首先得明白什么是同步,异步,阻塞,非阻塞,只有这几个单个概念理解清楚了,然后在组合理解起来,就相对比较容易了. IO模型主要分类: 同步(synchronous) IO和异步(asynchrono ...
并发\并行，同步\异步，阻塞\非阻塞，IO多路复用解释
并发.并行并发:是指一个时间段内,有几个程序在同一个CPU上运行,但是任意时刻只有一个程序在CPU上运行.由于CPU的运行速度极快,可以在多个程序之间切换,这样造成一个假象就是多个程序同时在运行.并 ...
C# 处理PPT水印（三）—— 在PPT中添加多行（平铺）文本水印效果
在PPT幻灯片中,可通过添加形状的方式,来实现类似水印的效果,可添加单一文本水印效果,即幻灯片中只有一个文本水印:也可以添加多行(平铺)文本水印效果,即幻灯片中以一定方式平铺排列多个文本水印效果.本文 ...
GDB调试：从入门到入土
GDB是类Unix操作糸统下使用命令行调试的调试软件,全名GNU Debugger,在NOI系列竞赛使用的NOI Linux系统中起很大作用(如果不想用毒瘤Guide或直接输出)(XXX为文件名) 1 ...
MySQL：逻辑库与表管理
逻辑库管理语句说明 CREATE DATABASE 逻辑库名; 创建逻辑库 SHOW DATABASES; 显示所有逻辑库 DROP DATABASE 逻辑库名; 删除逻辑库 USE 逻辑库名; ...
02.从0实现一个JVM语言之词法分析器-Lexer-03月02日更新
从0实现JVM语言之词法分析器-Lexer 本次有较大幅度更新, 老读者如果对前面的一些bug, 错误有疑问可以复盘或者留言. 源码github仓库, 如果这个系列文章对你有帮助, 希望获得你的一个s ...
182. 查找重复的电子邮箱 + group by + having
182. 查找重复的电子邮箱 LeetCode_MySql_182 题目描述方法一:使用笛卡尔积 # Write your MySQL query statement below select di ...
面向青铜的java自学路线
有经验的人都知道,java还是需要一些路线的,因为java有些知识前后关联挺大的,先学后面和先学前面难度是不一样的. 如果你是新手,只要你知道路线这个东西,起码要比别人强,至少知道可以怎么走(更重要的 ...
内省详解(Introspector/BeanInfo/MethodDescriptor/PropertyDescriptor)
内省(Introspector)概念内省Introspector 是Java提供的操作 JavaBean 的 API,用来访问某个属性的 getter/setter 方法.对于一个标准的 Jav ...