# 3.离散值进行LabelEncoder #处理数据的三个步骤,去重,处理缺失值,离散值LabelEncoder from sklearn import preprocessingfrom sklearn.externals import joblib categorical_ix = ["1","2","3"] #离散值的列名 for i in categorical_ix: le = preprocessing.LabelEncoder()…
for i in categorical_ix: le = joblib.load(f"./LabelEncoder/{i}_LabelEncoder.model") #由于test集合中可能出现新的label,没有在train中出现过,因此将新的标签也转为<unk> test_labels = df_test[i].unique() #array 形式 train_class = le.classes_ for t in test_labels: if(t not in…
http编码.今天遇到获取网页上的数据,用HTTP的GET请求访问url获取资源,网上有相应的方法.以前一直不知道什么事rest风格,现在我想就是开一个Controller,然后使人可以调用你的后台代码.((value="xxx")) @Controllerpublic class getWebDataController { public List<JSONObject> roadlist = new ArrayList<JSONObject>(); publ…
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块.此外,它还有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具.它已朝着这个目标迈进 pandas组成 = 数据面板+数据分析工具 pandas把数据分为3类 一位矩阵:Series 强大在可以存储任意类型数据 二维矩阵: DataFrame 三维…
最近好忙啊,好忙啊,忙的写不动博客了 时间过得飞快 一晃,一周就过去了 本着不进步就倒退的性格 我成功的在技术上面划水了一周 今天要学习的还是groupby的高级进阶 说是高级,其实就是比初级复杂了一些 有点绕,然后不容易明白 就成为高级了 其实对于pandas来说 应该还是基础部分 我们今天要学习的就是 自定义更丰富的分组运算 apply 方法 apply方法的价值 对于有些数据类型来说 是的,有些 agg与transform 不是很适合 所以就会出现apply方法 不过哪些不适合,我们要慢慢…
python_2.x_unicode_to_str.py a = u"中文字符"; a.encode("GBK"); #打印: '\xd6\xd0\xce\xc4\xd7\xd6\xb7\xfb' print(a.encode("GBK")); 打印: �����ַ� a.encode("utf-8") 打印: '\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6' 每三个byte…
背景 想必大家在项目中都有遇到把一个列表的多个字段累加求和的情况,也就是一个列表的总计.有的童鞋问,这个不是给前端做的吗?后端不是只需要把列表返回就行了嘛...没错,我也是这样想的,但是在一场和前端的撕逼大战中败下阵来之后,这个东西就落在我身上了.当时由于工期原因,时间比较紧,也就不考虑效率和易用性了,只是满足当时的需求,就随便写了个方法统计求和.目前稍微闲下来了,就把原来的代码优化下.我们先来看一下原来的代码... 原代码 工具类 import org.apache.commons.lang3…
项目中一般需要将表单中的数据进行编码之后再进行传输到服务器,这个时候就需要base64编码 现在可以使用window自带的方法window.atob() 和  window.btoa()  方法进行 但是遇到中文就会出现乱码问题 在其他博客中找到一个使用window方法并且不出现乱码的方法   github也在使用:如下代码 function utf8_to_b64(str) { return window.btoa(unescape(encodeURIComponent(str))); } f…
这样比你自己在Servlet代码中硬编码request.setCharacterEncoding, response.setCharacterEncoding方便多了 总之,如果你添加了这个filter,配置好了web.xml,那么如果还出现乱码问题,你就去检查你的JSP和HTML代码中的encoding选项吧(charset, pageEncoding, meta.content之类的),看看是否和你在web.xml中配置的filter的encoding相匹配 CharacterEncodin…
from sklearn.preprocessing import LabelEncoder def gen_label_encoder(): labels = ['BB', 'CC'] le = LabelEncoder() le.fit(labels) print 'le.classes_', le.classes_ for label in le.classes_: print label, le.transform([label])[0] joblib.dump(le, 'data/la…