kmeans聚类相信大家都已经很熟悉了.在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单).那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困难,不过我看到spark-packages里已经有了,但还没有发布.不过没关系,PySpark里有ml包,除了ml包,还可以使用MLlib,这个在后期会写,也很方便. 首先来看一下Spark自带的例子: from pyspark.mllib.linalg import Vectors from py
最近做一些数据库调研的工作,目标是实现影像更快的入库.出库.查询,并实现并行访问等操作. 将结果总结成一个mongoImg类,也算是小结吧. ''' Created on 2013-8-6 class mongoInsert @author: tree ''' __metaclass__ = type import os from pymongo.database import Database import time import gridfs class mongoImg(object):