python 从文件导入分类
# -*- coding:utf-8 -*-
"""
从文件导入分类 根据行首制表符或空格确定层级关系(4个空格等于一个制表符 同一行制表符和空格不能混用 )
必须是 utf-8编码 -------test.txt-------
鞋子
运动鞋
凉鞋
拖鞋
靴子
体育
羽毛球
单打
双打
游泳
----------------------
""" import redis
import MySQLdb
import json class Category(object): cache = redis.StrictRedis(host='localhost',port = 6379,db=0)
conn = MySQLdb.Connect(host='192.168.1.222', user='root', passwd='', db='gmian',charset='utf8') """
打开文件 读取每一行进行处理
"""
def run(self,category_file):
f = open(category_file,'r')
while True:
#print isinstance(line, unicode) # 检测是否为unicode
#print unicode(line,"utf-8")
line = f.readline()
if line:
self.writeCate(line)
else:
break
f.close() #删除缓存
def __del__(self):
keys = self.__class__.cache.smembers('category_keys')
for key in keys:
self.__class__.cache.delete(key)
self.__class__.cache.delete('category_cateid')
self.__class__.cache.delete('category_keys') #获取自动增长的ID
@classmethod
def getincr(cls):
return int(cls.cache.incr('category_cateid')) + DB_AUTO_INSERT # 把分类添加进按层级分别的列表中
@classmethod
def add(cls,num,catename):
id = cls.getincr()
cls.insert_db(id,num,catename)
cls.cache.sadd('category_keys','category_level_'+str(num))
cls.cache.lpush('category_level_'+str(num),json.dumps([id,catename])) #获取父类
@classmethod
def getparentid(cls,num):
parent = cls.cache.lindex('category_level_'+str(num-1),0)
if not parent:
raise NameError('STOP !! 没找到父类')
parent = json.loads(parent)
return parent[0] @classmethod
def writeCate(cls,line):
num,catename = cls.getLevelNum(line)
cls.add(num,catename) @classmethod
def insert_db(cls,id,num,catename):
if num:
pid = cls.getparentid(num)
else:
pid = 0
cursor = cls.conn.cursor()
cursor.execute("insert into gm_category (cat_id,cat_name,parent_id,style,is_top_style,is_top_show,cat_ico)value(%s,%s,%s,%s,%s,%s,%s)" , (id,catename,pid,'',0,0,''))
cls.conn.commit() # 要么全部是 \t 要么全部是空格 空格4个为一个单位
@staticmethod
def getLevelNum(str):
i = 0
while str[i] == '\t':
i+=1
if i:
return i,str[i:]
while str[i] == ' ':
i+=1
if not i:
return 0,str
return i/4,str[i:] if __name__ == '__main__':
# >$ python category.py 153(DB_AUTO_INSERT) cate1.txt cate2.txt ... import sys
try:
DB_AUTO_INSERT = int(sys.argv[1]) # 已存在的最大ID 否则ID重复 插入失败
files = sys.argv[2:]
if not files:
raise IndexError('input category file')
except IndexError as e:
raise ValueError('---------argv errors-------')
cate = Category()
for file in files:
try:
cate.run(file)
except Exception as e:
print e
print u"【" +file+ u"】导入失败"
python 从文件导入分类的更多相关文章
- 关于python中文件导入的若干问题
__init__文件 同一级目录下直接import导入就可以了,如果是在不同的目录下面被导入文件的文件夹下面必须有__init__.py文件,即使这个文件是空的也可以.当然这个文件也可以初始一些数据 ...
- python将文件导入字典
a={}i=0f = open("filepath","r")for line in f.readlines(): a[i] =line i=i+1 a是字典, ...
- appium+python自动化51-adb文件导入和导出(pull push)
前言 用手机连电脑的时候,有时候需要把手机(模拟器)上的文件导出到电脑上,或者把电脑的图片导入手机里做测试用,我们可以用第三方的软件管理工具直接复制粘贴,也可以直接通过adb命令导入和导出. adb ...
- appium+python自动化-adb文件导入和导出(pull push)
前言 用手机连电脑的时候,有时候需要把手机(模拟器)上的文件导出到电脑上,或者把电脑的图片导入手机里做测试用,我们可以用第三方的软件管理工具直接复制粘贴,也可以直接通过adb命令导入和导出. adb ...
- Python实现鸢尾花数据集分类问题——基于skearn的NaiveBayes
Python实现鸢尾花数据集分类问题——基于skearn的NaiveBayes 代码如下: # !/usr/bin/env python # encoding: utf-8 __author__ = ...
- Python实现鸢尾花数据集分类问题——基于skearn的LogisticRegression
Python实现鸢尾花数据集分类问题——基于skearn的LogisticRegression 一. 逻辑回归 逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题, ...
- Python实现鸢尾花数据集分类问题——基于skearn的SVM
Python实现鸢尾花数据集分类问题——基于skearn的SVM 代码如下: # !/usr/bin/env python # encoding: utf-8 __author__ = 'Xiaoli ...
- Python模块及其导入
一.模块 1.模块的定义: 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少, 很多编程语言都采用这种组织代码的方式.在Python中,一个.py文件 ...
- 将.dat文件导入数据库
*最近在搞文本分类,就是把一批文章分成[军事].[娱乐].[政治]等等. 但是这个先需要一些样本进行训练,感觉文本分类和"按图索骥"差不多,训练的文章样本就是"图&quo ...
随机推荐
- paper 111:图像分类物体目标检测 from RCNN to YOLO
参考列表 Selective Search for Object Recognition Selective Search for Object Recognition(菜菜鸟小Q的专栏) Selec ...
- HtmlHelper的扩展
HtmlHelper的扩展: 注意点:扩展方法必须是静态方法,所在的类必须是静态类,所在的命名空间改成System.Web.MVC则能省略页面中必须添加命名空间的约束. //主要就是输出分页的超级链接 ...
- SpringMVC 手动控制事务提交
描述 事务还是一个比较好的东东,有了这个,我们在做流程性的东西的时候,就会很好,很nice. 现在看看 SpringMVC 如何实现的,详细请看代码: 1.配置文件 applicationContex ...
- GAT2.0使用文档(组合接口测试)
3.2接口用例场景组件 在此之前,大家应该都已经开发完成了一个最简单的接口测试用例,但是之前的接口用例的期望结果是固定值,不能动态的去做对比,有很大局限性.下面开始介绍怎样通过场景组件来动态对测试结果 ...
- O2O管理问题怎么解决?
O2O被认为是零售行业的最大变革.O2O模式凭着线上线下一体化融合,无差别的消费体验迅速拉拢了大批希望进军电商的传统零售企业,同时催生了大量以O2O为生的新兴企业.O2O是一种新的消费模式,给消费者带 ...
- Football Foundation (FOFO) TOJ 2556
The football foundation (FOFO) has been researching on soccer; they created a set of sensors to desc ...
- Cannot find class for bean with name '/hello' defined in ServletContext resource
Cannot find class for bean with name '/hello' defined in ServletContext resource [/WEB-INF/chapter2- ...
- 使用IE11抓包,防止在网页跳转时抓包数据被清除的方法
引:最近在研究使用python实现模拟登陆各大网站,在使用IE11进行抓包分析网站登陆的逻辑结构的时候,发现每次在抓包的时候,当网页跳转的时候,抓包数据会被清除,让我很是郁闷,最终在查阅相关资料以及自 ...
- iOS - CocoaPods 第三方开源框架管理
1.CocoaPods CocoaPods 是一个负责管理 iOS 项目中第三方开源库的工具.CocoaPods 的项目源码在 Github 上管理.该项目开始于 2011 年 8 月 12 日,在这 ...
- hdu4511小明系列故事——女友的考验(ac自动机+最短路)
链接 预处理出来任意两点的距离,然后可以顺着trie树中的节点走,不能走到不合法的地方,另开一维表示走到了哪里,依次来更新. 注意判断一下起点是不是合法. #include <iostream& ...