算法调参 weight_ratio, weight

from openpyxl import Workbook

import xlrd

import time

import Levenshtein as Le

target_city_list = ['北京市', '上海市', '深圳市', '广州市']

source_name = 'JMTool任务_csv_py_wholeCSV-加百度170826165729'

BDpoi_list_tag, BDpoi_list_tagb = '|-|', '|--|'

FEXCEL = '%s%s' % (source_name, '.xlsx')

weight_ratio, weight_seqratio = 0.7, 0.3

def main_():

    global source_name

    data = xlrd.open_workbook(FEXCEL)

    table = data.sheets()[0]

    nrows, ncols = table.nrows, table.ncols

    res_dic = {}

    for i in range(0, nrows):

        l = table.row_values(i)

        dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, BDpoi_list = l

        if dbid == 'dbid':

            continue

        if city not in target_city_list:

            continue

        if city not in res_dic:

            res_dic[city] = {}

        if district not in res_dic[city]:

            res_dic[city][district] = {}

        if name_ not in res_dic[city][district]:

            res_dic[city][district][name_] = []

        if BDpoi_list.find(BDpoi_list_tag) == -1:

            ll = dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, BDpoi_list, '', '', ''

            res_dic[city][district][name_].append(ll)

        else:

            addr_ = '%s%s%s%s' % (city, district, address, city_street)

            chk_name_lsit, cmp_list, sorted_ratio_seqratio_res_dic = [name_, addr_], BDpoi_list.split(

                BDpoi_list_tag), {}

            for ii in cmp_list:

                if len(ii) == 0:

                    continue

                cmp_, BD_name, BD_addr = ['', ''], '', ''

                cmp_one = ii.split(BDpoi_list_tagb)

                if len(cmp_one) == 2:

                    # format data -fair

                    BD_name, BD_addr = cmp_[0], cmp_[1] = cmp_one[0], cmp_one[1].replace(city, '').replace(district, '')

                else:

                    BD_name = cmp_[0] = cmp_one[0]

                ratio_res, seqratio_res = Le.ratio(name_, BD_name), Le.seqratio(chk_name_lsit, cmp_)

                ratio_seqratio_res = weight_ratio * ratio_res + weight_seqratio * seqratio_res

                ll = dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, BDpoi_list, BD_name, BD_addr, ratio_seqratio_res, ratio_res, seqratio_res

                if ratio_seqratio_res not in sorted_ratio_seqratio_res_dic:

                    sorted_ratio_seqratio_res_dic[ratio_seqratio_res] = []

                sorted_ratio_seqratio_res_dic[ratio_seqratio_res].append(ll)

            sorted_seqratio_res_list = sorted(sorted_ratio_seqratio_res_dic)

            for ratio_seqratio_res in sorted_seqratio_res_list:

                lll = sorted_ratio_seqratio_res_dic[ratio_seqratio_res]

                for vl in lll:

                    res_dic[city][district][name_].append(vl)

    wb = Workbook()

    worksheet = wb.active

    file_title_str = ' dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, BDpoi_list, BD_name, BD_addr, ratio_seqratio_res, ratio_res, seqratio_res'

    file_title_l = file_title_str.replace(' ', '').split(',')

    worksheet.append(file_title_l)

    for city in res_dic:

        for district in res_dic[city]:

            for name_ in res_dic[city][district]:

                l = res_dic[city][district][name_]

                for ll in l:

                    worksheet.append(ll)

    localtime_ = time.strftime("%y%m%d%H%M%S", time.localtime())

    file_name = '%s%s%s' % (source_name, '-Levenshtein', localtime_)

    file_name_save = '%s%s' % (file_name, '.xlsx')

    wb.save(file_name_save)

    wb = Workbook()

    worksheet = wb.active

    file_title_str = ' dbid, area_code, ref_area_type_code, city, district, address, city_street, name_,BDpoi_list,max_BD_name, max_BD_addr, max_ratio_seqratio_res, ratio_res, seqratio_res'

    file_title_l = file_title_str.replace(' ', '').split(',')

    worksheet.append(file_title_l)

    for city in res_dic:

        for district in res_dic[city]:

            for name_ in res_dic[city][district]:

                l = res_dic[city][district][name_]

                lll = l[-1]

                worksheet.append(lll)

    localtime_ = time.strftime("%y%m%d%H%M%S", time.localtime())

    file_name = '%s%s%s' % (file_name, '-Levenshtein-ordered', localtime_)

    file_name_save = '%s%s' % (file_name, '.xlsx')

    wb.save(file_name_save)

main_()

from openpyxl import Workbook

import xlrd

import time

import Levenshtein as Le

target_city_list = ['深圳市']

BDpoi_list_tag, BDpoi_list_tagb = '|-|', '|--|'

source_name = 'JMTool任务_csv_py_wholeCSV_住宅小区-加百度170826152533'

FEXCEL = '%s%s' % (source_name, '.xlsx')

weight_ratio, weight_seqratio = 0.7, 0.3

def main_():

    global source_name

    data = xlrd.open_workbook(FEXCEL)

    table = data.sheets()[0]

    nrows, ncols = table.nrows, table.ncols

    res_dic = {}

    for i in range(0, nrows):

        l = table.row_values(i)

        dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, name_reduction, BDpoi_list = l

        if dbid == 'dbid':

            continue

        if city not in target_city_list:

            continue

        if city not in res_dic:

            res_dic[city] = {}

        if district not in res_dic[city]:

            res_dic[city][district] = {}

        if name_ not in res_dic[city][district]:

            res_dic[city][district][name_] = []

        if BDpoi_list.find(BDpoi_list_tag) == -1:

            ll = dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, name_reduction, BDpoi_list, '', '', ''

            res_dic[city][district][name_].append(ll)

        else:

            addr_ = '%s%s%s%s' % (city, district, address, city_street)

            chk_name_lsit, cmp_list, sorted_ratio_seqratio_res_dic = [name_reduction, addr_], BDpoi_list.split(

                BDpoi_list_tag), {}

            for ii in cmp_list:

                if len(ii) == 0:

                    continue

                cmp_, BD_name, BD_addr = ['', ''], '', ''

                cmp_one = ii.split(BDpoi_list_tagb)

                if len(cmp_one) == 2:

                    # format data -fair

                    BD_name, BD_addr = cmp_[0], cmp_[1] = cmp_one[0], cmp_one[1].replace(city, '').replace(district, '')

                else:

                    BD_name = cmp_[0] = cmp_one[0]

                ratio_res, seqratio_res = Le.ratio(name_reduction, BD_name), Le.seqratio(chk_name_lsit, cmp_)

                ratio_seqratio_res = weight_ratio * ratio_res + weight_seqratio * seqratio_res

                ll = dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, name_reduction, BDpoi_list, BD_name, BD_addr, ratio_seqratio_res, ratio_res, seqratio_res

                if ratio_seqratio_res not in sorted_ratio_seqratio_res_dic:

                    sorted_ratio_seqratio_res_dic[ratio_seqratio_res] = []

                sorted_ratio_seqratio_res_dic[ratio_seqratio_res].append(ll)

            sorted_seqratio_res_list = sorted(sorted_ratio_seqratio_res_dic)

            for ratio_seqratio_res in sorted_seqratio_res_list:

                lll = sorted_ratio_seqratio_res_dic[ratio_seqratio_res]

                for vl in lll:

                    res_dic[city][district][name_].append(vl)

    wb = Workbook()

    worksheet = wb.active

    file_title_str = 'dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, name_reduction, BDpoi_list, BD_name, BD_addr, ratio_seqratio_res, ratio_res, seqratio_res'

    file_title_l = file_title_str.replace(' ', '').split(',')

    worksheet.append(file_title_l)

    for city in res_dic:

        for district in res_dic[city]:

            for name_ in res_dic[city][district]:

                l = res_dic[city][district][name_]

                for ll in l:

                    worksheet.append(ll)

    localtime_ = time.strftime("%y%m%d%H%M%S", time.localtime())

    file_name = '%s%s%s' % (source_name, '-Levenshtein', localtime_)

    file_name_save = '%s%s' % (file_name, '.xlsx')

    wb.save(file_name_save)

    wb = Workbook()

    worksheet = wb.active

    file_title_str = 'dbid, area_code, ref_area_type_code, city, district, address, city_street, name_, name_reduction,BDpoi_list,max_BD_name, max_BD_addr, max_ratio_seqratio_res, ratio_res, seqratio_res'

    file_title_l = file_title_str.replace(' ', '').split(',')

    worksheet.append(file_title_l)

    for city in res_dic:

        for district in res_dic[city]:

            for name_ in res_dic[city][district]:

                l = res_dic[city][district][name_]

                lll = l[-1]

                worksheet.append(lll)

    localtime_ = time.strftime("%y%m%d%H%M%S", time.localtime())

    file_name = '%s%s%s' % (file_name, '-Levenshtein-ordered', localtime_)

    file_name_save = '%s%s' % (file_name, '.xlsx')

    wb.save(file_name_save)

main_()

算法调参 weight_ratio, weight_seqratio的更多相关文章

annoy ANN算法调参
search_k serach_k越大,越准确,但是要在时间和准确率之间取个trade off During the query it will inspect up to search_k node ...
CatBoost算法和调参
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?co ...
k-近邻算法采用for循环调参方法
//2019.08.02下午#机器学习算法中的超参数与模型参数1.超参数:是指机器学习算法运行之前需要指定的参数,是指对于不同机器学习算法属性的决定参数.通常来说,人们所说的调参就是指调节超参数.2. ...
调参、最优化、ml算法（未完成）
最优化方法调参方法 ml算法梯度下降gd grid search lr 梯度上升随机梯度下降 pca 随机梯度下降sgd 贝叶斯调参 lda 牛顿算法 knn 拟牛顿算法 kmeans ...
scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
漫谈PID——实现与调参
闲话: 作为一个控制专业的学生,说起PID,真是让我又爱又恨.甚至有时候会觉得我可能这辈子都学不会pid了,但是经过一段时间的反复琢磨,pid也不是很复杂.所以在看懂pid的基础上,写下这篇文章,方便 ...
hyperopt自动调参
hyperopt自动调参在传统机器学习和深度学习领域经常需要调参,调参有些是通过通过对数据和算法的理解进行的,这当然是上上策,但还有相当一部分属于"黑盒" hyperopt可以帮 ...

随机推荐

ASP.NET MVC学习---（七）Razor视图引擎语法
之前体验过razor视图引擎@符号的威力了吧~ 连我这个初学者都能感觉到确实省时省力方便快捷简直就是居家旅行*人*货必备之物啊(这里和谐两个字~) 那么现在就开始对razor的语法进一步介绍~ 1. ...
python中pickle简介
2017-04-10 pickle是用来加工数据的,可以用来存取结构化数据. 例如: 一个字典a = {'name':'Timmy','age':26},用pickle.dump存到本地文件,所存数据 ...
Efficiently traversing InnoDB B+Trees with the page directory--slot
Efficientlytraversing InnoDB B+Trees with the page directory 1.the purpose of the page directory As ...
Mysql 创建权限较小的用户(只对特定数据库有操作权限)
项目开发过程中,因为root的权限太大,可能对其他数据库造成修改.故创建一权限较小的用户,使其只能对特定的数据库操作,以保证数据安全. 主要语句如下: grant all on bos19.* to ...
Selenium3.14.1+Python安装和第一个Demo
言简意赅的说下Selenium是什么 Selenium是前台测试框架,支持IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome等浏览器,我只 ...
RAII手法封装相互排斥锁
CriticalSectionWrapper是一个接口类 class CriticalSectionWrapper { public: // Factory method, constructor d ...
STM32 寄存器库和固件库
寄存器和固件库开发的差别和联系固件库就是函数的集合,固件库函数的作用是向下负责与寄存器直接打交道.向上提供用户函数调用的接口(API). 在 51 的开发中我们经常的作法是直接操作寄存器,比方要控制 ...
IIS8应用池重启脚本
重启 IIS8 应用程序池的批处理批处理很简单:c:\windows\system32\inetsrv\AppCmd.exe stop apppool /apppool.name:"ASP ...
怎样取消不能改动(仅仅读打开)的word文件的password
作者:iamlaosong 朋友给我一个文档,是加了防改动password的,希望我能帮其取消.由于须要原文档的格式,取消方法例如以下(office2007环境): 1.打开文件.文件打开时,提演示样 ...
机器学习2—K近邻算法学习笔记
Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...

算法调参 weight_ratio, weight_seqratio

算法调参 weight_ratio, weight_seqratio的更多相关文章

随机推荐

热门专题