tesseract 训练词库

2024-09-05

OCR2：tesseract字库训练

由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库. 工具: Java虚拟机,由于jTessBoxEditor的运行依赖Java运行时环境,所以需要安装Java虚拟机.下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html jTessBox

词表征 3：GloVe、fastText、评价词向量、重新训练词向量

原文地址:https://www.jianshu.com/p/ca2272addeb0 (四)GloVe GloVe本质是加权最小二乘回归模型,引入了共现概率矩阵. 1.基本思想 GloVe模型的目标就是获取每个词的向量表示\(w\).GloVe认为,\(w_i\).\(w_j\).\(w_k\)通过某种函数\(F\)的作用后呈现出来的规律和\(Ratio_{i,j,k}\)具有一致性,或者说相等,这样子也就可以认为词向量中包含了共现概率矩阵中的信息. 2.模型推导 3.word2vec vs

文本分布式表示（二）：用tensorflow和word2vec训练词向量

看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/peghoty/p/3857839.html 2.刘建平:word2vec原理:https://www.cnblogs.com/pinard/p/7160330.html 3.吴恩达:<序列模型:自然语言处理与词嵌入> 理论看完了就要实战了,通过实战能加深对word2vec的理解.目前用word2vec算法

【中文同义词近义词】词向量 vs 同义词近义词库

方案一:利用预训练好的词向量模型优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” from gensim.models.keyedvectors import KeyedVectors wv = KeyedVectors.load_word2vec_format('model/w2v_chisim_300d.bin', binary=True)

QQ五笔词库转拼音词库小工具

参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错(设置方法见上述参考文章): 关键代码: void Button1Click(object sender, EventArgs e) { if(openFileDialog1.ShowDialog() == DialogResult.OK) { var lines = File.ReadAllLines(op

将搜狗词库.scel格式转化为.txt格式

由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两

paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.

paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax ver:2012 IKAnalyzer 的默认词库的匹配度可能不好..可以使用扩展词库... 但是,更好的办法是,禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 需要实现Configuration接口,实现getMainDictionary以及

用C语言将搜狗输入法词库转换成QQ拼音输入法词库

搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 'ni'kan'zhe 你看着 'ni'kan'zhe'ban 你看着办 'ni'kan'zhe'jiu'xing 你看着就行 'ni'kao'bu'kao 你考不考 'ni'kao'de 你考得 'ni'kao'wan 你考完 'ni'kao'yan 你考研 'ni'kao'yan'ma 你考研吗

paip.ikanalyzer 重加载词库的方法.

paip.ikanalyzer 重加载词库的方法. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax if(WordsLibController.lastWordsLib!=null) { dictionary.disableWords(WordsLibController.lastWordsLib); } WordsLibController.lastW

paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库.

paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1.禁用默认词库,仅仅使用自定义词库 2.词库从数据库读取,而不使用默认的文件方式,方便维护.. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax Dictionary.getI

paip.数据挖掘--导出词库清理太长的iptcode

paip.数据挖掘--导出词库清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keyword python 文件读写rwrite unicode #清理规则:长度大的9, 而且含有nonex 作者老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax #主要的算法如下 x=r"c:\导

paip.输入法编程---词库多意义条目分割 python实现.

paip.输入法编程---词库多意义条目分割 python实现. ==========子标题 python mysql 数据库操作多字符分隔,字符串分割字符列表循环作者老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax ===================主要的流程词库原来格式 carp n.鲤鱼:v.吹毛求疵 813 需要意义分割.. 主要的流程如下: for

paip.输入法英文词库的处理 python 代码 o4

paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示．． ,在根据英文输入．．＝＝＝＝＝下载源词库要下载一个格式好的词库文件还是很困难的．．几乎没．．只好自己写兰．．．下载一个-GRE 8k词库．．excel,删除不要的datasheet,导入mysql 格式如下: abandon v./n.放弃:放纵

paip 自定义输入法多多输入法词库的备份导出以及导入

paip 自定义输入法词库的备份导出以及导入作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attila /////////64位win7 哈的使用问题. 能安装..但是系统环境中不能直接使用.. 在应用中能使用了. //////////备份导出普通的32位机器,直接备份导出 64位机器,备份导出默认的功能不能使用..需要 search eveything 到个main.dmg ,不个这

Sphinx(coreseek) 安装使用以及词库的扩展

1.Sphinx(coreseek) 是啥一般而言,Sphinx是一个独立的全文搜索引擎:而Coreseek是一个支持中文的全文搜索引擎,意图为其他应用提供高速.低空间占用.高结果相关度的中文全文搜索能力.Sphinx/Coreseek可以非常容易的与SQL数据库和脚本语言集成. 也就是说Coreseek可以单独使用,不需要再安装Sphinx 2.从哪里获取 Sphinx原始版本可以从Sphinx官方网站 http://www.sphinxsearch.com/,Coreseek可以从

Atitit.atiInputMethod v2词库清理策略工具 q229

Atitit.atiInputMethod v2词库清理策略工具 q229 1.1. Foreigncode 外码清理1 1.2. 垃圾词澄清1 1.1. Foreigncode 外码清理 Only can Ascii and num Before Be4 For 4 1.2. 垃圾词澄清 Tool long Not common wordlib (3000-5000) 作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯阿克巴阿尔

Mac 鼠须管合并词库简单使用

之前一直没用过合成词库这功能,有个同步用户数据的选项,点它后,生成一个文件夹,里面就有当前的一些配置,词库之类的 /Users/dfpo/Library/Rime/sync 这样我们就得到了一个装着用户数据的文件夹,同样的操作,假如你在公司也有这份数据就可以合并了. 把这些词库文件夹放sync下,再点击同步用户数据,就会把这些词库合并了,智能合并

Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库

文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充项目结构图如下: IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典.谷歌拼音词库下载: http://ishare.iask.sina.com.cn/f/14446921.html?from=like在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml v

解析搜狗词库(python)

#!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) #找出其每部分的偏移位置即可 #主要两部分 #1.全局拼音表,貌似是所有的拼音组合,字典序 # 格式为(index,len,pinyin)的列表 # index: 两个字节的整数代表这个拼音的索引 # len:

CentOS安装搜狗词库

中文输入使用ibus-pinyin. 在ibus-pinyin里使用搜狗词库 # wget http://hslinuxextra.googlecode.com/files/sougou-phrases-full.7z# 7za x sougou-phrases-full.7z# cp ibus/android.db /usr/share/ibus-pinyin/db/android.db# 输入y确认覆盖

ibus用上搜狗拼音词库

1.下载搜狗拼音词库 wget http://hslinuxextra.googlecode.com/files/sougou-phrases-full.7z 2.用sougou-phrases-full.7z中的ibus/android.db文件替换/usr/share/ibus-pinyin/db/android.db文件.

tesseract 训练词库

热门专题