详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词库里. 好在深蓝词库转换工具已经解析好了,这部分就跳过了. 词长和拼音长关系密切,要注意. 主要词库部分每 1024 字节为一段(分段意义何在?) 前两个字节未知,第 3 个字节表示字符编码格式 0x08 是 GBK,0x09 是 UTF-16LE. 范围 描述 0x04 - 0x23 词库名 0x…
Json 已成为当前服务器与 web 应用之间数据传输的公认标准. 微服务及分布式架构经常会使用 Json 来传输此类文件,因为这已经是 webAPI 的事实标准. 不过正如许多我们习以为常的事情一样,你会觉得这是理所当然的便不再深入比较. 我们很少会去想用到的这些 Json 库到底有什么不同,但事实上它们的确是不太一样的. 因此,我们团队来对常用的三个 Json 库运行测试,看看在解析不同大小文件时哪个库的速度最快. 在给定的文件大小下,你可以看到不同库之间的解析速度存在着明显的差别. 高吞吐…
python爬虫之urllib库(三) urllib库 访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去选择商品.HTTP的无状态性表现在,登录账号以后进入主页,再进入商品页面的时候,你又必须重新登录.这就是HTTP协议的无状态性,你通过HTTP发送请求,服务器接收的当前请求,处理后让你进入主页,当你选择商品要进入商品页面的时候,服务器就又不认识你是谁了,只会问:来者何人?来,登录表单再发你,填吧.那…
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.baidu.com/web/iw/index/ 下载. 解析 范围 描述 0x70 - 0x73 词条数 0x90 - 0xCF 词库名 0xD0 - 0x10F 词库作者 0x110 - 0x14F 示例词 0x150 - 0x34F 词库描述 有的词库在 0x250 开始的后 4 个字节是大端序的…
详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载. .qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载. 解析 # 范围 描述 0x00 - 0x11F 未知 a 0x120 - 0x123 不展开重码的词条数(编码数) b 0x124 - 0x127 展开重码的词…
详细代码:https://github.com/cxcn/dtool 前言 mb 是极点五笔的码表格式. 解析 偏移量 描述 0x00 版本信息 0x1B 码表介绍 0x11F 所用到的按键数 0x120 所用到的按键,utf-16le 0x154 万能键 0x156 编码截止键 0x176 组词规则 0x176 组词规则 0x194 径直上屏的标点 0x1B4 特殊符号引导符 0x1B8 未知 0x1B620 左右 码表 上图选中部分解析为 五笔点儿词库2022春 QQ群313225526 生…
1. adns.adns-python库简介 adns库是一个可进行异步非阻塞解析域名的库,主要使用C语言编写,在linux平台下运行.使用adns库进行域名解析效率非常,著名的开源网络爬虫larbin就使用adns库进行域名解析.可惜的是,adns库没有说明文档.作者的意思是,adns.h这个文件即可说明这个库的使用方法.非常遗憾,我不太懂dns解析过程中所涉及到的各种细节知识,对C语言的掌握程度也没能达到出神入画的境界,所以,我不得不承认,光凭这个adns.h,我无法知道应该如何使用adns…
一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. jieba库中包含的主要函数如下: jieba.cut(s)                                                               精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut_all=True)                  …
13.4 QuickCharts图表控件库解析     QuickCharts图表控件是Amcharts公司提供的一个开源的图表控件库,这个控件库支持WPF.Silverlight.和Windows等平台,源代码可以从Github网站上下载到(https://github.com/ailon/amCharts-Quick-Charts).目前从Github上下载到的QuickCharts图表控件的源代码并不能直接在Windows 10上使用,但是由于都是基于XAML来创建的,所以很方便进行移植到…
Struts2的标签库(三) --控制标签 1.if/elseif/else标签 用于分支控制,取代JSP中的if语句,根据一个boolean(test属性的值)值判断是否进行下一步运算或者输出等. <s:if>可以单独使用,而<s:elseif>和<s:else>必须和<s:if>结合使用,在一个循环中必须只有一个<s:if>,没有或有几个<s:elseif>,最多有一个<s:else>. 使用例子: <%@ pa…