为PC端Google拼音输入法增加词库

为什么折腾词库

都在说百度、讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧?

用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端、手机端(我不是miboy)都安装。

因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的词库手动导入之外,显得词库太瘦,由studyzy在github上发布的imewlconverter深蓝词库转换工具:

一款输入法词库转换软件,支持以下超过20种的输入法工具和词库

有了这个神器,就有想把搜狗词库下载下来。

开始手工活

通过搜狗细胞词库页面


通过查看网页源代码查找

/dict/cate/index/

可以看到,有下面几大类:

  • 人文科学
  • 农林渔畜
  • 医学
  • 城市信息大全
  • 娱乐
  • 工程与应用科学
  • 生活
  • 电子游戏
  • 社会科学
  • 自然科学
  • 艺术
  • 运动休闲

可以进一步看到每一类的单独页面是:

找到子类

里面的数字相当于是他的ID,点击进入每个大类,会打开对应的每一个细类,在细类页面找到每一类的总页数,例如,总页数是10页,每一页的具体页面是:

词库下载地址

在子类的每一个页面查找:

<div class="detail_title"><a href=

找到分页面里的词库名称:

http://pinyin.sogou.com//dict/detail/index/15206 动物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15208 地理地质词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15124 生物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15205 化学化工词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15202 数学词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15203 物理词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15207 植物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15204 天文词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15120 气象词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/20660 测绘词汇大全【官方推荐】

对应的下载地址继续查找:

<div class="dict_dl_btn"><a href="

对应的下载地址是:

http://download.pinyin.sogou.com/dict/download_cell.php?id=15206&name=%E5%8A%A8%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15208&name=%E5%9C%B0%E7%90%86%E5%9C%B0%E8%B4%A8%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15124&name=%E7%94%9F%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15205&name=%E5%8C%96%E5%AD%A6%E5%8C%96%E5%B7%A5%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15202&name=%E6%95%B0%E5%AD%A6%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15203&name=%E7%89%A9%E7%90%86%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15207&name=%E6%A4%8D%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15204&name=%E5%A4%A9%E6%96%87%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15120&name=%E6%B0%94%E8%B1%A1%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=20660&name=%E6%B5%8B%E7%BB%98%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91

给每个下载地址加入“.scel”后缀,放到迅雷里进行下载。

用到的工具

pycharm

找到子类分页面之后,通过python的request包把页面源代码下载到本地。(python连初学都算不上)

ultraedit

通过ultraedit的在文件中查找功能找到子类名称、词库名称和下载地址。

迅雷

在下载链接中加入scel后缀之后加入迅雷进行下载。
PS:词库有重复的。

按键精灵

迅雷下载时会提示有重复任务,问是否需要继续,用按键精灵录制了一个鼠标点击动作。

后记

一共找到6912个词库,自己下载了2000个。

书到读时方恨少,python应该可以一次搞定这个事情,这里算是用打补丁的方式做了。

把搜狗输入法词库导入Google拼音输入法的更多相关文章

  1. 用C语言将搜狗输入法词库转换成QQ拼音输入法词库

    搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...

  2. Linux下安装google拼音输入法

    首先安装fcitx,前几天看了很多在ubuntu上能够使用的输入法,有人推荐是搜狗输入法,毕竟是国产嘛,但是会有意外发生,比如说安装之后会产生输入的字符乱码,是一堆看不懂的东西,我就是因为遇到了,然后 ...

  3. [转]ubuntu14.04安装好用的google拼音输入法

    原文网址:http://jingyan.baidu.com/article/219f4bf7d4a183de442d38f2.html 装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有, ...

  4. ubuntu下google 拼音输入法的安装

    google拼音输入法安装 (1).获代替码:(没有git的先安装git:sudoapt-get install git-core) $>gitclone git://github.com/tc ...

  5. ubuntu14.04安装好用的google拼音输入法

    装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有,有些字拼不出来有没有...,其实我们安装google拼音输入发就会好很多... 方法/步骤     安装google拼音输入法 $sud ...

  6. LinuxMint Mate 安装Google拼音输入法(Fcitx)

    安装Google拼音输入法(Fcitx)$ sudo apt-get install fcitx fcitx-config-gtk fcitx-frontend-all fcitx-ui-classi ...

  7. 树莓派3B/3B+ 清华镜像系统和安装中文输入法Fcitx及Google拼音输入法

    你还在为树莓派无法安装中文输入法而到处找教程吗? 你还在为树莓派每次下载都要远隔重洋获取资源,龟速下载而烦恼吗? 为了解决这个问题,在这篇树莓派教程中,我将手把手叫你怎样安装 清华镜像系统和中文输入法 ...

  8. ubuntu下的google拼音输入法(终结版)

    声明:此文章是从我的51cto博客上搬至于此. Ubuntu下SCIM应该是最好的中文输入法了,它与搜狗差不多,下面介绍它的安装方法: 1)终端输入: sudo apt-get remove scim ...

  9. 树莓派安装中文输入法Fcitx及Google拼音输入法

    本来是想给树莓派安装搜狗输入法的, 搜狗输入法Linux版:https://pinyin.sogou.com/linux/?r=pinyin 但是一直安装不成功,后面发现原来是系统架构不同导致的,搜狗 ...

随机推荐

  1. WIN7/8/10下批处理提权工具

    ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: 自动添加批处 ...

  2. Altium Designer如何统一改变pcb状态下的原件标号位置

    原创 我用的是Altium Designer16版本 变成 步骤如下: 选中标号 右击 下边一步很重要: 点击应用和确定 在之后弹出的对话框中选则你要改变的位置,我这里是把标号改变到原件的右侧: 等待 ...

  3. UVA 11609 - Teams 组合、快速幂取模

    看题传送门 题目大意: 有n个人,选一个或者多个人参加比赛,其中一名当队长,如果参赛者相同,队长不同,也算一种方案.求一共有多少种方案. 思路: 排列组合问题. 先选队长有C(n , 1)种 然后从n ...

  4. 2016最新CocoaPods安装与使用

    前言 是不是已经厌烦了将各种库拖拽到Xcode项目中?那么,CocoaPods的出现就帮你解决了这一问题.CocoaPods是Objective-C项目中最有名的类库管理工具,可以解决库与库之间的依赖 ...

  5. [CSS3] Create a fixed-fluid-fixed layout using CSS calc()

    CSS calc() allows you to mix and match units to get real-time calculations. It's useful when you nee ...

  6. win32中SetCapture 和 ReleaseCapture的使用(查一下在VCL中的使用)

    最近在用win32写<visual C++经典游戏程序设计>中的扫雷游戏,在写到鼠标点击雷区的时候用到了SetCapture,和ReleaseCapture这对系统函数. 那么为什么需要用 ...

  7. Longest Increasing Subsequences(最长递增子序列)的两种DP实现

    一.本文内容 最长递增子序列的两种动态规划算法实现,O(n^2)及O(nlogn).     二.问题描述 最长递增子序列:给定一个序列,从该序列找出最长的 升序/递增 子序列. 特点:1.子序列不要 ...

  8. php 时间戳转为多少分钟前 小时前 天前

    function mdate($time = NULL) { $text = ''; $time = $time === NULL || $time > time() ? time() : in ...

  9. (一)RabbitMQ消息队列-RabbitMQ的优劣势及产生背景

    原文:(一)RabbitMQ消息队列-RabbitMQ的优劣势及产生背景 本篇并没有直接讲到技术,例如没有先写个Helloword.我想在选择了解或者学习一门技术之前先要明白为什么要现在这个技术而不是 ...

  10. Multi-core compute cache coherency with a release consistency memory ordering model

    A method includes storing, with a first programmable processor, shared variable data to cache lines ...