搜索和浏览离线 Wikipedia 维基百科(中/英)数据工具
为什么使用离线维基百科?一是因为最近英文维基百科被封,无法访问;二是不受网络限制,使用方便,缺点是不能及时更新,可能会有不影响阅读的乱码。
目前,主要有两种工具用来搜索和浏览离线维基百科数据:Kiwix 和 WikiTaxi 。这两种都是免费的,但 WikiTaxi 只有 Windows 版本,而 Kiwix 不仅支持 Windows、Linux 和 Mac,而且还支持 Android 和 iOS 。
Kiwix
Kiwix 是免费开源软件。使用 Kiwix Reader 应用浏览维基百科内容,支持内容包的格式为 VIM。
官方网址为 https://www.kiwix.org
Kiwix Reader下载网址为 https://www.kiwix.org/en/downloads/kiwix-reader/
VIM 内容包下载网址为 https://wiki.kiwix.org/wiki/Content_in_all_languages ,从中你可以选择各种语言的维基百科内容包,支持两种下载方式:种子下载和直接下载。同时 Kiwix 还支持在 Kiwis Reader 应用内部下载,在应用的左侧栏选择 “ALL Files”,即可看到可供下载的内容。
使用方法:在 Kiwix Reader 中,°°° -> File -> Open file,选择下载的 维基百科内容包,即可。
注:Kiwix Version : 2.0-beta5-18-gc42d2d0; Build date : Fri 06/14/2019
WikiTaxi
WikiTaxi 是一个单文件应用,无需数据库引擎和 HTML 浏览器,就可以离线查看、搜索和浏览下载到计算机上的维基百科数据库。
官方网址为 https://www.yunqa.de/delphi/products/wikitaxi/index
下载网址为 https://www.yunqa.de/delphi/downloads/WikiTaxi_1.3.0.zip
使用方法:
- 首先使用 WikiTaxi_1.3.0.zip 压缩包中的 WikiTaxi_Importer.exe 将 .xml.bz2 格式转为 taxi 格式;
- 然后使用压缩包中的 WikiTaxi.exe 打开 taxi 格式文件,即可使用。
注:最新的维基百科数据库文件 (xml.bz2 格式)需要从如下网址下载:
最新的中文维基百科数据库下载网址:https://download.wikipedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
最新的英文维基百科数据库下载网址:https://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
参考资料
[1] 分享离线版维基百科. https://zhuanlan.zhihu.com/p/25410565
[2] How can I browse Wikipedia's offline database on Linux? https://askubuntu.com/questions/171860/how-can-i-browse-wikipedias-offline-database-on-linux
[3] How To Download And View Wikipedia Offline. https://www.investintech.com/resources/blog/archives/4198-view-download-wikipedia-offline.html
[4] WikiTaxi 离线中英文维基百科数据库搜索阅读工具绿色免费版下载 (可装进U盘随处使用查询). https://www.iplaysoft.com/wikitaxi.html
搜索和浏览离线 Wikipedia 维基百科(中/英)数据工具的更多相关文章
- wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5
英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https: ...
- Sqlite3,维基百科中的练习:
https://en.wikibooks.org/wiki/SQL_Exercises/The_computer_store 两个相连的表格 Manufactures: code, name prod ...
- 安装使用离线版本的维基百科(Wikipedia)
1 相关背景 平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的“404NOT FOU ...
- 使用JWPL (Java Wikipedia Library)操作维基百科数据
使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Ja ...
- 中英文维基百科语料上的Word2Vec实验
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...
- JWPL工具处理维基百科wikipedia数据用于NLP
JWPL处理维基百科数据用于NLP 处理zhwiki JWPL是一个Wikipedia处理工具,主要功能是将Wikipedia dump的文件经过处理.优化导入mysql数据库,用于NLP过程.以下以 ...
- 110G离线维基百科数据免费拿
110G离线维基百科数据免费拿.. 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994
- 从维基百科等网站复制公式到MathType中
在写论文的时候你会想要一些比书本上更好的实例,所以你会在网上寻找资源.当你发现一个你想要的公式时,发现网页公式复制粘贴后太模糊而不适合打印或者投影.这种问题在MathType中如何解决呢? 你可以将网 ...
- 通过维基API实现维基百科查询功能
通过英文维基的免费API,可以实现对维基百科的搜索查询或者标题全文查询等,尝试了一下通过title实现全文查询,返回的结果是wikitext格式,暂时不知道该如何应用,所以仅实现了查询功能,可以返回最 ...
随机推荐
- 引入jquery时,页面一直加载
注意jquery的引用位置最好放在<head>下面.
- Windbg Memory(内存)窗口的使用
在 WinDbg 中,可以查看和编辑内存,通过输入命令或通过使用内存窗口. 内存窗口的打开 通过菜单View-->Memory 通过快捷键Alt+5 通过工具栏 使用内存窗口 通过上面方式打开的 ...
- Shell基础、输入输出重定向
1.Shell的功能: (1)Shell是命令解释器,把我们写的命令转化为内核能够识别的机器语言,然后内核调用硬件来完成相应的操作.操作完成后,内核操作结果返回给内核,Shell再将机器语言翻译为我们 ...
- plv8 require 模块试用
plv8 是postgres 的一个比较强大的插件,社区有人基于babel,browserify 实现了一个方便的require 模块加载 实际上官方也有介绍过了类似的基于数据库存储js,然后通过ev ...
- CPU中断的工作原理,从最底层讲起
前言 中断的概念属于硬件层.虽然我们在进行软件编程时不会直接使用中断,但理解它对我们来说依然重要. 我们在使用线程切换及状态管理.异常处理.硬件与处理器的交互.I/O操作等指令时,中断都在默默的为我们 ...
- 以V8中js源码为例了解GitHub查看代码功能
GitHub作为开源仓库,许多开源项目仓库这里,当然不乏十分优秀的,比如Node.V8,我一直比较好奇js源码,像java的话,因为环境是JDK,我们结合IDE很容易就能跳转到其源码内部去查看实现,但 ...
- 浅谈HTTPS传输过程
HTTPS是什么 HTTPS不是一个新的协议,可以理解为是一个HTTP协议的加密"版本"(HTTP+SSL(TLS)).那为什么HTTP协议需要加密,不加密会出现什么问题呢?先来了 ...
- MQ异步同步搜索引擎ElasticSearch数据踩坑
业务背景 在大型网站中,为了减少DB压力.让数据更精准.速度更快,将读拆分出来采用搜索引擎来为DB分担读的压力,ElasticSearch就是目前市面上比较流行的搜索引擎,他的检索速度奇快.支持各种复 ...
- ZROI 暑期高端峰会 A班 Day5 杂题选讲
CF469E \(n\) 个需要表示的数,请使用最少的 \(2^k\) 或 \(-2^k\) 表示出所有需要表示的数.输出方案. \(n\le 10^5,|a_i|\le 10^5\). 首先每个数肯 ...
- C++判断计算式是大端存储模式,还是小端存储模式
小端存储:数据的低字节存储在地址空间的低字节位,数据的高字节存储在地址空间的高字节位. 大端存储:数据的低字节存储在地址空间的高字节位,数据的高字节存储在地址空间的低字节位. 判断计算机是小端还是大端 ...