开源项目在线化 中文繁简体转换/敏感词/拼音/分词/汉字相似度/markdown 目录
前言
以前在 github 上自己开源了一些项目。碍于技术与精力,大部分项目都是 java 实现的。
这对于非 java 开发者而言很不友好,对于不会编程的用户更加不友好。
为了让更多的人可以使用到这些简单的小工具,周末抽时间将几个开源项目添加了 web 服务实现。
开源项目
中文繁简体转换
简介:支持中文繁简体的在线转换。
在线地址:https://houbb.github.io/opensource/opencc4j/
开源地址:https://github.com/houbb/opencc4j
用法简介
此处仅选择一个作为例子介绍,其他用法大同小异。
【处理】将左边的内容,按照下拉框的选择,结果会自动填充在右边。
【互换】互换左右两边的内容。平时测试繁体=》简体,和简体=》繁体更加方便。
【复制】复制右边的内容到粘贴板。
敏感词
简介:基于 DFA 算法实现的高性能 java 敏感词工具框架。请勿发布涉及政治、广告、营销、FQ、违反国家法律法规等内容。
在线地址:https://houbb.github.io/opensource/sensitive-word/
开源地址:https://github.com/houbb/sensitive-word
拼音
简介:高性能中文转拼音工具。支持同音字。
在线地址:https://houbb.github.io/opensource/pinyin/
开源地址:https://github.com/houbb/pinyin
可以很方便的把一段文字转换为对应的拼音,比如前言的内容默认如下:
yǐ qián zài github shàng zì jǐ kāi yuán le yī xiē xiàng mù 。 ài yú jì shù yǔ jīng lì , dà bù fèn xiàng mù dōu shì java shí xiàn de 。 zhè duì yú fēi java kāi fā zhě ér yán hěn bù yǒu hǎo , duì yú bú huì biān chéng de yòng hù gèng jiā bù yǒu hǎo 。 wèi le ràng gèng duō de rén kě yǐ shǐ yòng dào zhè xiē jiǎn dān de xiǎo gōng jù , zhōu mò chōu shí jiān jiāng jǐ gè kāi yuán xiàng mù tiān jiā le web fú wù shí xiàn 。
分词
简介:基于结巴分词词库实现的更加灵活优雅易用,高性能的 java 分词实现。
在线地址:https://houbb.github.io/opensource/segment/
开源地址:https://github.com/houbb/segment
分词,可以说是 NLP 的基石。
前言的内容分词效果如下:
[以前[0,2), 在[2,3), [3,4), github[4,10), [10,11), 上自[11,13), 己[13,14), 开源[14,16), 了[16,17), 一些[17,19), 项目[19,21), 。[21,22), 碍于[22,24), 技术[24,26), 与[26,27), 精力[27,29), ,[29,30), 大部分[30,33), 项目[33,35), 都[35,36), 是[36,37), [37,38), java[38,42), [42,43), 实现[43,45), 的[45,46), 。[46,47), [47,48), [48,49), 这[49,50), 对于[50,52), 非[52,53), [53,54), java[54,58), [58,59), 开发者[59,62), 而言[62,64), 很[64,65), 不[65,66), 友好[66,68), ,[68,69), 对于[69,71), 不会[71,73), 编程[73,75), 的[75,76), 用户[76,78), 更加[78,80), 不[80,81), 友好[81,83), 。[83,84), [84,85), [85,86), 为了[86,88), 让[88,89), 更多[89,91), 的[91,92), 人[92,93), 可以[93,95), 使用[95,97), 到[97,98), 这些[98,100), 简单[100,102), 的[102,103), 小工[103,105), 具[105,106), ,[106,107), 周末[107,109), 抽时间[109,112), 将[112,113), 几个[113,115), 开源[115,117), 项目[117,119), 添加[119,121), 了[121,122), [122,123), web[123,126), [126,127), 服务[127,129), 实现[129,131), 。[131,132)]
汉字相似度
简介:汉字相似度计算工具。中文形近字算法
在线地址:https://houbb.github.io/opensource/nlp-hanzi-similar/
开源地址:https://github.com/houbb/nlp-hanzi-similar
markdown 目录
简介:为 markdown 文件生成 toc 目录
在线地址:https://houbb.github.io/opensource/markdown-toc/
开源地址:https://github.com/houbb/markdown-toc
个人平时的博客都是使用 markdown 编写的,专注于写作。markdown-toc 可以为这样的文本生成对应的 toc。
比如本篇文章,直接放在 github 上,是支持跳转的。
* [前言](#前言)
* [开源项目](#开源项目)
* [中文繁简体转换](#中文繁简体转换)
* [用法简介](#用法简介)
* [敏感词](#敏感词)
* [拼音](#拼音)
* [分词](#分词)
* [汉字相似度](#汉字相似度)
* [markdown 目录](#markdown-目录)
小结
这样的小工具,实现起来非常简单。
但是对于用户而言,意义还是比较大的。
最近在学习一些 AI 相关的东西,自己平时不搞 python,很多开源项目,没有 web 体验版本看起来就会很吃力。
不同的语言产生了难以逾越的鸿沟,愿你我能够借助 WEB 的力量,跨过去。
原文地址
开源项目在线化 中文繁简体转换/敏感词/拼音/分词/汉字相似度/markdown 目录的更多相关文章
- Python中文繁简体转换工具
Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`\/\ '__`\ /'__`\/' _ `\ /'___\ /'___\/\ '__`\/\ \ ...
- NLP入门(七)中文预处理之繁简体转换及获取拼音
在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现. 首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文 ...
- java 中文繁简体转换工具 opencc4j
创作缘由 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射.(使用map,集合,properties)等. 存在一个严重的问题:特殊词组 的转换可能存在问题. OpenCC ...
- php 中文繁简体转换
<?php $testC = new TestC (); $testC->index (); class TestC { private $utf8_gb2312; private $ut ...
- 基于DFA算法、RegExp对象和vee-validate实现前端敏感词过滤
面临敏感词过滤的问题,最简单的方案就是对要检测的文本,遍历所有敏感词,逐个检测输入的文本是否包含指定的敏感词. 很明显上面这种实现方法的检测时间会随着敏感词库数量的增加而线性增加.系统会因此面临性能和 ...
- 你真的了解字典(Dictionary)吗? C# Memory Cache 踩坑记录 .net 泛型 结构化CSS设计思维 WinForm POST上传与后台接收 高效实用的.NET开源项目 .net 笔试面试总结(3) .net 笔试面试总结(2) 依赖注入 C# RSA 加密 C#与Java AES 加密解密
你真的了解字典(Dictionary)吗? 从一道亲身经历的面试题说起 半年前,我参加我现在所在公司的面试,面试官给了一道题,说有一个Y形的链表,知道起始节点,找出交叉节点.为了便于描述,我把上面 ...
- android 插件化开发 开源项目列表
开源的插件化框架 Qihoo360/DroidPlugin CtripMobile/DynamicAPK mmin18/AndroidDynamicLoader singwhatiwanna/dyna ...
- 【伯乐在线】最值得阅读学习的 10 个 C 语言开源项目代码
原文出处: 平凡之路的博客 欢迎分享原创到伯乐头条 伯乐在线注:『阅读优秀代码是提高开发人员修为的一种捷径』http://t.cn/S4RGEz .之前@伯乐头条 曾发过一条微博:『C 语言进阶有 ...
- 免费开源Blazor在线Ico转换工具
行文目录 功能效果演示 实现说明 2.1 其他图片上传 2.2 核心代码:其他图片转Ico 2.3 转换后的Ico文件下载 总结 1. 功能效果演示 仓库地址:IcoTool 在线演示地址:https ...
随机推荐
- Java精进-20分钟学会mybatis使用
文字分享 希望现在的你无论有明确具体的目标还是没有,都能重视自己的需求和目标,并且常常回顾,或许可以找一个你习惯的方式写出来,挂在哪里,电脑或日记本都好.当你疲惫或迷茫的时候拿出来看一下,这在情怀领域 ...
- CSP-S 2020 T4 贪吃蛇 (双队列模拟)
题面 题解 先看数据,T<=10,用平衡树或优先队列是可以拿70分的,大体思路和正解思路是一样的,每次直接修改,然后模拟. 我们模拟的时候,主要是在过程中算出最终被吃的有选择权的蛇的最后选择时刻 ...
- C++ Protobuf
Protobuf protobuf (protocol buffer) 是谷歌内部的混合语言数据标准.通过将结构化的数据进行序列化(串行化),用于通讯协议.数据存储等领域的语言无关.平台无关.可扩展的 ...
- 【JDBC】学习路径5-提取JDBCUtils工具类
回顾我们上面几节的内容,我们发现重复代码非常多,比如注册驱动.连接.关闭close()等代码,非常繁杂. 于是我们将这些重复的大段代码进行包装.提取成JDBCUtils工具类. 第一章:提取注册连接模 ...
- 【Azure Spring Cloud】Azure Spring Cloud服务,如何获取应用程序日志文件呢?
问题描述 在使用Azure Spring Cloud服务时,如果要收集应用程序的日志.有控制台输出(实时流日志),也可以配置Log Analytics服务. 日志流式处理 可以通过以下命令在 Azur ...
- 【短道速滑九】仿halcon中gauss_filter小半径高斯模糊优化的实现
通常,我们谈的高斯模糊,都知道其是可以行列分离的算法,现在也有着各种优化算法实现,而且其速度基本是和参数大小无关的.但是,在我们实际的应用中,我们可能会发现,有至少50%以上的场景中,我们并不需要大半 ...
- Currtid 函数与性能问题
对于Oracle ,一条tuple 的 rowid正常是不会变化的(引发row movement的操作除外,如:跨分区迁移update,表收缩),因此,应用设计上可以方便的使用rowid,加快访问速度 ...
- HCIA-STP原理与配置
STP协议生成树协议: 为了保证网络可靠,所以在组网时需要设置冗余链路和设备,从而在物理结构上形成结构,又因为交换机的工作特点导致二层网络中产生广播风暴和MAC地址表震荡现象,影响用户体验. 广播风暴 ...
- Python-Django模板
前面将hello world输出给浏览器,将数据与 视图 混合在一起,不符合 MVC思想. 模板就是一个文本,用来分离文档的表现形式和内容. 在templates目录下创建一个html模板 然后需要向 ...
- kubeadm join 命令执行流程