Regex 字符是不是汉字】的更多相关文章

Regex   字符是不是汉字 一. 判断一个字符是不是汉字通常有三种方法: 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127 string text = "是不是汉字,ABC";       for (int i = 0; i < text.Length; i++)       {            if ((int)text[i] > 127)                  Console.WriteLine("…
支持并尊重原创!原文地址:http://jingyan.baidu.com/article/2c8c281deb79ed0008252af1.html 判断一个字符是不是汉字通常有三种方法,第1种用 ASCII 码判断,第2种用汉字的 UNICODE 编码范围判 断,第3种用正则表达式判断,下面是具体方法. 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,根据这个范围可以判断,具体代码如下: /// <summary> /// 用 ASCII 码范围…
判断一个字符是不是汉字通常有三种方法,第1种用 ASCII 码判断(在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,根据这个范围可以判断),第2种用汉字的 UNICODE 编码范围判 断(汉字的 UNICODE 编码范围是4e00-9fbb),第3种用正则表达式判断,下面是具体方法. 但是实际上并不怎么准确(从业务上讲,比如全角输入的数字),所以后来简单修改了一下 代码 public static bool IsChinese( this string CString) {…
有些文件中存在Unicode字符和非Unicode字符,如何利用java快速的把文件中的Unicode字符转换为汉字而不影响文件中的其他字符呢, 我们知道虽然java 在控制台会把Unicode字符直接输出成汉字,但是当遇到文件中的Unicode和非Unicode字符在一起的时候却不好用了. 下面是代码,只需要把代码中的路径替换为你想要的路径,在建立一个转换后的文件路径.其他代码无需改变. import java.io.BufferedReader; import java.io.Buffere…
###php去掉字符串中的最后一个字符和汉字 1.php去掉字符串中的最后一个字符: //方法一: $newstr = substr($str,0,strlen($str)-1); //方法二: $newstr = substr($str, 0, -1) 2.php去掉字符串中的最后一个汉字: //坑的地方就是这个,汉字在u8编码中是占3个字符,所以得注意 $newstr = substr($str,0,strlen($str)-3); //这是去掉字符串中的最后一个汉字…
/** * java 中的流主要是分为字节流和字符流 * 再一个角度分析的话可以分为输入流和输出流 * 输入和输出是一个相对的概念 相对的分别是jvm虚拟机的内存大小 * 从另一个角度讲Java或者用Java开发的其他软件只是一个工具而已 * 你可以从几个角度进行深入,一个是利用好工具,一个是改造工具,一个是制造工具 */ try { BufferedReader bufferedReader=new BufferedReader(new FileReader(new File("D:\\ES笔…
在做一个用到ucGUI的项目的时候要用到不定的汉字和英文字符,但是ucGUI本身又不支持读取芯片外部flash的字库来显示,于是查了下资料,如下: http://www.cnblogs.com/hiker-blogs/archive/2013/01/04/2843538.html 站在巨人的肩膀上,我找到了将汉字库写进flash后,通过ucGUI的控件显示出来的方法,但是至此,并不能在一个字符串里添加汉字和英文,用于同时显示,因为flash里面没有英文字符的模. 为了让一个控件同时显示汉字和英文…
一个中文utf8编码后是占3个字符,所以求长度的函数可以这样写 def str_len(str): try: row_l=len(str) utf8_l=len(str.encode('utf-8')) +row_l except: return None return None unicode中汉字为两字节, utf-8中汉字为三字节 https://en.wikipedia.org/wiki/Unicode https://en.wikipedia.org/wiki/UTF-8…
.用ASCII码判断 在 ASCII码表中,英文的范围是0-,而汉字则是大于127,根据这个范围可以判断,具体代码如下: string text = "我去"; bool res = false; foreach (char t in text) { ) res = true; } .用汉字的 UNICODE 编码范围判断 汉字的 UNICODE 编码范围是4e00-9fbb,根据此范围也可 以判断,具体代码如下: string text = "我去"; bool…
系统:windows 64 编译器:gcc version 8.1.0 (x86_64-posix-seh-rev0, Built by MinGW-W64 project) 文本编辑器:notepad 控制台:Cmder 编程语言:C.Python 首先,要想打印汉字,必须考虑到编码问题.在windows下,由于系统使用GBK编码,而GCC解析时使用UTF-8而会导致以下代码运行时出现乱码: #include <stdio.h> int main() { char *str = "…
方法一:使用正则表达式,代码如下: function getByteLen(val) { var len = 0; for (var i = 0; i < val.length; i++) { var a = val.charAt(i); if (a.match(/[^\x00-\xff]/ig) != null) { len += 2; } else { len += 1; } } return len; } 方法二:使用字符unicode判断:方法如下: function getByteLe…
1.控制台转换 1.1 将汉字转为Unicode: C:\Program Files\Java\jdk1.5.0_04\bin>native2ascii 测试 \u6d4b\u8bd5 1.2 将Unicode转换为汉字: C:\Program Files\Java\jdk1.5.0_04\bin>native2ascii -reverse \u6d4b\u8bd5 测试 2.文件转换 native2ascii [options] [inputfile [outputfile]]说明:[opt…
程序字符需要改成gb2312.否则无法正常显示中文字符. main.c代码: #include <sys/types.h> #include <sys/stat.h> #include <sys/mman.h> #include <linux/fb.h> #include <stdio.h> #include <fcntl.h> #include <unistd.h> #include <string.h> #…
CREATE OR REPLACE FUNCTION GET_CHINESE(P_NAME IN VARCHAR2) RETURN VARCHAR2 IS V_CODE        VARCHAR2(30000) := ''; V_CHINESE     VARCHAR2(4000) := ''; V_NON_CHINESE VARCHAR2(4000) := ''; V_COMMA       PLS_INTEGER; V_CODE_Q      PLS_INTEGER; V_CODE_W …
function countCharacters(str, num) { var str = '' + str || '', num = +num || 0, res = '', length = 0; if (!str || !num) { return str; } // 循环字符串,判断长度 最少也会返回一个字 for (var i in str) { res += str[i]; // 测试长度 length += /[\u4e00-\u9fa5]/.test(str[i]) ? 2 :…
判断一个字符是不是汉字通常有三种方法,第一种用 ASCII 码判断,第二种用汉字的 UNICODE 编码范围判 断,第三种用正则表达式判断,以下是具体方法. 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,具体代码如下: string text = "是不是汉字,ABC,柯乐义"; ; i < text.Length; i++) { ) Console.WriteLine("是汉字"); else Console.W…
判断一个字符是不是汉字通常有三种方法: 第一种用 ASCII 码判断,缺点:把全角逗号“,”当汉字处理 第二种用汉字的 UNICODE 编码范围判 断, 第三种用正则表达式判断 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,具体代码如下: string text = "是不是汉字,ABC,柯乐义"; ; i < text.Length; i++) { ) Response.Write("是汉字"); else Re…
算法任务: 1. 给定一个文件,统计这个文件中所有字符的相对频率(相对频率就是这些字符出现的概率——该字符出现次数除以字符总个数,并计算该文件的熵). 2. 给定另外一个文件,按上述同样的方法计算字符分布的概率,然后计算两个文件中的字符分布的KL距离. (熵和KL距离都是NLP自然语言处理中术语,仅仅是涉及到一两个公式而已,不影响您对代码的理解,so just try!) 说明: 1. 给定的文件可以是两个中文文件或两个英文文件,也可以是两个中英文混合文件.对于中文,计算字符,对于英文,计算词.…
判断一个字符是不是汉字通常有三种方法: [1] 用 ASCII 码判断:[2] 用汉字的 UNICODE 编码范围判断:[3] 用正则表达式判断. 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,具体代码如下: string text = "汉字,ABC"; ; i < text.Length; i++) { ) Console.WriteLine("是汉字"); else Console.WriteLine(&qu…
英文和数字为一个字符,汉字为两个字符 在 Web 开发中,经常要对表单元素的输入进行限制,比如说不允许输入特殊字符,标点.通常我们会监听 input 事件: inputElement.addEventListener('input', function(event) { let regex = /[^1-9a-zA-Z]/g; event.target.value = event.target.value.replace(regex, ''); event.returnValue = false…
GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个. 分区表示  GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号.这种表示方式也称为区位码. )-09区为特殊符号. )-55区为一级汉字,按拼音排序.  )-87区为二级汉字,按部首/笔画排序. )-15区及88-94区则未有编码. 也就是说二级汉字与拼音不存在联系.这样网上大部分汉字转拼音类只能正确获取部分汉字的拼音(一级汉字).只有小数的3000多一点汉字.  而二级汉字根本查询不到,比如…
在上章-学习了数码相框的框架分析(1)了 本章主要内容如下: 1)熟悉ASCII/GB2312/Unicode编码 2)写应用程序,使LCD显示汉字和字符 大家都知道,数据传输的是二进制,而字符和汉字却有各种各样的,所以便通过二进制将字符和汉字编成一个字符集(charset). 1.而字符集(charset)又经历3个阶段 ASCII码 最早的计算机采用ASCII码,一个字节便包括了英文数字这些符号 GB2312编码 由于不支持中文,那时候的常用汉字就有6763个,所以中国人发明了GB2312(…
C#.Java实现按字节截取字符串,字符串中包含中文汉字和英文字符数字标点符号等. 在实际项目应用过程中,尤其是在web开发时可能遇到的比较多,就以我的(JiYF笨小孩管理系统)为例,再发布文章时候,文章摘要如果用户没有填写,默认截取文章前面255个字节,这个时候里面难免包含中文汉字,英文字母,标点符号等等有可能就会遇到截取出半个汉字的情况. 以Unicode 16(UCS2)编码为例,每一个字符占用俩个字节 假如字符串s: String s = "潮哥shuo丑安ni去哪?";  上…
使用Jquery validate时写的一些东西,在这里做个笔记 在使用 Jquery validate 的minlength和maxlength进行文本框内容长度验证的时候,对于一个汉字的长度检测结果是1个字符长度, 在这里我想让一个汉字的长度为2个字符长度,下面记录一下实现方法. 首先我们定义一个需求,比如下面文本框,我们想让输入的用户名长度不能超过10个字符(一个汉字为两个字符长度). 用户名:<input type="text" name="username&q…
正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串.正则表达式无疑是处理文本最有力的工具,而.NET的System.dll类库提供的System.Text.RegularExpressions.Regex类实现了验证正则表达式的方法.Regex 类表示不可变(只读)的正则表达式.它还包含各种静态方法,允许在不显式创建其他类的实例的情况下使用其他正则表达式类. 正则表达式的字符代表的说明: Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN…
1.Regex 定义 正则表达式又称正规表示法.常规表示法(英语:Regular Expression,在代码中常简写为 regex.regexp 或 RE),计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本; 使用步骤 1.定义正则表达式规则 2.通过规则,创建正则表达式对象 3.利用正则表达式对象匹配字符串 注意:正则表达式通常缩写成 "regex" 2.语法介绍 正则…
维基百科:http://en.wikipedia.org/wiki/Regular_expression 正则表达式在线测试:http://tool.chinaz.com/regex/ 正则表达式,常用于文件搜索和数据校验等 iOS 提供了对正则表达式的支持:NSRegularExpression   常用的第三方正则库regexkit有全面的介绍(英文): http://regexkit.sourceforge.net/RegexKitLite/index.html  这个需要很长时间研究和总…
ASP.NET开发中主要的字符验证方法-JS验证.正则表达式.验证控件.后台验证 2012年03月19日 星期一 下午 8:53 在ASP.NET开发中主要的验证方法收藏 <1>使用JS验证 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内):[^\x00-\xff] 备注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:\n\s*\r 备注:可以用来删除空白行 匹配HTML标记的正则表达式:<(\S…
符串可以包括数字,字母,汉字或者其他的字符.使用Char类型的IsDigit静态方法可以判断字符串中的字符是否为数字,使用Char类型中的 IsLetter静态方法可以判断字符串中是否为字母.我们来实现一种方法来实现判断字符串中是否为汉字,通过此方法可以计算字符串中汉字的个数,运行效果如图: 首先根据效果图设置好Form的界面和内容,Box1.Text为输入的字符串,我们对该字符串的处理,来计算汉字的个数,双击Buton控件,编辑其单击事件代码. 我们看下汉字的Unicode范围,普遍给出了0x…
A-最近一直有接触到正则表达式,现对其做简单梳理: private const RegexOptions OPTIONS = RegexOptions.IgnoreCase | RegexOptions.Compiled;public const string EMAIL = @"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"; public const string URL = @"^(http|https|ftp|rtsp|mms):(\/\…