PHP正则匹配中文汉字会得到�】的更多相关文章

preg_match('/^[a-zA-Z\x{4e00}-\x{9fa5}]+$/u', $str)…
preg_match('/^[a-zA-Z\x{4e00}-\x{9fa5}]+$/u', $str) 如上,是匹配字母或者汉字的,一定要在后面加模式修饰符 u , 不然就出错! u (PCRE_UTF8) 此修正符打开一个与 perl 不兼容的附加功能. 模式字符串被认为是utf-8的. 这个修饰符 从 unix 版php 4.1.0 或更高,win32版 php 4.2.3 开始可用. php 4.3.5 开始检查模式的 utf-8 合法性. utf8格式的匹配模式字符串必须要使用  u 修…
今天爬虫(新浪微博 个人信息页面)的时候遇到了转义和正则匹配中文出乱码的问题. 先给出要匹配的部分网页源代码如下: <span class=\"pt_title S_txt2\">昵称:<\/span><span class=\"pt_detail\">他们叫我远凸哥哥<\/span><\/li>\r\n\t\t 想要匹配得到的结果是这个人的昵称,即“他们叫我远凸哥哥” 1.转义 比较简单,需要转义的是反斜…
# -*- coding:utf-8 -*- import re '''python 3.5版本 正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大学' regex_str = ".*?([\u4E00-\u9FA5]+大学)" match_obj = re.match(regex_str, words) if match_obj: print(match_obj.group(1)) 结果:山海大学…
$str = 'eg5455正则匹配中文123三国杀'; $patten='/[\x{4e00}-\x{9fa5}]+/u'; $a = preg_match($patten, $str, $mn); var_dump($mn[0]);// 打印 '正则匹配中文' ps:  utf8编码,正则写在变量里面,否则要转义…
业务场景1: 密码输入框需要验证输入中文,中文符号,空格等情况,以便于给出错误提示 业务场景2: 输入框只允许输入数字的情况 业务场景3: 输入框允许输入均为数字或以https:// 开头的url的情况 备注: 网上查阅的大部分JavaScript中文/中文符号/空格等正则匹配,在中文加一个英文或者数字都能校验通过,无法满足实际的校验需求,使用下面的字符串替换方法,并比对str替换前后的length,即可完成准确的实际校验需求 var length = str.length // str为想要验…
我使用正则表达式来匹配中问的时候,出现了无法匹配的问题,问题如下 PCRE does not support \L, \l, \N{name}, \U, or \u at offset 2 我原来的匹配公式是: /[\u4e00-\x9fa5]/ 然后我在网上找的,下面的解决方案 解决后的匹配方案是: /^[\x{4e00}-\x{9fa5}]+$/u 下面是具体文章 在做表单验证时对用户姓名的验证规则有以下要求 要求:输入的内容需要满足的条件是:   1.允许输入字符:数字(0-9).字母(a…
在javascript中,要判断字符串是中文是很简单的.比如:var str = "php编程";if (/^[\u4e00-\u9fa5]+$/.test(str)) {alert("该字符串全部是中文");} else {alert("该字符串不全部是中文");} 想当然的,在php中来判断字符串是否为中文,就会沿袭这个思路:<?php$str = "php编程";if (preg_match("/^[\u…
正则表达式匹配中文先要了解中文的编码 代码如下 复制代码 [u4E00-u9FA5]汉字?[uFE30-uFFA0]全角字符 [u4E00-u9FA5]汉字?[uFE30-uFFA0]全角字符 匹配中文字符的正则表达式: [u4e00-u9fa5]匹配双字节字符(包括汉字在内):[^x00-xff] 应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 代码如下 复制代码 String.prototype.len=function(){return this.replace([^…
由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的.花了一个小时大概测试,此utf8中文通过,特留文.    参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html           http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html 首先,确保所有编码都为 unicode      …
可以看到,目前正则匹配字母没问题,c出现1次,2次,3次匹配的结果都是正常的 接下来我们看看匹配中文的效果 可以看到,当匹配连续出现歪时,结果就开始不正常了 然后我去看了下mysql的中文文档中关于正则表达式的部分(https://www.mysqlzh.com/doc/233.html) 上面是文档中的一部分,看着跟我之前的写法有点不一样,它在花括号里写了逗号,我在思考难道我的语法写错了?必须这样写才行吗?然后我按上面的语法又去试了试 可以看到,即使我按文档上的写法,依然存在问题 正确的做法,…
alert(/[\u4e00-\u9fa5]{4}/.test("司徒正美"))//true alert(/[\u4e00-\u9fa5]{4}/.test("司正美"))// false [\u4e00-\u9fa5] 匹配单个汉字 原链接:http://www.cnblogs.com/rubylouvre/archive/2010/03/09/1681222.html…
在php 中: //GB2312汉字字母数字下划线正则表达式 GBK: preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str); //UTF-8汉字字母数字下划线正则表达式 UTF-8: preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z0-9_]+$/u",$str); //匹配手机号码 //据悉,目前移动号段主要为134-13…
<?php $str = '你是我的+****xiaopingguo _ 23947237 _+冠军终归这里'; preg_match_all('/[\x{4e00}-\x{9fa5}A-Za-z0-9]+/u', $str, $re); print_r($re); //输出结果是: //Array ( [0] => Array ( [0] => 你是我的 [1] => xiaoweiba [2] => 23947237 [3] => 冠军终归这里 ) ) 逐个解释:…
不使用: ^[\u4e00-\u9fa5_a-zA-Z0-9_]+$ 有可能兼容有问题 if(!preg_match_all("/^[\\x7f-\\xff_a-zA-Z0-9]+$/",$group_name)){ return error!}…
Shell grep正则匹配中文 测试文本 demo_exe.c,内容如下,需要注意保存的编码格式,对输出到终端有影响: 我们中文操作系统ASNI默认是GBK的. #include<stdio.h> #include<stdlib.h> #include <string.h> #include <errno.h> #include <locale.h> #include <dlfcn.h> /* * export LD_LIBRARY…
VIM 用正则表达式 批量替换文本,多行删除,复制,移动 在VIM中 用正则表达式 批量替换文本,多行删除,复制,移动 :n1,n2 m n3     移动n1-n2行(包括n1,n2)到n3行之下: :n1,n2 co n3    复制n1-n2行(包括n1,n2)到n3行之下: :n1,n2 d        删除n1-n2行(包括n1,n2)行: vi替换使用规则: :g/s1/s/s2/s3/g 第一个g表示对每一个包括s1的行都进行替换,第二个g表示对每一行包括s1的行所有的s2都用s…
python 处理时间 import time import re now = time.strftime("%Y-%m-%d %H:%M:%S", time.gmtime()) timeobj = re.match(r'(.*)-(.*)-(.*) (.*):(.*):(.*)', now) if timeobj is not None: timestamp = time.mktime(time.strptime(now, "%Y-%m-%d %H:%M:%S")…
1.php正则匹配UTF-8格式的中文汉字 和 [,][,][.]等符号 if (preg_match_all("/([\x{4e00}-\x{9fa5}]+((,)?)+((,)?)+((.)?))/u", (string)$jingdian_arr['view_desc'], $match)) { //var_dump($match[0]); $count = count($match[0]); unset($jingdian_arr['view_desc']); for($i=1…
今天接到一个需求,用户昵称系统需要将昵称输入的字符类型限定为 中文,英文,数字, -,_ 显然这个应该用正则来实现,那么最终的规则是怎么样的呢?示例代码如下: <?php $str = '我爱北京天安门-1234567_abacABCDDD'; if(!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z0-9_-]+$/u",$str)) //UTF-8汉字字母数字下划线正则表达式 { echo "输入非法"; }else{ echo…
用正则时间越久,人就越懒,就越知道正则的强大.正则,不只是在代码里用到,在字符查找是也会用到,学会适当使用正则,将会使你的工作事办功倍!但是,中文却是一个砍,不容易过. 于是在用notepad++,也用正则去查找,挺爽的,正则规则,不能加//类似的分隔符,区分大小写,请勾选界面勾选框.其他基本和正则的符号一致! 网友原话:我刚在在notepad++中试过了,貌似它的正则表达式引擎是单字节的.用[\u4e00-\u9fa5]与[^\x00-\xff]都不能正常的匹配中文.实在是郁闷,在java.p…
mysql中的正则操作 匹配手机号,匹配中文,替换 正则匹配hy_user表内tel字段的电话号码: SELECT * FROM hy_user WHERE tel REGEXP "[1][35678][0-9]{9}" SELECT tel FROM hy_user WHERE tel REGEXP "[1][35678][0-9]{9}" SELECT tel FROM hy_user WHERE tel REGEXP "^[1][35678][0-9…
正则匹配汉字提取其它信息剔除demo <?php //提取字符串中的汉字其余信息剔除 $str='te,st 测 .试,.,.?!::·…~&@#,.?!:;.……-&@#“”‘’〝 "〞'´'><﹞﹝><><][)(()[] - 1234456789'; preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches_one);//只要汉字 preg_match_all('/[a-zA…
验证邮箱 let self = this let regEmail= /^([a-zA-Z0-9]+[_|\_|\.]?)*[a-zA-Z0-9]+@([a-zA-Z0-9]+[_|\_|\.]?)*[a-zA-Z0-9]+\.[a-zA-Z]{2,3}$/ if (!regEmail.test(self.ruleForm.tourMail)) { self.$message({ type: 'error', message: '请填写正确的邮箱', center: true }) }   匹配…
[\x{4e00}-\x{9fa5}] ============================================= 参考资料 1.在javascript下正确的\x4e00-\x9fa5并不完全适合php中文正则表达式:2.匹配中文全角字符的正则:   ^[\x80-\xff]*^/  :3.GB2312.汉字.字母.数字.下划线正则表达式:[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+:4.UTF-8汉字.字母.数…
UTF-8匹配: 在javascript中,要判断字符串是中文是很简单的.比如: var str = "php编程"; if (/^[\u4e00-\u9fa5]+$/.test(str)) { alert("该字符串全部是中文"); } else{ alert("该字符串不全部是中文"); } php中,是用\x表示十六进制数据的.于是,变换成如下的代码: $str = "php编程"; if (preg_match(&qu…
收集一些常用的JavaScript正则表达式匹配规则,比如匹配电话号码.Email.中文字符.身份证号.邮编.QQ号.过滤空白行.匹配特定数字等.觉得这玩意是很有用的,只不过自己水平菜,老是自己写不出,看了这个文档,觉得心里踏实很多,用到正则匹配的时候,看下这个,相信为让你省不少时间.注:本正则不仅限于在JS中使用,其它语言也可以借鉴. 匹配特定数字: ^[1-9]\d*$ //匹配正整数 ^-[1-9]\d*$ //匹配负整数 ^-?[1-9]\d*$ //匹配整数 ^[1-9]\d*|0$…
正则表达式 正则表达式是对字符串操作的一种逻辑公式, 用事先定义好的一些特定字符.及这些特定字符的组合, 组成一个"规则字符串", 这个"规则字符串"用来表达对字符串的一种过滤逻辑, 正则表达式就是用于描述这些规则的工具, 或者说, 正则表达式就是记录文本规则的代码. 在开发中, 我们经常会有查找符合某些复杂规则的字符串的需要, 比如数据校验: 判断用户的输入是否合法(如:用户注册的时候,QQ号码,电话号码,邮箱是否符合要求) 下面让我们先来看看正则匹配常用的一些字…
一.Word查找栏代码&通配符一览表 序号 清除使用通配符复选框 勾选使用通配符复选框 特殊字符 代码 特殊字符 代码or通配符 1 任意单个字符 ^? 任意单个字符 ? 2 任意数字 ^# 任意数字(单个) [0-9] 3 任意英文字母 ^$ 任意英文字母 [a-zA-Z] 4 段落标记 ^p 段落标记 ^13 5 手动换行符 ^l  (这是是小写的英文L) 手动换行符 ^l or ^11 6 图形 ^g or ^1 图形 ^g 7 1/4长划线 ^+ 1/4长划线 ^q 8 长划线 ^j 长…
正则匹配java注意点: 如果加 ^[\n]* 表示替换遇到 \n 的前后内容,如果加[\n]表示替换\n本处内容 原文地址:http://blog.csdn.net/dl020840504/article/details/8880603 新加:匹配 日期和时间 '2017-3-24 14:53:59 String regex = "^\\d{4,}\\-(?:0?\\d|1[12])\\-(?:[012]?\\d|3[01]) (?:[01]?\\d|2[0-4]):(?:[0-5]?\\d|…