LOGO 首页 OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 技术文档 其他文档  
 
网站管理员

正则表达式匹配中文的范围是什么?

freeflydom
2026年5月6日 15:8 本文热度 187
:正则表达式匹配中文的范围是什么?


在正则表达式中匹配中文字符(汉字),最常用的方法是利用 Unicode 范围或属性。

1. 基本范围:[\u4e00-\u9fa5]

匹配常用的 CJK 统一表意文字(即最常见的简体/繁体汉字)。

regex
[\u4e00-\u9fa5]

示例(Python):

python
import re
pattern = re.compile(r'[\u4e00-\u9fa5]+')
text = "Hello 世界123,你好!"
print(pattern.findall(text))  # ['世界', '你好']

2. 更完整的 CJK 范围

如果要包括扩展区(如生僻字、日韩越汉字),可以扩大范围:

  • 基本区:\u4e00-\u9fff

  • 扩展A区:\u3400-\u4dbf

  • 扩展B~F区(范围较大,一般不全部列出)

通常简化的“全汉字”范围可用:

regex
[\u4e00-\u9fff\u3400-\u4dbf]

3. Unicode 属性匹配(推荐,需支持)

现代正则引擎(如 Python 的 regex 库、PCRE、Java、.NET、JavaScript ES2018+)支持 \p{Han} 或 \p{Script=Han}

Python(需要安装 regex 库,re 不支持):

python
import regex
pattern = regex.compile(r'\p{Han}+')

JavaScript(ES2018+):

javascript
const pattern = /\p{Script=Han}+/u;
"Hello 世界123".match(pattern); // ['世界']

4. 常见注意事项

  • 不要忘记匹配中文标点(如 ,。!?;:“”‘’)时,它们不在 \u4e00-\u9fa5 范围内,需单独加:[\u4e00-\u9fa5\u3000-\u303f\uff00-\uffef] 等。

  • 在 Python 的 re 中,Unicode 属性不支持,只能使用范围。

  • 在 Java 中:"\\p{IsHan}"

  • 在 .NET 中:\p{IsCJKUnifiedIdeographs}

5. 简单匹配中文(含标点)

regex
[\u4e00-\u9fa5\u3000-\u303f\uff00-\uffef]

根据你的实际需求选择最合适的方法即可。


该文章在 2026/5/6 15:08:21 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2026 ClickSun All Rights Reserved  粤ICP备13012886号-1  粤公网安备44030602007207号