正则表达式匹配中文的范围是什么？

freeflydom

2026年5月6日 15:8 本文热度 2954

：正则表达式匹配中文的范围是什么？

在正则表达式中匹配中文字符（汉字），最常用的方法是利用 Unicode 范围或属性。

1. 基本范围：`[\u4e00-\u9fa5]`

匹配常用的 CJK 统一表意文字（即最常见的简体/繁体汉字）。

regex

[\u4e00-\u9fa5]

示例（Python）：

python

import re
pattern = re.compile(r'[\u4e00-\u9fa5]+')
text = "Hello 世界123，你好！"
print(pattern.findall(text))  # ['世界', '你好']

如果要包括扩展区（如生僻字、日韩越汉字），可以扩大范围：

通常简化的“全汉字”范围可用：

regex

[\u4e00-\u9fff\u3400-\u4dbf]

现代正则引擎（如 Python 的 regex 库、PCRE、Java、.NET、JavaScript ES2018+）支持 \p{Han} 或 \p{Script=Han}。

Python（需要安装 regex 库，re 不支持）：

python

import regex
pattern = regex.compile(r'\p{Han}+')

JavaScript（ES2018+）：

javascript

const pattern = /\p{Script=Han}+/u;
"Hello 世界123".match(pattern); // ['世界']

不要忘记匹配中文标点（如 ，。！？；：“”‘’）时，它们不在 \u4e00-\u9fa5 范围内，需单独加：[\u4e00-\u9fa5\u3000-\u303f\uff00-\uffef] 等。
在 Python 的 re 中，Unicode 属性不支持，只能使用范围。
在 Java 中："\\p{IsHan}"。
在 .NET 中：\p{IsCJKUnifiedIdeographs}。

regex

[\u4e00-\u9fa5\u3000-\u303f\uff00-\uffef]

根据你的实际需求选择最合适的方法即可。

该文章在 2026/5/6 15:08:21 编辑过

关键字查询

正在查询...