[已解决]如何检查一个字符串里是否包含中文字符

dapengde

如题。例如，有字符串x：

x <- c('abc', 'ßüä', '你好', '我OK')

我想检查哪个元素里包含中文字符，希望对 x 检查后返回的结果是 FALSE, FALSE, TRUE, TRUE，有啥法子可以实现吗？

其中的“你好”、“我”只是举个例子，实际上可能是任何一个中文简繁体字符。

哪位能指点一下？谢谢！

yihui

dapengde 这个问题我估计很难有精确解。近似解是把字符转化为 UTF8 编码，然后看对应的整数码在不在中文的区间内。问题是 UTF8 中中文通常是和韩日文在一起统称 CJK，并没有专门的针对中文开辟一个区间。参见：https://stackoverflow.com/q/1366068/559676 答主提到常见 CJK 字符的区间是 4E00-9FFF，这是十六进制的数字，翻译为整数是：

> strtoi(c('4E00', '9FFFF'), 16L)
[1]  19968 655359

你可以转几个字符看看，比如：

> utf8ToInt('你好，OK')
[1] 20320 22909 65292    79    75

其中“你好”在 [19968, 655359] 范围内，说明它们是常见 CJK 字符。剩下的逗号是标点，OK 是英文字符，都不在这个区间内。

我能想到的精确解就是找个包含所有中文字符的字典（计算机意义上的字典，不是物理意义的字典）然后暴力搜。

当然，别的社区可能已经有很好的答案了。R 里面的中文毕竟还是小众，我没太听说过谁研究这个问题。

dapengde

yihui 你这个方案已经够我用啦。我在提这个问题之前，找到过别的社区的解决方案，例如 php, java等。跟你说的一样，未见得是完美精确解，但是大概够用吧。R 有个 chinese.misc 包，我还没搞清楚怎么个用法，能不能解决我的问题。

其实暴力搜也行，汉字据说总共几万字，算上简繁的话多一点，对每个待查的字符串 grep 一下原则上行得通，就是好像有点土豪烧电脑的感觉。我这么提问确实是想探探有没有精确解。其实我的具体问题是，有若干个 markdown 格式的文章，有纯中文，有纯英文，有中英混杂，我想用 R 代码把这三种区分开来，自动整理成三本 bookdown 的书，或者一本书的三个部分。这就可以简化处理了，比如我有国务院颁布的3500字常用字表，看看哪个文本里包含常用字就可以了。或者再简化，只要包含几个最常用的字，例如“的”“我”“是”“不”或者中文标点“，”“。”，就认为是中文文章。

whistle_baby 这个方案跟我上文说的 php 方案一致 ?

多谢各位的回答！

whistle_baby

> grepl(pattern = "[\u4e00-\u9fa5]",x)
[1] FALSE FALSE  TRUE  TRUE

好像这样就能解决吧。