前两天更新R 4.3之后,发现使用dir函数获取文件列表的时候会有文件获取不了,这是怎么回事? 又下载了4.2的版本,发现确实是版本的原因

yydhcl 我也发现了，超过4个中文字符的纯中文不行，在前面加个英文就可以

在 Linux 上不能复现，会不会是 locale 的问题？ touch 一二二三三三四四四四 a bb ccc dddd; R -e 'dir()' > dir() [1] "a" "bb" "ccc" "dddd" "一" "三三三" "二二" [8] "四四四四" 我的系统信息： +> sessionInfo() R version 4.3.0 (2023-04-21) Platform: x86_64-pc-linux-gnu (64-bit) Running under: Arch Linux Matrix products: default BLAS: /usr/lib/libblas.so.3.11.0 LAPACK: /usr/lib/liblapack.so.3.11.0 locale: [1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C [3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8 [5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 [7] LC_PAPER=en_US.UTF-8 LC_NAME=C [9] LC_ADDRESS=C LC_TELEPHONE=C [11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C time zone: Asia/Hong_Kong tzcode source: system (glibc) attached base packages: [1] stats graphics grDevices utils datasets methods base loaded via a namespace (and not attached): [1] compiler_4.3.0

yydhcl sundly 建议向 R 核心团队报告一下，造福广大中文用户： https://stat.ethz.ch/mailman/listinfo/r-devel 这种问题一般是 Tomas Kalibera 负责，他通常比较积极响应。R 核心团队几乎全是英文母语，难以察觉这种中文问题，所以还得靠国人多努力向他们报告。

yihui 大神点名，受宠若惊，之前被你的各种down包折磨的死去活来！

sundly 之前被你的各种down包折磨的死去活来！想了半天，我是该哭还是该笑呢……

sundly 你这表达对大神敬仰的话有点戳肺管子

有人向R核心团队报告了吗？希望在下一个R版本能修复。（1）前段时间遇到这个问题，无法解决，非常痛苦。最后想到了一个临时解决方案，调用cmd里面的dir命令。 dir0 <- function(path) { path <- normalizePath(path) . <- shell(sprintf("dir %s", path), shell=Sys.which("cmd"), intern = T) . <- iconv(., from = "GBK", to = "UTF-8") a <- grep(" 的目录$", .) b <- grep(".*个文件 .* 字节", .) . <- read.table(text = .[(a+2):(b-1)]) . <- .[, 4] . <- grep("^[.]+$", ., value = T, invert = T) . <- normalizePath(file.path(path, .)) . } （2） nan.xiao 提到的 fs::dir_ls() 。试了下，可以使用。 https://d.cosx.org/d/424433-r430shi-yong-listfilesdu-qu-wen-jian-lie-biao-chao-chu-4ge-zhong-wen-zi-fu-wu-fa-du-qu

进一步测试发现： R 4.3版本中 dir函数无法识别ANSI编码的中文文件。 R 4.3版本中，dir函数可以识别UTF-8编码的中文文件。 unlink("测试文件", recursive = T, force = T) dir.create("测试文件") cat("", file = "测试文件/测试中文-utf-8.txt") dir("测试文件", full.names = T) #> [1] "测试文件/测试中文-utf-8.txt" fs::dir_ls("测试文件") #> 测试文件/测试中文-utf-8.txt 手动修改格式：使用记事本打开 “测试文件/测试中文-utf-8.txt”，文件 -> 另存为 -> 选择编码“ANSI” -> 保存，另存为“测试文件/测试中文-ANSI.txt”。 R 4.3版本中，dir函数无法识别ANSI编码的中文文件。 dir("测试文件", full.names = T) #> character(0) fs::dir_ls("测试文件") #> 测试文件/测试中文-ANSI.txt 测试文件/测试中文-utf-8.txt 我的系统环境 sessionInfo() #> R version 4.3.0 (2023-04-21 ucrt) #> Platform: x86_64-w64-mingw32/x64 (64-bit) #> Running under: Windows 10 x64 (build 19044) #> #> Matrix products: default #> #> #> locale: #> [1] LC_COLLATE=Chinese (Simplified)_China.utf8 #> [2] LC_CTYPE=Chinese (Simplified)_China.utf8 #> [3] LC_MONETARY=Chinese (Simplified)_China.utf8 #> [4] LC_NUMERIC=C #> [5] LC_TIME=Chinese (Simplified)_China.utf8 #> #> time zone: Asia/Shanghai #> tzcode source: internal #> #> attached base packages: #> [1] stats graphics grDevices utils datasets methods base #> #> loaded via a namespace (and not attached): #> [1] digest_0.6.31 fastmap_1.1.1 xfun_0.39 glue_1.6.2 #> [5] knitr_1.42 htmltools_0.5.5 rmarkdown_2.21 lifecycle_1.0.3 #> [9] cli_3.6.1 reprex_2.0.2 withr_2.5.0 compiler_4.3.0 #> [13] rstudioapi_0.14 tools_4.3.0 evaluate_0.21 yaml_2.3.7 #> [17] rlang_1.1.1 fs_1.6.2

怎样向R核心团队报告呢，直接给 r-devel@r-project.org 发送电子邮件吗？

r4.3版本中dir函数获取不了全部文件

yihui

wangbinzjcc 不过可能很多用户从来就没有发现过这个问题。

所以遇到中文特有的问题时还是要勇于向 R 核心开发团队报告，造福大批人。

shunwang

好的，那么我们可以标记为已解决~ 谢谢各位。

yihui

yydhcl sundly wangbinzjcc earclimateR tongjiye shunwang 今天是 R “六岁生日”（2000 年 2 月 29 日诞生 v1.0.0），R 团队刚发布了 4.3.3 版本，应该是包含了这个问题的修正：

* list.files() on Windows now returns also files with names longer
  that 260 bytes (the Windows limit is 260 characters).
  Previously, some file names particularly with 'East Asian'
  characters were omitted.

wangbinzjcc

utils::read.csv()仍然不能自动识别GBK编码的中文文件。这对于新手来说是个障碍，影响他们成功读取数据。如果这个问题能够得到解决就好了。 shunwang

utils::read.csv("测试中文ansi.csv")
Error in make.names(col.names, unique = TRUE) :
'<d6><d0><ce><c4>'多字节字符串有错误

utils::read.csv("测试中文utf8.csv")
X 中文1 中文2
1 1 中文a 中文a
2 2 中文b 中文b

utils::read.csv("测试中文utf8在excel里面修改过.csv")
Error in make.names(col.names, unique = TRUE) :
'<d6><d0><ce><c4>'多字节字符串有错误

read.csv <- function(...) {
fun <- function(x) utils::read.csv(..., fileEncoding = "GB18030")
tryCatch(utils::read.csv(..., fileEncoding = "UTF-8"), warning = fun, error = fun)
}

read.csv("测试中文ansi.csv")
X 中文1 中文2
1 1 中文a 中文a
2 2 中文b 中文b

read.csv("测试中文utf8.csv")
X 中文1 中文2
1 1 中文a 中文a
2 2 中文b 中文b

read.csv("测试中文utf8在excel里面修改过.csv")
X 中文1 中文2
1 1 中文a 中文a
2 2 中文b 中文b
在excel里自动修改过的表格
1 NA
2 NA

R.version
_
platform x86_64-w64-mingw32
arch x86_64
os mingw32
crt ucrt
system x86_64, mingw32
status Under development (unstable)
major 4
minor 4.0
year 2024
month 02
day 28
svn rev 85999
language R
version.string R Under development (unstable) (2024-02-28 r85999 ucrt)
nickname Unsuffered Consequences

shunwang

wangbinzjcc 抱歉才看到。这是一个不同的主题。您可以向R团队报告这个事情以便进行跟踪，并提供重现路径和样例。参阅：https://www.r-project.org/bugs.html

yihui

wangbinzjcc shunwang 这个特定的问题我觉得没必要报告了吧。如果你知道文件的编码不是系统默认编码，那么你读取的时候必须指定编码（即：read.csv(..., fileEncoding = 'GBK')），这个要求并不过分吧，操作起来也不算复杂（一个参数而已，如果不想重复，你完全可以自己写个 read_gbk() 函数包装一下），否则你就是在要求 read.csv() 过度智能到可以自动识别 GBK 编码。如果 R 开发团队答应了你，那么他们将如何面对其它四百多种编码（iconvlist()）呢？

« 上一页