nan.xiao 最近两年我有点惊叹于 Python 自然语言处理工具链方面的进展,特别是 spaCy 这个库的存在,更不要提大语言模型的加持了,让我觉得再想使用其他编程语言做这方面的工作简直是属于自讨苦吃…… 于是写了一篇博客文章把之前想讲的故事补全了:收集一堆 PDF 文件,使用 pypdf 解析 PDF,使用 ftfy 修复 Unicode 问题,使用 spaCy 自动清洗标注文本数据,最后用之前提到的词云生成器,让任何人都可以简单快速地为自己的研究做出专业效果的词云可视化,整个过程不再神秘了。