在工作中遇到一个实际问题,想和大家探讨一下。
有两个表A和B,都有name列,现在想用name当做key来join,
发现如下问题:
- 有的名字是
[first name] [last name],有的相反
- 有的名字是
[first name] [middle name] [last name], 有的是[first name]-[middle name] [last name]
我于是想了把办法,把名字中的非英文字母,去掉,再按单个英文的顺序排序
例如:Lawrence Tom变成 ACEELMNORTW,Tom, Lawrence也会变成ACEELMNORTW,这两个就可以match
我现在就有点担心,会不会出现两个不同的人名,但是其英文字母的组合是相同的?或者说有什么好的办法去分析这个呢?