在工作中遇到一个实际问题,想和大家探讨一下。
有两个表A
和B
,都有name
列,现在想用name
当做key来join,
发现如下问题:
- 有的名字是
[first name] [last name]
,有的相反
- 有的名字是
[first name] [middle name] [last name]
, 有的是[first name]-[middle name] [last name]
我于是想了把办法,把名字中的非英文字母,去掉,再按单个英文的顺序排序
例如:Lawrence Tom
变成 ACEELMNORTW
,Tom, Lawrence
也会变成ACEELMNORTW
,这两个就可以match
我现在就有点担心,会不会出现两个不同的人名,但是其英文字母的组合是相同的?或者说有什么好的办法去分析这个呢?