坐标点分类

HarryZhu-7harryprince

Barton GIS最常用的 clustering的方法就是 dbscan （基于密度）和 kmeans（基于最小组内方差，组间最大方差）。

这两种方法在实际过程中通常要用其他方法来辅助决定超参数。

kmeans 的 k，通常可以用 canopy 算法来大致估计。

调参数的过程比较痛苦，这类问题往往没有直接的 groud truth，但是目前没有更好的方法。

Barton

tctcab 感谢版主的帮助，我尝试过这个建议，将所有年份的数据全部放在一起聚类有两个问题，一个是计算机内存远远不够（换好电脑依然不够）；仅用部分数据点进行试验发现整体聚类的效果远不如逐年聚类的效果

Barton

legion 请问能否说的更详细一点呢？完全没有接触过这个概念

MGC

tctcab
谢谢分享。
没用过这个clustering method。DBScan适合每个point有权重的数据吗？
谢谢。

tctcab

MGC

啊我没试过，不了解，不过试试无妨。

Barton

tctcab 版主您好。再次请教
根据您之前的指导，目前我已按照您的思路把所有数据放在一起进行聚类分析。
得到的数据如下（数据截选所有类别中的某一类）
Year X Y
1950 86.02 40.81
1950 76.98 38.70
1951 83.16 40.54
1951 89.95 41.60
1951 76.66 38.69
1952 81.01 39.67
1953 81.04 39.46
1954 82.30 41.33
1954 84.75 41.75
1954 83.55 38.90
1954 77.31 38.69
1954 81.05 38.15
1955 83.61 41.96
1955 81.61 41.11
1955 83.83 39.08
1955 77.25 38.75
1955 80.65 38.15
1957 79.38 39.75
1958 83.50 41.50
1959 82.84 41.34
1960 90.50 42.00
1960 76.72 39.15
1960 79.58 39.58
1962 87.82 39.49
1964 85.06 41.62
1967 85.25 41.49
1967 76.25 39.92
1967 77.39 38.75
1968 85.51 41.36
1969 85.92 41.14
1969 76.75 39.45
1970 83.33 40.58
1971 83.69 40.28
1972 87.12 42.21
1972 79.08 39.92
1972 76.46 39.25
1972 83.25 39.08
1972 81.50 37.00
1973 76.04 39.13
1973 84.64 40.82
1974 75.84 39.43
1975 76.53 39.00
1976 84.79 41.89
1977 84.53 41.92
1978 79.54 38.63
1979 83.58 40.25
1980 83.03 39.63
1981 76.20 38.62
1981 79.95 37.05
1982 75.58 38.88
1984 81.19 40.39
1984 83.08 39.08
1985 80.73 38.64
1986 85.51 40.44
1987 83.50 41.63
1987 80.58 40.42
1987 76.62 39.05
1988 87.25 41.08
1988 76.75 39.20
1989 83.35 41.75
1990 78.89 39.29
1990 87.45 41.05
1991 87.45 41.05
1992 83.86 41.86
1992 87.75 40.68
1992 81.25 40.75
1992 79.14 39.58
1992 76.58 39.75
1993 79.45 39.35
1994 85.00 40.96
1994 79.25 39.03
1995 80.48 39.78
1995 86.45 40.85
1995 83.38 38.63
1996 84.46 41.38
1996 81.00 40.50
1996 79.89 38.25
1997 78.92 38.97
1997 86.39 40.89
1998 83.33 39.29
1999 76.41 38.51
1999 87.00 41.00
1999 81.08 40.25
1999 79.70 38.25
2000 78.07 38.77
2000 85.99 41.15
2000 90.03 41.19
2000 88.36 38.31
2000 82.25 37.93
然后现在的问题是：想请教版主如何简便的提取出连续的时段。例如1993-1999，1995-2000,1964-1971等。如上表所示，当遇到年份相同的不同坐标点，就把距离最近的且前后相邻的点看成连续时段。同时，识别出各连续时段的起止年份。

最后一步了，望版主指导，不胜感激

tctcab

Barton

有意思的问题，查到了这个答案
不过只是相近，只能提取第一个序列，所以自己改了改，现在可以多个连续年份的时间段了。
思路跟上面的答案类似，diff() 查出相邻元素的差，差值为1就表示相邻元素连续，然后提取即可。

代码：

mydate = c(1950L, 1950L, 1951L, 1951L, 1951L, 1952L, 1953L, 1954L, 1954L, 
1954L, 1954L, 1954L, 1955L, 1955L, 1955L, 1955L, 1955L, 1957L, 
1958L, 1959L, 1960L, 1960L, 1960L, 1962L, 1964L, 1967L, 1967L, 
1967L, 1968L, 1969L, 1969L, 1970L, 1971L, 1972L, 1972L, 1972L, 
1972L, 1972L, 1973L, 1973L, 1974L, 1975L, 1976L, 1977L, 1978L, 
1979L, 1980L, 1981L, 1981L, 1982L, 1984L, 1984L, 1985L, 1986L, 
1987L, 1987L, 1987L, 1988L, 1988L, 1989L, 1990L, 1990L, 1991L, 
1992L, 1992L, 1992L, 1992L, 1992L, 1993L, 1994L, 1994L, 1995L, 
1995L, 1995L, 1996L, 1996L, 1996L, 1997L, 1997L, 1998L, 1999L, 
1999L, 1999L, 1999L, 2000L, 2000L, 2000L, 2000L, 2000L)


get_start_ed = function(vdate){
  vdateuni = unique(sort(vdate)) # combine adjacent years and sort
  mydiff = diff(vdateuni) # difference between adjacent elements
  myrle = rle(mydiff) # run length encoding
  
  # get sequence start / end
  # + 1 to include the next adjacent element
  ed = cumsum(myrle$lengths) + 1
  start = c(1,ed)[1:length(ed)]
  
  
  # extract sequences based on start and end.
  df = data.frame(s = start, e = ed, v = myrle$values, l = myrle$lengths)
  dfseqs = df[which(df$v == 1),]
  sequences = lapply(1:nrow(dfseqs), function(i){
    return(vdateuni[dfseqs$s[i]: (dfseqs$e[i])])
})
  return(sequences)
}

unique(sort(mydate))
#>  [1] 1950 1951 1952 1953 1954 1955 1957 1958 1959 1960 1962 1964 1967 1968
#> [15] 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982
#> [29] 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997
#> [43] 1998 1999 2000

# results
get_start_ed(mydate)
#> [[1]]
#> [1] 1950 1951 1952 1953 1954 1955
#> 
#> [[2]]
#> [1] 1957 1958 1959 1960
#> 
#> [[3]]
#>  [1] 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980
#> [15] 1981 1982
#> 
#> [[4]]
#>  [1] 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997
#> [15] 1998 1999 2000

Created on 2019-01-03 by the reprex package (v0.2.1)

Barton

tctcab 首先请教版主一个很简单的题外问题，2000L，后面的L有啥意义嘛？
感觉已经很接近了
版主用unique()把重复的年份直接删除了。我想把重复的年份也保存下来
为此，我把unique()这个函数删除了，但是结果还是差一点意思，不知道版主能否改进一点

tctcab

Barton
第一个问题，看这里，基本上就是告诉R“这是个长整型数”。
其实加不加都可以，这里有L是因为我dput()了一下时间那一列，输出就有L。

第二个问题，重复的年份保存下来的话，如果只是要删除非连续年份的话那就有比上面代码更简单的做法，除去读取，实际应该就一行代码：


df = data.table::fread(
"1950   86.02 40.81 
1950    76.98 38.70 
1951    83.16 40.54 
1951    89.95 41.60 
1951    76.66 38.69 
1952    81.01 39.67 
1953    81.04 39.46 
1954    82.30 41.33 
1954    84.75 41.75 
1954    83.55 38.90 
1954    77.31 38.69 
1954    81.05 38.15 
1955    83.61 41.96 
1955    81.61 41.11 
1955    83.83 39.08 
1955    77.25 38.75 
1955    80.65 38.15 
1957    79.38 39.75 
1958    83.50 41.50 
1959    82.84 41.34 
1960    90.50 42.00 
1960    76.72 39.15 
1960    79.58 39.58 
1962    87.82 39.49 
1964    85.06 41.62 
1967    85.25 41.49 
1967    76.25 39.92 
1967    77.39 38.75 
1968    85.51 41.36 
1969    85.92 41.14 
1969    76.75 39.45 
1970    83.33 40.58 
1971    83.69 40.28 
1972    87.12 42.21 
1972    79.08 39.92 
1972    76.46 39.25 
1972    83.25 39.08 
1972    81.50 37.00 
1973    76.04 39.13 
1973    84.64 40.82 
1974    75.84 39.43 
1975    76.53 39.00 
1976    84.79 41.89 
1977    84.53 41.92 
1978    79.54 38.63 
1979    83.58 40.25 
1980    83.03 39.63 
1981    76.20 38.62 
1981    79.95 37.05 
1982    75.58 38.88 
1984    81.19 40.39 
1984    83.08 39.08 
1985    80.73 38.64 
1986    85.51 40.44 
1987    83.50 41.63 
1987    80.58 40.42 
1987    76.62 39.05 
1988    87.25 41.08 
1988    76.75 39.20 
1989    83.35 41.75 
1990    78.89 39.29 
1990    87.45 41.05 
1991    87.45 41.05 
1992    83.86 41.86 
1992    87.75 40.68 
1992    81.25 40.75 
1992    79.14 39.58 
1992    76.58 39.75 
1993    79.45 39.35 
1994    85.00 40.96 
1994    79.25 39.03 
1995    80.48 39.78 
1995    86.45 40.85 
1995    83.38 38.63 
1996    84.46 41.38 
1996    81.00 40.50 
1996    79.89 38.25 
1997    78.92 38.97 
1997    86.39 40.89 
1998    83.33 39.29 
1999    76.41 38.51 
1999    87.00 41.00 
1999    81.08 40.25 
1999    79.70 38.25 
2000    78.07 38.77 
2000    85.99 41.15 
2000    90.03 41.19 
2000    88.36 38.31 
2000    82.25 37.93"
)


df.filt =df[-(which(diff(df$V1) > 1) + 1),]

df.filt
#>       V1          V2
#>  1: 1950 86.02 40.81
#>  2: 1950 76.98 38.70
#>  3: 1951 83.16 40.54
#>  4: 1951 89.95 41.60
#>  5: 1951 76.66 38.69
#>  6: 1952 81.01 39.67
#>  7: 1953 81.04 39.46
#>  8: 1954 82.30 41.33
#>  9: 1954 84.75 41.75
#> 10: 1954 83.55 38.90
#> 11: 1954 77.31 38.69
#> 12: 1954 81.05 38.15
#> 13: 1955 83.61 41.96
#> 14: 1955 81.61 41.11
#> 15: 1955 83.83 39.08
#> 16: 1955 77.25 38.75
#> 17: 1955 80.65 38.15
#> 18: 1958 83.50 41.50
#> 19: 1959 82.84 41.34
#> 20: 1960 90.50 42.00
#> 21: 1960 76.72 39.15
#> 22: 1960 79.58 39.58
#> 23: 1967 76.25 39.92
#> 24: 1967 77.39 38.75
#> 25: 1968 85.51 41.36
#> 26: 1969 85.92 41.14
#> 27: 1969 76.75 39.45
#> 28: 1970 83.33 40.58
#> 29: 1971 83.69 40.28
#> 30: 1972 87.12 42.21
#> 31: 1972 79.08 39.92
#> 32: 1972 76.46 39.25
#> 33: 1972 83.25 39.08
#> 34: 1972 81.50 37.00
#> 35: 1973 76.04 39.13
#> 36: 1973 84.64 40.82
#> 37: 1974 75.84 39.43
#> 38: 1975 76.53 39.00
#> 39: 1976 84.79 41.89
#> 40: 1977 84.53 41.92
#> 41: 1978 79.54 38.63
#> 42: 1979 83.58 40.25
#> 43: 1980 83.03 39.63
#> 44: 1981 76.20 38.62
#> 45: 1981 79.95 37.05
#> 46: 1982 75.58 38.88
#> 47: 1984 83.08 39.08
#> 48: 1985 80.73 38.64
#> 49: 1986 85.51 40.44
#> 50: 1987 83.50 41.63
#> 51: 1987 80.58 40.42
#> 52: 1987 76.62 39.05
#> 53: 1988 87.25 41.08
#> 54: 1988 76.75 39.20
#> 55: 1989 83.35 41.75
#> 56: 1990 78.89 39.29
#> 57: 1990 87.45 41.05
#> 58: 1991 87.45 41.05
#> 59: 1992 83.86 41.86
#> 60: 1992 87.75 40.68
#> 61: 1992 81.25 40.75
#> 62: 1992 79.14 39.58
#> 63: 1992 76.58 39.75
#> 64: 1993 79.45 39.35
#> 65: 1994 85.00 40.96
#> 66: 1994 79.25 39.03
#> 67: 1995 80.48 39.78
#> 68: 1995 86.45 40.85
#> 69: 1995 83.38 38.63
#> 70: 1996 84.46 41.38
#> 71: 1996 81.00 40.50
#> 72: 1996 79.89 38.25
#> 73: 1997 78.92 38.97
#> 74: 1997 86.39 40.89
#> 75: 1998 83.33 39.29
#> 76: 1999 76.41 38.51
#> 77: 1999 87.00 41.00
#> 78: 1999 81.08 40.25
#> 79: 1999 79.70 38.25
#> 80: 2000 78.07 38.77
#> 81: 2000 85.99 41.15
#> 82: 2000 90.03 41.19
#> 83: 2000 88.36 38.31
#> 84: 2000 82.25 37.93
#>       V1          V2

Created on 2019-01-03 by the reprex package (v0.2.1)

Barton

tctcab 第二个问题可能我没说清楚。我感觉主体还是在get_start_ed这个函数里面改动
版主之前的get_start_ed（）这个函数，最后的结果是：
1:1950,1951
2:1951,1952,1953,1954
3:1954,1955
4:1957,1958,1959,1960
……
而我想最终识别出来的结果是
1:1950,1951,1952,1953,1954,1955
2:1950,1951
3:1954,1955
4:1954,1955
5:1954,1955
6:1954,1955
7:1957,1958,1959,1960
8:1967,1968,1969
……
也就是当存在多个并列的连续时段时（并列时段可以是包含或者相交的关系），将他们都识别出来。并统计起止年份

tctcab

Barton

这包含或者相交的描述很让人困惑啊，加上预期输出结果还是看不懂，‘

比如，假设数据为
1950,1951,1952
那么是不是要穷举输出

1950,1951
1951,1952
1950,1951,1952

这样的组合？

Barton

tctcab 不需要穷举，简单说我是想直接在现有数据里面提取所有的连续时段。

比如数据中有3个1950,4个1951,2个1952,3个1953,1个1954.
那就应该提取出两个连续时段
1:1950,1951,1952,1953,1954
2:1950,1951,1952,1953

tctcab

Barton

不懂，能说再明白一点吗，比如
1950, 1951
1950, 1951,1952
跟你提的两个连续时间段有什么区别？

而且有三个1950的话，
1:1950,1951,1952,1953,1954
2:1950,1951,1952,1953
每个连续时间段在1950这个数据点就有三个种了，要不要区分数据点

Barton

tctcab 就是版主最后理解的那个意思了
“而且有三个1950的话，
1:1950,1951,1952,1953,1954
2:1950,1951,1952,1953
每个连续时间段在1950这个数据点就有三个种了”

刚刚是我写掉了一个结果
“比如数据中有3个1950,4个1951,2个1952,3个1953,1个1954.
那就应该提取出三个连续时段
1:1950,1951,1952,1953,1954
2:1950,1951,1952,1953
3:1950,1951”

tctcab

Barton

1950,1951,1952 跟上面三个又有什么区别…

Barton

tctcab
1950,1951,1952 也是一个连续的结果，但是根据数据来看，后面还有1953、1954等等。所以，这种是提取不完整的结果

tctcab

Barton
你这个描述同样适用于

2:1950,1951,1952,1953
3:1950,1951

啊

Barton

tctcab 不适用的
对于结果2：2:1950,1951,1952,1953
虽然整体数据中有1954，但是其只有一个，已经在结果一中被提取了。所以，当提取结果2时，到1953后续就没有1954了，所以，连续时段到此结束。

同理结果3,1952一共只有两个，已被结果1和2 提取，提取结果3时，已经没有更多的1952，所以连续时段到此结束

tctcab

Barton

还是逻辑不严谨啊

比如
1 1 1 2 2 2 3
按你的做法只能提取
123
12
12
但是1和2有9种组合，上面的123+12+12就不止一种组合方式

Barton

tctcab 我今天想了一下，其实我想要到达的目的，仍然是分类。
所以，我只是想把连续的时段分为一类。
如版主所举例：1 1 1 2 2 2 3
只需要提取
123
12
12
至于1和2之间的多种组合问题，本来是想根据后面的坐标，按距离远近进行进行判断，但是目前感觉已经都复杂了，所以推而求其次。
只需要把1 1 1 2 2 2 3，分成三类就好，不用考虑各数之间的组合问题。
（通俗点描述，就是样本数是一定的，每提取一个序列，类似于在做不放回抽样。所以可以忽略数与数之间的组合问题）

tctcab

Barton

搞定，顺便做了个图


library(tidyverse)

df = data.table::fread(
"1950   86.02 40.81 
1950    76.98 38.70 
1951    83.16 40.54 
1951    89.95 41.60 
1951    76.66 38.69 
1952    81.01 39.67 
1953    81.04 39.46 
1954    82.30 41.33 
1954    84.75 41.75 
1954    83.55 38.90 
1954    77.31 38.69 
1954    81.05 38.15 
1955    83.61 41.96 
1955    81.61 41.11 
1955    83.83 39.08 
1955    77.25 38.75 
1955    80.65 38.15 
1957    79.38 39.75 
1958    83.50 41.50 
1959    82.84 41.34 
1960    90.50 42.00 
1960    76.72 39.15 
1960    79.58 39.58 
1962    87.82 39.49 
1964    85.06 41.62 
1967    85.25 41.49 
1967    76.25 39.92 
1967    77.39 38.75 
1968    85.51 41.36 
1969    85.92 41.14 
1969    76.75 39.45 
1970    83.33 40.58 
1971    83.69 40.28 
1972    87.12 42.21 
1972    79.08 39.92 
1972    76.46 39.25 
1972    83.25 39.08 
1972    81.50 37.00 
1973    76.04 39.13 
1973    84.64 40.82 
1974    75.84 39.43 
1975    76.53 39.00 
1976    84.79 41.89 
1977    84.53 41.92 
1978    79.54 38.63 
1979    83.58 40.25 
1980    83.03 39.63 
1981    76.20 38.62 
1981    79.95 37.05 
1982    75.58 38.88 
1984    81.19 40.39 
1984    83.08 39.08 
1985    80.73 38.64 
1986    85.51 40.44 
1987    83.50 41.63 
1987    80.58 40.42 
1987    76.62 39.05 
1988    87.25 41.08 
1988    76.75 39.20 
1989    83.35 41.75 
1990    78.89 39.29 
1990    87.45 41.05 
1991    87.45 41.05 
1992    83.86 41.86 
1992    87.75 40.68 
1992    81.25 40.75 
1992    79.14 39.58 
1992    76.58 39.75 
1993    79.45 39.35 
1994    85.00 40.96 
1994    79.25 39.03 
1995    80.48 39.78 
1995    86.45 40.85 
1995    83.38 38.63 
1996    84.46 41.38 
1996    81.00 40.50 
1996    79.89 38.25 
1997    78.92 38.97 
1997    86.39 40.89 
1998    83.33 39.29 
1999    76.41 38.51 
1999    87.00 41.00 
1999    81.08 40.25 
1999    79.70 38.25 
2000    78.07 38.77 
2000    85.99 41.15 
2000    90.03 41.19 
2000    88.36 38.31 
2000    82.25 37.93"
)



df.filt =df[-(which(diff(df$V1) > 1) + 1),]

df.filt %>%
  arrange(V1) %>%
  group_by(V1) %>%
  mutate(ind = row_number()) %>%
  arrange(ind) -> tmp

gg = ggplot(tmp, aes(y = ind, x = V1)) + 
  geom_point() 
gg

图里应该可以清晰地看出连续序列了吧

所有可能的连续序列都在tmp的V1里，如果要找出所有序列的话就再用一次上面写的get_start_ed函数，这次不需要sort，自己改改应该不难

Created on 2019-01-04 by the reprex package (v0.2.1)

« 上一页