[未知用户] 没听说过直接用API调用数据 吴同学是否能写个帖子介绍一下呢
社会网络分析:探索人人网好友推荐系统
刚才我打算用igraph生成一个10000+个顶点、300000+条有向边的图,发生
Error in graph(t(el), directed = directed) :
At vector.pmt:409 : cannot reserve space for vector, Out of memory
看来igraph只能小打小闹啊……
Error in graph(t(el), directed = directed) :
At vector.pmt:409 : cannot reserve space for vector, Out of memory
看来igraph只能小打小闹啊……
[未知用户] Api is here:
http://wiki.dev.renren.com/wiki/API
http://wiki.dev.renren.com/wiki/API
[未知用户] 这个,推荐看一下“链路预测”相关的内容,很有意思,比人人的算法好多了……
[未知用户] gephi!!!!
哦,另外提一点建议:出于隐私保护,建议把上述图片中涉及人名ID的都抹掉!
国外social network的data都是特别隐私的,用户名ID之类的全部匿名化处理,就算是拿到数据,也是要在受限制的情况下使用,主要考虑大概就是隐私保护吧。虽然人人本身隐私保护不咋地,但是还是建议在这里考虑一下大家的隐私问题,改一下吧,不影响表现效果的。
国外social network的data都是特别隐私的,用户名ID之类的全部匿名化处理,就算是拿到数据,也是要在受限制的情况下使用,主要考虑大概就是隐私保护吧。虽然人人本身隐私保护不咋地,但是还是建议在这里考虑一下大家的隐私问题,改一下吧,不影响表现效果的。
[未知用户] gephi能处理多大的数据量?
[未知用户] 有时候没有名字就没法解释结果,这个是棘手的问题……
[未知用户] 呃,匿名化处理(一个汉字映射函数就可以了),或者采用中国文学的惯用伎俩“笔名”,哈哈~
[未知用户] 这个还真不知道……应该跟电脑配置有关吧,我就是图人家漂亮而已。
[未知用户] 怎么处处都是隐私保护啊?有那么多隐私吗?我觉得太畏手畏脚了,我反正很无所谓。
这个发之前我们也讨论了一下,作者本人和我都支持放出来。要不然全是A、B、C的完全没有意义。
此外,这个文章中出现的还都不是名人,匿名不匿名的影响不是太大。如果是经济合作圈等,那么如果匿名化了,那就失去了200%的价值。干巴巴的一串字符,谁都不知道是啥东西,令读者浪费感情~
这个发之前我们也讨论了一下,作者本人和我都支持放出来。要不然全是A、B、C的完全没有意义。
此外,这个文章中出现的还都不是名人,匿名不匿名的影响不是太大。如果是经济合作圈等,那么如果匿名化了,那就失去了200%的价值。干巴巴的一串字符,谁都不知道是啥东西,令读者浪费感情~
匿名化处理是对被匿名者的“尊重”,但是是对读者的“不敬”。
[未知用户] ……既然不是名人,那么叫什么名字,又有什么所谓呢?
既然是名人,他已经先选择了公布自己,比如咱们在网上都是实名的,说明咱们不在乎,那么自然不用匿名化。
我觉得要点是,未经人家同意就曝露人家的信息,那就不好了。总得问过……
既然是名人,他已经先选择了公布自己,比如咱们在网上都是实名的,说明咱们不在乎,那么自然不用匿名化。
我觉得要点是,未经人家同意就曝露人家的信息,那就不好了。总得问过……
[未知用户] 这个,我定义“名人”的时候指的是在网上搜真名能搜到的。。。
[未知用户] 呃,在这边你是绝对不可能从网上轻易搜到成绩单的,这属于绝对的个人隐私问题……至于国内的境况,大家都知道……唉。
[未知用户] 嗯,只是很有价值的社会网络研究成果可能没法公布。
[未知用户] 貌似Cytoscape也不错
[未知用户] 其实我真不觉得匿名化会对(社会网络)研究带来阻碍,反而是一种对于被调查者的尊重。名字不过是一个映射、一个代号,关键在于大家想不想在网上被搜到了。
至于隐私有多重要……看看最近iphone闹得沸沸扬扬的地理位置记录事件吧:我自愿公布是我的事儿,你管不着;只是你不应该不告诉我就擅自记录(虽然其实可能我可能不在乎)。
这个没法默认为人家同意吧?尤其是牵扯到“链路预测”,连链路还没形成呢,估计八成是不认识,那么就擅自用人家的信息?当然照片名字之类的或许无什么大碍,更多于我来说是一种“过程”问题吧。
至于隐私有多重要……看看最近iphone闹得沸沸扬扬的地理位置记录事件吧:我自愿公布是我的事儿,你管不着;只是你不应该不告诉我就擅自记录(虽然其实可能我可能不在乎)。
这个没法默认为人家同意吧?尤其是牵扯到“链路预测”,连链路还没形成呢,估计八成是不认识,那么就擅自用人家的信息?当然照片名字之类的或许无什么大碍,更多于我来说是一种“过程”问题吧。
[未知用户] 既然网上都搜不到。那么这些名字别人看了能有什么用。如果读者能认识其中的人,说明读者是作者的朋友了,算是作者的圈内人士了。
诚如你说“……既然不是名人,那么叫什么名字,又有什么所谓呢?”,那放上去真名也就是无所谓了,但放上真名的一个好处是读者的朋友看了会觉得比较有意思、很好玩,至少有八卦的乐趣。如果是纯粹匿名化,那么和随机生成一个网络贴上去,说说拓扑关系,然后画几张图也就没甚区别了。但这样的文章估计没人乐意看,反正我是不感兴趣的;当然这种随机数据的文章可以来论述理论,但对于像本文一样应用性的文章,如果没有真实数据和真实物理背景,那写还不如不写。
至于你说的征求上面名字的意见,我觉得也很值得商榷。首先,对文章出现的名字来说,上面能说明的信息其实不多,除了真实姓名之外,也就几个联系边而已,这个算不得什么隐私吧(至少在国内,国外的标准不考虑)。其次,如果我们每个人写(不涉及到褒贬性的)文章时提到自己朋友时,都去征求一下朋友的意见,看他允许不允许出现自己的真名,那么这个工作量是非常大的,更重要的是这样会很腐朽很荒谬:因为如果连不涉及到褒贬,仅仅陈述客观事实的文章都需要自己朋友来许可的话;那么我们岂不是做什么事情,只要提到朋友的名字都需要事先征求一下朋友的意见?如果真是这样,那么我很怀疑朋友之间的默契和信任。难道姓名真的如此神圣而不可高攀?
我觉得保护隐私的注重走得过分远了点,尤其在国外。国内应该适当学习,不应该矫枉过正。
我的观点比较非主流,并且比较偏激,见谅,哈哈~
诚如你说“……既然不是名人,那么叫什么名字,又有什么所谓呢?”,那放上去真名也就是无所谓了,但放上真名的一个好处是读者的朋友看了会觉得比较有意思、很好玩,至少有八卦的乐趣。如果是纯粹匿名化,那么和随机生成一个网络贴上去,说说拓扑关系,然后画几张图也就没甚区别了。但这样的文章估计没人乐意看,反正我是不感兴趣的;当然这种随机数据的文章可以来论述理论,但对于像本文一样应用性的文章,如果没有真实数据和真实物理背景,那写还不如不写。
至于你说的征求上面名字的意见,我觉得也很值得商榷。首先,对文章出现的名字来说,上面能说明的信息其实不多,除了真实姓名之外,也就几个联系边而已,这个算不得什么隐私吧(至少在国内,国外的标准不考虑)。其次,如果我们每个人写(不涉及到褒贬性的)文章时提到自己朋友时,都去征求一下朋友的意见,看他允许不允许出现自己的真名,那么这个工作量是非常大的,更重要的是这样会很腐朽很荒谬:因为如果连不涉及到褒贬,仅仅陈述客观事实的文章都需要自己朋友来许可的话;那么我们岂不是做什么事情,只要提到朋友的名字都需要事先征求一下朋友的意见?如果真是这样,那么我很怀疑朋友之间的默契和信任。难道姓名真的如此神圣而不可高攀?
我觉得保护隐私的注重走得过分远了点,尤其在国外。国内应该适当学习,不应该矫枉过正。
我的观点比较非主流,并且比较偏激,见谅,哈哈~
Rcurl的windows版本内置函数似乎不太全啊?