社会网络分析:探索人人网好友推荐系统
很赞!
下载文档最好改成utf8编码.
循环有些慢,直接用api调取数据可能更快一些.
下载文档最好改成utf8编码.
循环有些慢,直接用api调取数据可能更快一些.
[未知用户] 估计你是Linux用户,至少不是Windows用户……
[未知用户] 循环是真的慢,主要我代码写得不好。如果有空读更多数据来做分析的话也会考虑api之类的呀,不过现在还完全没接触过。
[未知用户] 没听说过直接用API调用数据 吴同学是否能写个帖子介绍一下呢
刚才我打算用igraph生成一个10000+个顶点、300000+条有向边的图,发生
Error in graph(t(el), directed = directed) :
At vector.pmt:409 : cannot reserve space for vector, Out of memory
看来igraph只能小打小闹啊……
Error in graph(t(el), directed = directed) :
At vector.pmt:409 : cannot reserve space for vector, Out of memory
看来igraph只能小打小闹啊……
[未知用户] Api is here:
http://wiki.dev.renren.com/wiki/API
http://wiki.dev.renren.com/wiki/API
[未知用户] 这个,推荐看一下“链路预测”相关的内容,很有意思,比人人的算法好多了……
[未知用户] gephi!!!!
哦,另外提一点建议:出于隐私保护,建议把上述图片中涉及人名ID的都抹掉!
国外social network的data都是特别隐私的,用户名ID之类的全部匿名化处理,就算是拿到数据,也是要在受限制的情况下使用,主要考虑大概就是隐私保护吧。虽然人人本身隐私保护不咋地,但是还是建议在这里考虑一下大家的隐私问题,改一下吧,不影响表现效果的。
国外social network的data都是特别隐私的,用户名ID之类的全部匿名化处理,就算是拿到数据,也是要在受限制的情况下使用,主要考虑大概就是隐私保护吧。虽然人人本身隐私保护不咋地,但是还是建议在这里考虑一下大家的隐私问题,改一下吧,不影响表现效果的。
[未知用户] gephi能处理多大的数据量?
[未知用户] 有时候没有名字就没法解释结果,这个是棘手的问题……
[未知用户] 呃,匿名化处理(一个汉字映射函数就可以了),或者采用中国文学的惯用伎俩“笔名”,哈哈~
[未知用户] 这个还真不知道……应该跟电脑配置有关吧,我就是图人家漂亮而已。
[未知用户] 怎么处处都是隐私保护啊?有那么多隐私吗?我觉得太畏手畏脚了,我反正很无所谓。
这个发之前我们也讨论了一下,作者本人和我都支持放出来。要不然全是A、B、C的完全没有意义。
此外,这个文章中出现的还都不是名人,匿名不匿名的影响不是太大。如果是经济合作圈等,那么如果匿名化了,那就失去了200%的价值。干巴巴的一串字符,谁都不知道是啥东西,令读者浪费感情~
这个发之前我们也讨论了一下,作者本人和我都支持放出来。要不然全是A、B、C的完全没有意义。
此外,这个文章中出现的还都不是名人,匿名不匿名的影响不是太大。如果是经济合作圈等,那么如果匿名化了,那就失去了200%的价值。干巴巴的一串字符,谁都不知道是啥东西,令读者浪费感情~
匿名化处理是对被匿名者的“尊重”,但是是对读者的“不敬”。
[未知用户] ……既然不是名人,那么叫什么名字,又有什么所谓呢?
既然是名人,他已经先选择了公布自己,比如咱们在网上都是实名的,说明咱们不在乎,那么自然不用匿名化。
我觉得要点是,未经人家同意就曝露人家的信息,那就不好了。总得问过……
既然是名人,他已经先选择了公布自己,比如咱们在网上都是实名的,说明咱们不在乎,那么自然不用匿名化。
我觉得要点是,未经人家同意就曝露人家的信息,那就不好了。总得问过……
[未知用户] 这个,我定义“名人”的时候指的是在网上搜真名能搜到的。。。
[未知用户] 呃,在这边你是绝对不可能从网上轻易搜到成绩单的,这属于绝对的个人隐私问题……至于国内的境况,大家都知道……唉。
[未知用户] 嗯,只是很有价值的社会网络研究成果可能没法公布。