HarryYu
数据库技术兴起的时候,那个时候连foxbase都很抢手,历史证明了真正带给人们价值的不是数据库,而是ERP。IBM整个软件体系不怎么搞应用,搞得都是基础,db2,websphere,rational,tivoli,lotus,结果一败涂地,这可是很近的历史事实了。我做个比较,
db2-mysql
websphere-nginx
rational-那个UML其实没什么大的作用,并且各种替代品
tivoli-各种存储,廉价硬盘就能把tivoli替代了
lotus-openoffice,并且支持智能手机
当年IBM对这一套底气很足的,我记得一篇报道说,人家IBM承诺不做应用,意思是不和自己的合作伙伴竞争搞应用软件。
接着说大数据,我曾经去过一家公司面试,我当时是搞数据库的,感觉那个职位自己应该是胜任的,结果面试官一上来就问,你知道哪些数据仓库的模型?我一听就傻了。搞得好像hadoop一出,数据库就被秒杀了一样。
hadoop本质来说仅仅是个存储模型,这个存储模型附带有一种计算模型(map/reduce),国人一上来可能比较生疏,但是hadoop仅仅是个基础模型。
hadoop的存储模型本质来说其难度没有超过数据库的难度,加上计算模型也一样。
历史告诉我们的结论是,hadoop作为基础结构没有价值。
那什么是有价值的?只有说当你的业务存在时间维度上的价值的时候,hadoop这个模型才有价值。有时间维度的业务不多,真的。对于一家互联网公司来说,半衰期大约=5年,甚至更短。也就是说,5年后,市面上的新兴的这些互联网/移动互联网公司要去掉一半。这其实是个很保守的数字了。5年根本谈不上你的数据还要有什么时间维度上的操作。再看看电子商务,网上是一些比较新潮的商品,5年之后早就更新换代好几批了,也就是说相对于公司的半衰期,商品的半衰期更短。
其实真正具有时间维度上的要求的数据是金融数据,然后就是搜索引擎,再次是电子商务,进入移动时代,数据是移动的,数据瞬间消失的就跟那个玻色子一样。数据就是在K-V里面的,支付也是如此,数据过了有效期,那只能重新连接重来了,数据失效了,支付失败了,记录这个失败没有意义,及时处理支付失败才有意义,数据在时间维上不是越来越大,而是越来越小。
那大家为什么hadoop一哄而上?这个背后肯定是有推手的,目的就是让大家跟着倒霉,唯我独大。为什么这么说呢,因为这个hadoop技术是有陷阱的,这个陷阱就是java,历史告诉人们什么呢?
我这一代人,整个70后80后,黄金一代,毁在java手里。原因是什么,我也不知道。事实是什么,这个我经历了,就知道了。
现在说这个可不是什么经验之谈,这是常识之谈。打着数据挖掘/机器学习的招牌搞大数据,十有八九也会被大数据胡弄了。因为它的根底就比较浅。hadoop的根底浅,java技术毁人不倦,不满足业务上的半衰期。
然后再来说机器学习,很奇怪,hadoop根底浅,机器学习也跟着上不了什么很高的档次。我也去过一家公司面试,还是个上市公司,一进去直觉告诉我,这家公司已经不怎么地了。但是整个数据挖掘机器学习的面试,感觉很不爽。我大体上说一下,模式差不多,
统计基础+矩阵运算+SVM机器学习流派+信号识别(所谓深度学习)
公司已经快不怎么样了,这些机器学习的大师们拿着这一套好像就跟阳春白雪一样,自我剪裁一番配上大数据hadoop就无敌了。
就这些,核心还是贝叶斯模型,翻来覆去的贝叶斯模型。问题就是,贝叶斯模型真的比传统数据库的关系模型强吗?不是说一定是否定的,只要不是绝对肯定的,你的业务就跟着over了。问题是,人们需要哪家公司用自己的业务去检验贝叶斯模型?
libingfei
我只谈数据仓库,因为这是我觉得最容易入门、最有用、最难用好的技术之一。
出现数据仓库这概念的时候,貌似还没有hadoop呢。
数据仓库存储的是原始数据经过一定的业务、维度聚合获得的中间数据。模型价值很大,过去大数据处理都是先建立数据仓库模型。
若是做数据库不知道数据仓库、ETL技术,无论你用什么数据库,大数据量时都是有局限性的。
举个例子最简单的例子,你有用户的交易流水,每天24亿条新记录。你需要做个系统查询,统计一定天数的交易总金额。
那么,一个简单的数据仓库就是,每天计算一次前一天交易总额值后存在一张以天为单位的表里,这样每天计算一次,表每天增加一条记录。查询天交易总额是我只需要查询这张以天为单位的表就行了。通过这张天为单位的表,很快的计算周,月,年的数据统计。
这张表就是一个最简单的数据仓库,每天从原始数据计算这张表的过程就是ETL。
使用数据库的人一定使用或接触过数据仓库,只不过自己没意识到而已。
也许你会问如果我要查3天前~到现在9点20的总金额怎么办?这时我们只需要当天的原始数据(实时数据),在加上之前设计的中间表里3天的汇总数据即可。
一个良好的,持久稳定的,针对大量数据产品,必须有良好的数据仓库支持。
PS:现在大家都跟风追hadoop,领导觉得好非让你用,你也没办法。
毕竟现很多时候谈客户,别人都吹hadoop技术,你说你不用hadoop,绝对是你悲剧。
HarryYu
[未知用户]
你说的这个跟我说的好像不太一样,你说的还是在关系数据库的模式里面,没有时间维度,还不是bigtable模式。
itellin
这个大数据就是上个世纪90年代的人工智能的翻版,属于冷饭热炒,只不过前次是学界发起的,这次是业界发起的,不过无论怎么样吵,对个人是有百利而无一害的,如果炒作成功,那就什么也不用说了,如果不成功,损失的是老板,个人不会受到什么损失,业界的薪水足够养家了,因为这个炒作周期一般是10年。
至于说使用方法,基本上没有多少长进,还是在基于矩阵的折腾,然后批一个马甲,就拿协同过滤来讲,扒了外衣,其实就是加权平均,两个矩阵来一个左乘就行了,技巧在于选择权重,这个和金融市场很像,5日均线可以成为一个模型,10日均线也可以成为一个模型,一包装就可以出来骗了,当然最后的结果大家都知道的。
最近饶毅好像也发表过一篇文章,说这次的机器学习是一个伪智能。
无论怎么样,对学统计和数学的来讲都是一个历史机遇,使得本来比较冷的学科一下子热了起来,就业前景也变得光明起来。
HarryYu
我写这个想说的是,从生命周期的角度考虑,hadoop是个怪东西,java是个坏东西。除了那个背后的推手,一个互联网公司如果用了hadoop,那么基本上会被这个技术绑架了,人家就开始对你的生命周期进行“倒数”。
即使在统计成立的意义上,hadoop也是一个怪技术。人家bigtable没说自己是用java写的,一旦hadoop上马,整个服务端,移动端都会变成java的,java做服务器效率能提高到哪里去呢?硬件被绑架,技术被绑架,数据被绑架,业务被绑架,效率被绑架。
HarryYu
[未知用户]
hadoop上马的项目,情况是这样的,小100台高性能服务器,一天24小时不间断运行,速度极慢,硬盘满了,也不知道该如何处理。一堆Java高手们组成好几个项目组。
我认为统计是好的,但是要是被hadoop绑架了服务端,结果是可想而知的,我认为这个结果基本上说是客观的,而统计其实是人们主观的。没有客观,主观是没有意义的。
最近某人指着京东,指着鼻子倒数,这是很荒谬的历史事实,sohu/sina当年打得那么热火朝天都没有发生这样的事情,什么这个那个的,屁,烦,hadoop就是一个鬼。
你这么强,你能推出我说的时间维度的反证,我立马服你。
windwail
有几种选择
不去用hadoop的项目组
在项目组里分工上不从事hadoop开发
用C++另写一个分布式引擎
除了老板拿刀架在脖子上要写hadoop代码
其他都挺容易的吧
HarryYu
[未知用户]
fds[*count] = anetTcpServer(server.neterr,port,server.bindaddr[j],server.tcp_backlog);
redis.c文件,line:1605,版本2.8.19
完全的k-v内存型日志型数据库,并且支持redis集群,清一色的C代码,一句C++没有,和K-V完全兼容。
HarryYu
这是随便举出的一个例子。
其实工作的时候常常是这样的,高可用是建立在应用层面的,比如lvs,数据一旦生成就不需要transaction意义的改写,那么redis就可以满足要求。
我怀疑hadoop的真正推手其实会选择不用hadoop,没有必要任何一次读写都要在网络里shuffle一遍,数据越堆越多,速度越来越慢。呵呵,说到这我感觉这个帖子真的没有什么意思的,可怜的就是那些深陷在hadoop里面的公司和员工们。很多时候大家都是说说而已,可是hadoop真的是无聊的话,那么人们就不应该付出青春、人性和热血在里面,那就只剩下可恨了。
windwail
[未知用户]
这很正常,因为不想付出更多就能完成目前的工作才是主流心态,所以这类东西才能流行
比如以前这里还喜欢争SAS和R,没完没了,就是因为付出青春写统计软件划不来(确实划不来),所以要学现成的统计软件的API
那么问题来了,学统计软件哪家强?学hadoop还是spark?
那这样辩来辩去,最后敲定R强,都学R,就值了吗?我回答不了,也许现在能静下心来学一学API的人都不多了
HarryYu
[未知用户]
R还是很值的,R里面比较牛的算法,学会了用C重写,搞到哪里都能跑还是很厉害的。可惜咱也不会,无聊得很。
slient_strings
不明觉厉
HarryYu
[未知用户]
帮您查了一下,时间序列还是在sampling研究的状态的,当然你要是真的喜欢这种研究的状态,那就规格很高了,我也只能帮你到这了。
在这个论坛,数据拟合,靠专业知识基本上是共识了。老yan好像曾经也这么说。
您要是想挖我的帖子,我在这个论坛就是搞金融时间序列的,这个帖子我也很后悔的,大家都知道,你怎么给挖出来了。