大数据、常识、经验——谈国内互联网

HarryYu

数据库技术兴起的时候，那个时候连foxbase都很抢手，历史证明了真正带给人们价值的不是数据库，而是ERP。IBM整个软件体系不怎么搞应用，搞得都是基础，db2,websphere,rational,tivoli,lotus，结果一败涂地，这可是很近的历史事实了。我做个比较，
db2-mysql
websphere-nginx
rational-那个UML其实没什么大的作用，并且各种替代品
tivoli-各种存储，廉价硬盘就能把tivoli替代了
lotus-openoffice，并且支持智能手机
当年IBM对这一套底气很足的，我记得一篇报道说，人家IBM承诺不做应用，意思是不和自己的合作伙伴竞争搞应用软件。

接着说大数据，我曾经去过一家公司面试，我当时是搞数据库的，感觉那个职位自己应该是胜任的，结果面试官一上来就问，你知道哪些数据仓库的模型？我一听就傻了。搞得好像hadoop一出，数据库就被秒杀了一样。
hadoop本质来说仅仅是个存储模型，这个存储模型附带有一种计算模型(map/reduce)，国人一上来可能比较生疏，但是hadoop仅仅是个基础模型。
hadoop的存储模型本质来说其难度没有超过数据库的难度，加上计算模型也一样。
历史告诉我们的结论是，hadoop作为基础结构没有价值。

那什么是有价值的？只有说当你的业务存在时间维度上的价值的时候，hadoop这个模型才有价值。有时间维度的业务不多，真的。对于一家互联网公司来说，半衰期大约=5年，甚至更短。也就是说，5年后，市面上的新兴的这些互联网/移动互联网公司要去掉一半。这其实是个很保守的数字了。5年根本谈不上你的数据还要有什么时间维度上的操作。再看看电子商务，网上是一些比较新潮的商品，5年之后早就更新换代好几批了，也就是说相对于公司的半衰期，商品的半衰期更短。
其实真正具有时间维度上的要求的数据是金融数据，然后就是搜索引擎，再次是电子商务，进入移动时代，数据是移动的，数据瞬间消失的就跟那个玻色子一样。数据就是在K-V里面的，支付也是如此，数据过了有效期，那只能重新连接重来了，数据失效了，支付失败了，记录这个失败没有意义，及时处理支付失败才有意义，数据在时间维上不是越来越大，而是越来越小。

那大家为什么hadoop一哄而上？这个背后肯定是有推手的，目的就是让大家跟着倒霉，唯我独大。为什么这么说呢，因为这个hadoop技术是有陷阱的，这个陷阱就是java，历史告诉人们什么呢？
我这一代人，整个70后80后，黄金一代，毁在java手里。原因是什么，我也不知道。事实是什么，这个我经历了，就知道了。

现在说这个可不是什么经验之谈，这是常识之谈。打着数据挖掘/机器学习的招牌搞大数据，十有八九也会被大数据胡弄了。因为它的根底就比较浅。hadoop的根底浅，java技术毁人不倦，不满足业务上的半衰期。

然后再来说机器学习，很奇怪，hadoop根底浅，机器学习也跟着上不了什么很高的档次。我也去过一家公司面试，还是个上市公司，一进去直觉告诉我，这家公司已经不怎么地了。但是整个数据挖掘机器学习的面试，感觉很不爽。我大体上说一下，模式差不多，
统计基础+矩阵运算+SVM机器学习流派+信号识别（所谓深度学习）
公司已经快不怎么样了，这些机器学习的大师们拿着这一套好像就跟阳春白雪一样，自我剪裁一番配上大数据hadoop就无敌了。
就这些，核心还是贝叶斯模型，翻来覆去的贝叶斯模型。问题就是，贝叶斯模型真的比传统数据库的关系模型强吗？不是说一定是否定的，只要不是绝对肯定的，你的业务就跟着over了。问题是，人们需要哪家公司用自己的业务去检验贝叶斯模型？

libingfei

我只谈数据仓库，因为这是我觉得最容易入门、最有用、最难用好的技术之一。

出现数据仓库这概念的时候，貌似还没有hadoop呢。
数据仓库存储的是原始数据经过一定的业务、维度聚合获得的中间数据。模型价值很大，过去大数据处理都是先建立数据仓库模型。

若是做数据库不知道数据仓库、ETL技术，无论你用什么数据库，大数据量时都是有局限性的。

举个例子最简单的例子，你有用户的交易流水，每天24亿条新记录。你需要做个系统查询，统计一定天数的交易总金额。
那么，一个简单的数据仓库就是，每天计算一次前一天交易总额值后存在一张以天为单位的表里，这样每天计算一次，表每天增加一条记录。查询天交易总额是我只需要查询这张以天为单位的表就行了。通过这张天为单位的表，很快的计算周，月，年的数据统计。
这张表就是一个最简单的数据仓库，每天从原始数据计算这张表的过程就是ETL。
使用数据库的人一定使用或接触过数据仓库，只不过自己没意识到而已。
也许你会问如果我要查3天前~到现在9点20的总金额怎么办？这时我们只需要当天的原始数据（实时数据），在加上之前设计的中间表里3天的汇总数据即可。

一个良好的，持久稳定的，针对大量数据产品，必须有良好的数据仓库支持。

PS：现在大家都跟风追hadoop，领导觉得好非让你用，你也没办法。
毕竟现很多时候谈客户，别人都吹hadoop技术，你说你不用hadoop，绝对是你悲剧。

HarryYu

[未知用户]

你说的这个跟我说的好像不太一样，你说的还是在关系数据库的模式里面，没有时间维度，还不是bigtable模式。

itellin

这个大数据就是上个世纪90年代的人工智能的翻版，属于冷饭热炒，只不过前次是学界发起的，这次是业界发起的，不过无论怎么样吵，对个人是有百利而无一害的，如果炒作成功，那就什么也不用说了，如果不成功，损失的是老板，个人不会受到什么损失，业界的薪水足够养家了，因为这个炒作周期一般是10年。
至于说使用方法，基本上没有多少长进，还是在基于矩阵的折腾，然后批一个马甲，就拿协同过滤来讲，扒了外衣，其实就是加权平均，两个矩阵来一个左乘就行了，技巧在于选择权重，这个和金融市场很像，5日均线可以成为一个模型，10日均线也可以成为一个模型，一包装就可以出来骗了，当然最后的结果大家都知道的。
最近饶毅好像也发表过一篇文章，说这次的机器学习是一个伪智能。
无论怎么样，对学统计和数学的来讲都是一个历史机遇，使得本来比较冷的学科一下子热了起来，就业前景也变得光明起来。

HarryYu

我写这个想说的是，从生命周期的角度考虑，hadoop是个怪东西，java是个坏东西。除了那个背后的推手，一个互联网公司如果用了hadoop，那么基本上会被这个技术绑架了，人家就开始对你的生命周期进行“倒数”。

即使在统计成立的意义上，hadoop也是一个怪技术。人家bigtable没说自己是用java写的，一旦hadoop上马，整个服务端，移动端都会变成java的，java做服务器效率能提高到哪里去呢？硬件被绑架，技术被绑架，数据被绑架，业务被绑架，效率被绑架。

HarryYu

[未知用户]

hadoop上马的项目，情况是这样的，小100台高性能服务器，一天24小时不间断运行，速度极慢，硬盘满了，也不知道该如何处理。一堆Java高手们组成好几个项目组。

我认为统计是好的，但是要是被hadoop绑架了服务端，结果是可想而知的，我认为这个结果基本上说是客观的，而统计其实是人们主观的。没有客观，主观是没有意义的。

最近某人指着京东，指着鼻子倒数，这是很荒谬的历史事实，sohu/sina当年打得那么热火朝天都没有发生这样的事情，什么这个那个的，屁，烦，hadoop就是一个鬼。

你这么强，你能推出我说的时间维度的反证，我立马服你。

windwail

有几种选择
不去用hadoop的项目组
在项目组里分工上不从事hadoop开发
用C++另写一个分布式引擎

除了老板拿刀架在脖子上要写hadoop代码
其他都挺容易的吧

HarryYu

[未知用户]
fds[*count] = anetTcpServer(server.neterr,port,server.bindaddr[j],server.tcp_backlog);
redis.c文件，line：1605，版本2.8.19

完全的k-v内存型日志型数据库，并且支持redis集群，清一色的C代码，一句C++没有，和K-V完全兼容。

HarryYu

这是随便举出的一个例子。

其实工作的时候常常是这样的，高可用是建立在应用层面的，比如lvs，数据一旦生成就不需要transaction意义的改写，那么redis就可以满足要求。

我怀疑hadoop的真正推手其实会选择不用hadoop，没有必要任何一次读写都要在网络里shuffle一遍，数据越堆越多，速度越来越慢。呵呵，说到这我感觉这个帖子真的没有什么意思的，可怜的就是那些深陷在hadoop里面的公司和员工们。很多时候大家都是说说而已，可是hadoop真的是无聊的话，那么人们就不应该付出青春、人性和热血在里面，那就只剩下可恨了。

windwail

[未知用户]

这很正常，因为不想付出更多就能完成目前的工作才是主流心态，所以这类东西才能流行
比如以前这里还喜欢争SAS和R，没完没了，就是因为付出青春写统计软件划不来（确实划不来），所以要学现成的统计软件的API
那么问题来了，学统计软件哪家强？学hadoop还是spark？
那这样辩来辩去，最后敲定R强，都学R，就值了吗？我回答不了，也许现在能静下心来学一学API的人都不多了

HarryYu

[未知用户]

R还是很值的，R里面比较牛的算法，学会了用C重写，搞到哪里都能跑还是很厉害的。可惜咱也不会，无聊得很。

slient_strings

不明觉厉

HarryYu

[未知用户]

帮您查了一下，时间序列还是在sampling研究的状态的，当然你要是真的喜欢这种研究的状态，那就规格很高了，我也只能帮你到这了。
在这个论坛，数据拟合，靠专业知识基本上是共识了。老yan好像曾经也这么说。

您要是想挖我的帖子，我在这个论坛就是搞金融时间序列的，这个帖子我也很后悔的，大家都知道，你怎么给挖出来了。