灌水并吐糟贴，打开小心。吐 Hadoop 一脸。

lyxmoo

我在各处吐糟Hadoop是个渣，但是也没详细说过到底为什么，这里综合一下,算是对我自己的言行负责

吐糟为什么说Hadoop是个渣。

最近大数据概念流行，有个笑话曾经戏虐流行的也可能是感冒。除了那几个V被涛哥吐糟：原文是“大数据的4个V”，只是不痛不痒生搬硬套的无病呻吟”http://blog.sciencenet.cn/blog-3075-603325.html 。按下不表。

在国内有个现象“一窝蜂”上，好在我们人口基数多，指数现象明显，提及大数据，处理平台就须是Hadoop。好吧，就先说下Hadoop集群，国内用得起千台以上规模主机的大概也就只有BATS（百度阿里腾讯新浪），某易某狐某搜都别捉急，也欢迎其他够资格的加入。Hadoop 中三个基本构成要件 HDFS BigTable MapReduce，涉及某goo的篇论文。算了，抄别人概念这事儿就不接着吐了。

逐个来，先说HDFS，为了提高数据可靠性，所谓就近计算，将数据复制三份。即将整体数据存储的空间加三倍存。在运维时，如果主机存储空间利用率超过80%，一般都要开始考虑扩容了，如果是三倍的冗余，其实这里就有近四倍的物理空间需求。

考虑某宝实际运营中硬盘的损坏率10%/年，（还有网络损坏、内存损坏、和极少的CPU损坏），合并出来运营的成本是很惊人的。增加设备同时也增加了网络接口，就算每个网络接口100元，蚊子也是肉啊。

机房空间，42U机柜，理论上能装到21台2U的主机，除去网络设备、电源控制所占空间，方便按20台主机算。如果1000台规模，需要50个机柜。但是其中2/3都是多出来的。本来需要一整个机房的空间，其实只用一排机柜。

电力消耗，平均5台机架式服务器，24x7运行1年，就需要1台机架式服务器的电费，（工业用电那叫一个贵）。1000机器开一年就需要消耗200台机器的购置费，大概也就是才多出来超过千万点点/年吧。当然，还有财务上的设备购置费或者设备折旧费用比这个数额只多不少。

解决方法：

1.压缩。提及压缩，性能指标需要看压缩时间、解压时间、压缩比，还有不是很容易注意到的内存消耗和CPU消耗。

具体的技术比较细节猛击 http://compressionratings.com/sort.cgi?rating_sum.brief+6n

最快的LZ4解缩时间，比Copy 仅多20%多一点，平均压缩率是0.5倍原始空间大小。压缩不仅意味着存储空间需求的降低，还意味着磁盘IO时间的节省，网络传输时间的节省。看似费时费力，总体应该还是节省。且如果是列式的数据，压缩效率那是惊人的。我有用 LZ4 完成超过 10：1压缩的经验。

2.HDFS的效率，为了提高所谓整柜离线的可靠性保障，就随意地将数据放了三份，某虎，你这是极不负责任地，也是动辄几千万的随意。

古代，在单机多硬盘环境下，通常使用RAID提高数据可靠性，但是在分布环境下，一样也有分布式RAID,十几年前就有的分布式RAID论文：http://www.docin.com/p-70821444.html 都没有人看到过吗？

3.如果嫌弃2太学术，实现起来比较远，glusterfs听说过了没有？从3.3开始就能支持Hadoop直接挂接了，分布式RAID,不用三份数据的。不负责任脚注：如果用glusterfs 碰到全局共享锁的问题，别怪我没有提醒。其实实现一个远程分布式RAID对那些动辄就上千万人工费的开发队伍真的就很难么?

4.BigTable, 暂时还没什么好吐的，先冷着。

5.Map-Reduce，开发中使用MR有个方便之处，写一个模块，部署到各个节点，然后其并发运行。这个看似很不起眼的功能，其实后面隐含存在着模块分发、任务调度、数据的分布和计算系列的功能。数据分布计算不说，用C写一个模块分发、并能动态调度的过程就几十行代码的事啊。用的着大费周折地用则么不高效的实现么？

6.吐糟重点来了：国内的IT行业，已经从古老的习惯敏捷开发、到互联网的习惯快速迭代，已经没有意愿进行基础平台开发了，要么快，快到干脆用Rails，其实Java当初也是打着快速应对开发的旗帜而来的；要么死，裁撤。这是一个浮躁的时代，也就注定没有耐心的基础开发。一切也如毒瘤，尾大不掉。

 为什么发在这里，其实这与统计关系不大，不过是数据基础平台而已。这里我是版主，有编辑权利，【有权就是好】，可以控制。欢迎随时拍砖扔蛋。

zggjtsgzczh

其实，对于你所说的第6条，不妨是个机会。既然他们都没时间，又都有需求，且他们的技术水平又呈现同质化。那么，你或可考虑做开发针对这个方面。先开发小模块，比如一些通用工具，然后就是把多个通用工具的功能整合，做一个高性能计算任务处理平台。

事实或许是，以上你所说的这些技术很有可能都已经是非常古老的技术了（in US.）。这是由于一些特殊原因，国内只能使用这些看起来很先进的技术。在不考虑硬件设计的情况下，仅就软件设计就非常的有前景（in CN.）。比如直接编写一个用来数据运算的操作系统，然后把其他主机的计算任务部分提交到此主机，这样软件开发起来会比较有灵活性，因为许多软件性能的提升和开发都非常的依赖于操作系统的底层结构。

zggjtsgzczh

刚好，想到一个个人的理解。其实现有的大家所讨论的“大数据”基本上是一个伪命题。它是计算过程硬件的数据储存、数据传输、数据计算这三个主要部分人为制造的失衡，导致的“不明真相者”与“媒体们”的大合唱。如果仅仅把“大”狭义的理解为数据量，那么数据传输使用光纤，比如光纤线路；数据储存使用光存储，比如光介质技术；数据计算使用量子单位而不是原子单位的物质的物理特性，比如量子芯片；那么，以上的那个“大”就真的不算什么了。就像你现在和一个来自96年的人讨论“HD大片”，那么他一定问你，那得用多少张5.2寸盘？你沉思良久说：我们已经不用软盘了。：）

US和German都在开发上述的三个主要部分的关键技术，已经突破了，只是由于一些特殊原因无法转移到民品上来而已。

lyxmoo

回复第2楼的 zggjtsgzczh：

我只是吐个糟而已。不论技术先进不先进。Hadoop中不传输数据，一次写入，就近计算。

只有分布式RAID才有点点传输，不过也不多。用分布式RAID+压缩，可以做到0.6左右的空间需求，这个是节省物理空间的王道。Hadoop+snappy , 再怎么节省，也要1.5倍。就算节省掉一半机器，那能省多少设备费、运营费啊。

我前面对Hadoop的 MR 也吐糟吐的还不够。反正不论假装成什么样子，HBase还是Hive ,最终执行了MR的过程，这个有的好吐。先不吐了。留点料慢慢吐。

zggjtsgzczh

其实那里所说的传输数据并不仅仅限于主机间的数据传输，还包含主机板系统总线数据传输和芯片内部数据传输。Hadoop及以扩展到更大规模的互联网原理都仅仅只是计算过程的外部形式，内部了解了，通过逐步的测试就比较容易找到解决问题的或提高效率的路径了。

节省了逻辑空间，那你需不需要考虑压缩和解压缩形成的CPU载荷平衡呢？

你不会是技术Geek吧，不过单纯的讨论这些计算任务处理技术，实在是着了IBM、Google这类的道了。他们是这些概念的始作俑者，以此推销自己的产品和服务。而真正有价值的很少会拿出来讲，以此让更多的人为各种概念来增益信息。比如：其内部算法和内部原理，涉及的底层系统接口以及面对类似领域应用的其他相关替代技术是怎样的发展趋势，这些都是不告诉你的。

大多数人都是在说：好，就是好，好的无法想象。问点底层的，大家就都瘪了。那这和追星情结有什么区别么？

安静下来，看点底层的，问一些更专业的问题，在现有技术基础上考虑一些替代性技术会比较好。当你能够从底层技术原理上来分析比较这些技术的时候，你会发现技术远远不必崇拜，他仅仅只是另一条逻辑规则所做出的与现有逻辑同样的表述。那时你会更安静的看待这些所谓的技术。：）

从Apache Hadoop那家基金会的项目开发方向，基本上可以确定其是SUN的一个壳公司，借以巩固Java在服务器上的普及，以保持市场占有率。

bigdatafan

回复第5楼的 zggjtsgzczh：兄弟，我就是那个knitr也遇到问题的。。看到你和版主的回帖很有启发～！

lyxmoo

不能等Google出文章了，才说：“哦，原来是这样啊”。或者说：“这样也行？”

要有独立之思想。

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//pubs/archive/41344.pdf

itellin

酸奶有助于消化，有聪明人在里面增加一点增稠剂，口感上好了，于是起了一个新名称，叫老酸奶，一炒作，价格就上去了，消费者自己还沾沾自喜，以为得到什么宝贝，其实还是原来那些东西，但为此要多支付50%的银子。

lyxmoo

Repost.

<br />
http://www.csdn.net/article/2013-11-12/2817457-how-mac-mini-surpass-a-1636-hadoop-cluster<br />

HarryYu

hadoop项目一定是不能上的，为此我还丢掉了工作，为什么不能上呢？

1. hadoop是依赖java的，不是说java就不能搞服务器开发，问题是，hadoop其实是依赖java什么，java的语法吗？锁机制和垃圾回收吗？面向对象吗？hadoop依赖的是java的编译器。java的编译器编译出来的产品，上面运行的代码当然是java写的，奇怪吗？其实，这就是一个很奇怪的现象，C编译器编译出来的产品，比如shell，上面可以运行fortran, pascal...等等，java却不行。

2. Map/Reduce要求数据的分发和业务的处理合二为一

传统it思路是，数据的存储和业务的处理是分开的，这里的“分开”，仅仅是表面的分开，也就是说，数据可以多次存储，只有需要的时候，才由应用程序读取这些数据，这个分步的工作是很清晰的。也就是说，数据为数据负责（作为server一方），应用程序为应用程序负责，这个过程是实际可行的。我工作这么多年，国内很多it项目其实很成功，就是业务为业务负责，应用程序为应用程序负责，彼此有个分工合作的独立性。hadoop不是这样的，一个hadoop的程序员可以随心所欲的map你的数据，这看起来很正常，但是，国内的it界一定要注意，程序是可以控制数据的，在一个hadoop程序员面前，你的数据不是机密，你的业务也不是机密。因为大数据的处理，处理的常常也是一个公司的最根本的数据。

3. 再回忆一下，这些hadoop，java服务器的程序员，来自何处呢？大家不感到很神秘吗？他们无一例外的来自阿里，这难道不是一件很奇怪的事情吗？

HarryYu

这个帖子吧，我的意思不是论述"hadoop是不是个渣"的问题，这个问题，其实是没有答案的，正如当年人们讨论java一样。工作时间久了，会明白一个道理，那就是公司也是可以被人“做”了的，老板看起来很可怕，听起来很可畏，但是我们的薪水是从老板手里领的，老板们其实是可敬的。但是公司却是脆弱的，“做”了公司的人，常常也是公司里面的员工／雇员，这些人才是真的可怕的。出于对老板的基本责任和作人的良心，我都有义务把这个话告诉下一代人，"hadoop是不是个渣"不要紧的，问题的是“人”。hadoop只是容易让公司上套，“人”才是那个顺着杆子爬的。

zggjtsgzczh

回复第11楼的 HarryYu：

服务器供应商捆绑开发软件平台形成的技术垄断造成技术劳动力的市场壁垒？[s:17]

HarryYu

回复第12楼的 zggjtsgzczh：

我认为java只是一个编译器，或者说只是一个虚拟机，在这样的一个环境里面，是不存在“技术劳动力的市场壁垒”的，存在的只是一个“围城”。

说的再直白一点，就是，这是一个“空城”。

（“空城”的说法也许不太负责任，你可以找一个在计算机科学领域更加资深的人求证一下，我只是说出了我看到的经验事实。）

zfzfzfzfln

有的观点支持

不过版主不要把hadoop想得那么简单，hadoop是想尽量做的general，所以有时候才存在一些缺点。

你说几十行C代码就能完成mapreduce的功能，我有些怀疑,或者说我想学习一下.

版主有时间分享一下wordcount的C代码[s:14]

用java的主要原因是想用jvm.

开源社区的力量不容小视啊

lyxmoo

回复第14楼的 zfzfzfzfln：

mapreduce 主要是思路，实现起来不复杂，几十行代码实现的前提是需要充分利用消息队列 API。

消息队列代码较多，还好自己不用写这些。

且，原文中：

<br />
用C写一个模块分发、并能动态调度的过程就几十行代码的事啊。<br />

C 模块、动态调度，我确有实现，就几十行代码。

zfzfzfzfln

回复第15楼的 lyxmoo：

恩，我有时也会这样思考。我和别人交流的结果是，大家认为自己写的框架不够完美，担心出现bug

当然大牛肯定可以自己写个效率更高，更快的

IBM的mapreduce和AMP的spark，一个关键模块用C代替java，一个直接in memory,然后用RDD代替3次replica.

我感觉实际使用中，大家可能不会严格按照要求来做存储3个replica.这点我不确定.

replica的另一个作用是可以尽量local mapper，有时可以提高性能。

不过版主一看就好有经验，学习了

可以多分享一下你的经验吗？我对hadoop公司里面的使用情况，power的消耗，的确知道的太少了。

谢谢

PS：可以分享消息队列这里的代码吗?私信可以吗?

lyxmoo

回复第16楼的 zfzfzfzfln：

代码都可以公开，看看有不足的地方大家一起讨论。

动态加载的模块，完成的功能如同在 Hadoop 里，分发到各主机，各主机分别执行，完成后可以退出。这样的模块结构在C里需要有一个模块的预先结构定义：

<br />
typedef struct __attribute__ ((aligned (64))) module_t {</p>
<p>    uint64_t magic; /* 识别模块代码一致性的标识，防止主程序加载不一致的模块 */<br />
    int type;<br />
    char    *name;  /* 模块文件的名需要和这里一致，方便加载符号表 */<br />
    void    *__null_used_pointer_for_align1;<br />
    int (*instantiate)(void *instance);   /* 模块加载初始化入口 */<br />
    int (*detach)(void *instance);        /* 模块卸载入口 */<br />
    uint32_t  modules_cnt;                /* 模块中包含的功能数量 */<br />
                                          /* 两种触发模式，1，时间触发； 2，消息触发 */<br />
    funcMethod methods[];       /*  时间和消息触发器定义 结构 */<br />
} module_t ;</p>
<p>/* 在模块代码里如下使用上述的定义 */</p>
<p>module_t basic= {<br />
    BFM_MODULE_INIT,            // 这里通过Makefile编译时动态生成的串值<br />
    (int)BFM_TYPE_THREAD_SAFE,  // type<br />
    "basic",<br />
    NULL,<br />
    basic_instantiate,      // instantiation<br />
    basic_detach,           // detach<br />
    3,                      // 有两个实际的时间触发器入口，一个空值入口<br />
    {<br />
    { MIN1, 0x0, 0, basic_checksimul},<br />
    { MIN3, 0x0, 0, basic_checksimul2},<br />
    { CMD_RESET, 0, 0, NULL }<br />
    }<br />
};</p>
<p>/* 在主进程中调用加载的过程 */</p>
<p>handle= dlopen(module_file_name, RTLD_LAZY|RTLD_NOW);</p>
<p>module = dlsym(handle, module_file_name);</p>
<p>if (module->magic != BFM_MODULE_MAGIC_NUMBER) {  /* MAGIC_NUMBER 在分布主机的主进程里定义，与分发的模块上的定义匹配 */<br />
         dlclose(handle);<br />
         continue;<br />
        }</p>
<p>/* 模块加载完成后，立即调用模块上初始化入口，建立模块自己的环境 */<br />
    if ( ( module->instantiate) &&<br />
          ( (int (*)(void *))module->instantiate)( (void *)GlobalParameters ) == FALSE ) {<br />
            dlclose(handle);<br />
            free(node);<br />
        continue;<br />
    }</p>
<p>/* 初始化成功，加入到模块的队列记录里，将来由清除入口程序删除本模块 */<br />
....</p>
<p>/* 根据模块上功能入口的不同，将函数指针放入响应的执行队列里，时间队列和消息执行队列 */<br />
for( i =0 ; i< module->modules_cnt; i++){<br />
   ......................</p>
<p>   listAddNodeTail(GlobalParameters->sch_list[0].sched,(void *)fm);</p>
<p>}</p>
<p>/*  时间队列由时间信号触发 */</p>
<p>/*  消息队列由消息队列接受到的消息进行触发 */</p>
<p>

lyxmoo

回复第1楼的 lyxmoo：

接1楼继续语不惊人死不休，喷死自己拉倒。

基于Hadooooop 的 BigTable 是种退化，他们(Hbase/Hive)其实只解决数据的存和取的问题，同时带来了数据中信息计算过程的复杂化。常用的关系型数据库尚存放了信息的关联关系，而BigTable却退回到将相关性抹平的原始类型。更不要说从信息到知识的转换过程中经常要用到的图，图在BigTable里几乎需要重建。

从数据 -> 信息 -> 知识 -> 智慧这个链条上，原来的关系型数据库尚在信息->知识的阶段，而BigTable 退化到数据-> 信息的阶段上去。

在开发过程中，除了数据的展示以外，需要推理和预测时，需要要建设后面的环节，而是用Hadoop的方案，很大程度上就需要运行时重建，这个过程比原来的关系型数据库反而更加复杂了。

======================== 我是插队的分割线 ========================

数据、信息、知识、智慧的分别，粗浅地分分类型如

数据：无序的内容和记录，“行行行行重”这种字内容可视为数据。

信息：从无序变有序，具备描述性的内容，或成为有实际指向的内容。前句排列成“行行重行行”，单独这句变得有意义。

知识：有关系的信息，相关联、有因果、能表达含意，如言志咏物抒怀的内容，是知识。

智慧：将数据信息和知识进行捕获收集，继续组合、变换、创造及派生出新内容的能力。

======================== 结束排队的分割线 ========================

显摆是种病，我经常发作，作为数据行业从业人员，我应该大力鼓吹，拼命鼓吹大数据平台Hadoooooop的各种好处和优势,完美无缺陷，即使略有点缺陷，也是对方技术不过关，使用不当造成的。然后我故作深沉地故作轻易地说几句，鄙组队员在我指导下提交了多少行代码云云，一定要有天下文章属俺乡的姿势...

大多数公司，甚至可以延伸到大多数的互联网公司，其实都用不到大数据，裸数据统共就不到100T的数据容量，按现在机器配置，也就是三五台机架式服务器的量。压缩一下归档，说不定两颗硬盘就能全部放下的，鼓吹什么大数据泥。延伸阅读。我就是最爱反对跟风，反体制成习惯性思维了，这是病，得治。

引用 DNFWAH 的一段，懂的人多，深入的人少, 他山之玉

大规模的图处理一直以来是研究的热点，比如交通路线，疾病蔓延，文章引用等，

社交网络图等。mapreduce由于其计算模型本身的特性，使得它天生并不适合用来

做大规模图处理，作为一个链式任务处理计算模型，前一个处理过程必须将整个

图的状态保存下来供下一个处理过程使用，增加了序列化和反序列化的开销，使

得整个任务的完成变的很漫长。Pregel是一个用于分布式图计算的计算框架，主

要用于图遍历（BFS）、最短路径（SSSP）、PageRank计算等等。Apache Giraph

是ASF社区的Incubator项目，由Yahoo!贡献，是BSP的java实现，专注于迭代图计

算（如pagerank，最短连接等），每一个job就是一个没有reducer过程的hadoop

job。Apache Hama也是ASF社区的Incubator项目，与Giraph不同的是它是一个纯

粹的BSP模型的java实现，并且不单单是用于图计算，意在提供一个通用的BSP模

型的应用框架。GraphLab CMU的一个迭代图计算框架，C++实现的一个BSP模型应

用框架，不过对BSP模型做了一定的修改，比如每一个超步之后并不设置全局同步

点，计算可以完全异步进行，加快了任务的完成时间。Trinity是微软开发的一套

图计算平台，包含一个建立在分布式内存云平台上的图数据库及一个计算框架。

通过一个纯内存的key-value存储数据库实现快速访问。Spark主要用来解决

Mapreduce所不擅长的两类计算：迭代计算和交互式分析。核心在于将数据存在内

存，避免重复的load。采用scala语言实现，提供了类似于DryadLINQ的函数式编

程接口。Spark为并行编程主要提供了两个抽象：RDD和并行操作，此外它还提供

了两种类型的共享变量支持：广播变量和累加器。PowerGraph将基于vertex的图

计算抽象成一个通用的计算模型：GAS模型，分为三个阶段：Gather，Apply和

Scatter用于解决Power-Law分布图。

一下子喷的有点快，大脑有点缺氧。容我慢慢完善。

zfzfzfzfln

回复第18楼的 lyxmoo：学习了，谢谢分享. 你说的很有道理，期待你的更新

lyxmoo

回复第18楼的 lyxmoo：

论 "独立之精神，自由之思想",

刚又得到消息，开发Spark 的那伙人，决定停止 Shark 开发，全面转向 Spark SQL。