hadoop是做什么的?

hadoop是什么?是做什么的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。

HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop可以解决的问题:

海量数据的存储(HDFS:Hadoop Distributed File System)

(HDFS就是Hadoop分布式存储系统)

海量的数据分析(MapReduce)

(MapReduce就是分布式计算模型)

Hadoop作者受Google三篇论文的启发(GFS、MapReduce、BigTable)

Hadoop擅长日志分析,Facebook就是用Hive来进行日志分析,2009年时Facebook就有非编程人员的30%的人来使用HiveQLib进行数据Fenix;淘宝搜索中的自定义筛选也使用的Hive;

利用Pig还可以做高级的数据处理,包括Twitter、Linkedln上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果,淘宝的商品推荐也是!

在Yahoo的40%的Hadoop作业还是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。

2012年8月25日更新的天猫推荐系统使用的是hive,少量使用mahout。但是现在淘宝的推荐系统都是storm来实现实时推荐。

Hadoop的部署方式分为3种:

第一种:本地模式,本地模式可以在使用eclipse调试的时候使用,只起一个Map一个Reduce。

第二种:伪分布式,通过一台机器模拟生产环境进行测试,看能否完成基本逻辑和功能。

第三种:集群模式,是真正的生产环境,有成百上千台的机器。

更多web开发知识,请查阅 HTML中文网 !!

以上就是hadoop是做什么的?的详细内容,更多请关注0133技术站其它相关文章!

赞(0) 打赏
未经允许不得转载:0133技术站首页 » 其他答疑