雅虎首席产品官 Blake Irving 吹响了2010 Hadoop峰会的呜呜祖啦(2010南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。
显而易见,Hadoop 受到越来越多的关注:今年的会议有 1000人参加并且门票在会前10天就告售罄,人数较前年的300,去年的650有大幅的增长。Java之父,James Gosling 也参加了该会议。这次会议标志着Hadoop 5周年(大约)。Irving指出世界上只有5%的数据是结构化的,而非结构化数据一直保持极大的增长,这些新产生的数据的特点是更多的瞬时性。他强调 Yahoo使用Hadoop来分析每一个页面点击并优化内容的排名,每7分钟更新一次结果。他指出“我们相信Hadoop已经为主流企业的应用做好了准 备”。
雅虎的云计算高级副总裁,Shelton Shugar指出,雅虎每天为1000亿事件产生120TB数据输入,目前储存了70PB,而其最高存储容量是170PB。雅虎每天处理3PB数据,每个 月在38000台服务器上运行超过百万个任务。由于雅虎的Hadoop的使用范围不断扩大,他们已经需要为主流应用程序员作为准备,建立支持提供和更好的 管理工具和数据安全。他指出,雅虎在生产环境中将Hadoop应用于各种产品:
雅虎还在其应用科研中大量使用Hadoop,比如:
Eric Baldeschwiele,雅虎Hadoop软件开发副总裁指出,在去年雅虎已经:
他们在去年的重点是改善Hadoop的map-reduce,这包括:
现在他们的重点是开发Hadoop的分布式文件系统,HDFS:
Baldeschwieler 解释雅虎如何个性化他们的主页:
雅虎Mail以类似的方式使用Hadoop:
因为HDFS有一个单点故障(Name节点),这对高可用性生产系统来说是个风险。为了减轻该风险,雅虎将数据复制到多个群集,因此分布式文件系统 的中断可以使用备份文件系统来弥补和解决。在雅虎的演讲中, 除了自己的Pig项目,他们表示正在使用Hadoop的Hive项目。
Baldeschwieler宣布,雅虎已经发布了Hadoop Security的Beta测试 版,它使用Kerberos进行身份验证,并允许在同一集群托管商业敏感数据。他们还发布了Oozie,一个Hadoop的工作流引擎,这已在雅虎成为事实 上的ETL标准。它集成了MapReduce,HDFS,Pig和Hadoop Security。
总体而言,雅虎展示了其在Hadoop技术的持续领导地位,与此同时他们感到高兴的是,领先的互联网公司和独立技术供应商纷纷加入到了这一生态系统 当中来。
联系客服