Hadoop 执行摘要 Executive Summary

Hadoop 执行摘要 Executive Summary

By LaertesCTB

Hadoop大数据的业界标准 de facto standard, HBase 是Hadoop 的大数据库。

   

Hadoop 的优势

Hadoop 是大数据平台,提供分布式大数据存储和分析工具

Hadoop 是主流的大数据存储和分析平台。许多成功的公司都在使用它做强大的分析。 Hadoop 提供了两个重要的服务:它能够存储任何类型任何来源任何大小的数据,提供完整的大数据工具集,让用户方便快捷地分析大数据。

   

Hadoop 几个关键的优势:

Extremely Cost Effective 极具成本效益地处理大数据   Hadoop 使用业界标准的硬件,这意味着每 TB 的成本远远低于其他系统。 Hadoop 有效地利用磁盘空间,支持可插拔压缩算法,添加或移除存储容量也很简单。

Use with confidence 放心使用  Hadoop 和 HBase 的用户群体是全球性的和多样化的。用户来自许多行业,包括社交网络,媒体,金融服务,电信,零售,医疗保健和其他(有关详细信息,请阅读: Who uses HBase and Hadoop).

Proven at scale 规模证明  今天您可能没有以 PB 计的数据,不过,你可以安心部署 Hadoop,因为世界上最大的互联网公司的成功实施 (像 Facebook,雅虎以及其他公司运行大型 Hadoop 的实例),证明 Hadoop 能够支持业务增长。

High Availability 高可用性 Hadoop 2.x 提供高可用性,无单点故障的多主多冗余 模型。

Big Data Random Access and Flexible Secondary Indexes 大数据的随机存取和灵活的辅助索引  HBase 是 Hadoop 的大数据库,内置负载均衡,自动版本,自动故障转移和内置可扩展性。这是一个强一致的数据库,并提供随机存取您的大数据。

Store anything and NO information is lost  存储任何东西,没有信息丢失  Hadoop 以数据的其原生格式存储,不强制转型,因此没有信息丢失。下游分析高保真无损耗。

   
   

Hadoop 产品系列 - 大数据分析的完整的工具集

Hadoop 提供分布式运算处理大型数据集,它的产品库提供完整的工具集来分析大数据,包括:

  • Hadoop Common: 常用的工具
  • Hadoop Distributed File System (HDFS): 一个分布式文件系统,提供了高吞吐量数据存储 
  • Hadoop MapReduce: 大型数据集的并行处理系统
  • Hadoop YARN:作业调度和集群资源管理的框架
  • Hive, Hadoop 的数据仓库,方便简单的数据汇总,即席查询和分析大型数据集
  • HBase, Hadoop的数据库,高容错,内置可扩展性,内置负载均衡,自动故障转移和自动版本
  • Pig  并行数据流的引擎, MapReduce程序的自动生成器
  • Ozzie, 一个可扩展的可靠的工作流调度系统
  • Mahout, Hadoop的功能强大的机器学习库
  • Sqoop,  数据库数据迁移工具
   
   

Hadoop 应用

简单的数字摘要,平均值,最小值,总和 - 只足够处理 20世纪80年代和90年代 的业务问题。今时今日大量复杂的数据需要新的技术 : 从认识到顾客喜好,购买历史记录的分析,仔细检查浏览行为和产品查看,网站上的意见和评论,客户支持人员的投诉和提出的问题,行为的预测,需求分组,客户自己的喜好,一个个体在群体中的行为,预测他人的行为,涉及的算法包括自然语言处理,模式识别,机器学习等。这些技术都是大数据用。

Hadoop 应用如下 (但不限于):

  • Archive platform 大图片库,大文档库
  • Natural Language processing 自然语言处理
  • Recommendation Engine 推荐引擎 - 企业如何能预测顾客的喜好呢?
  • Customer Churn Analysis 客户流失分析 - 如何赢得更多的客户,并避免真的失去客户?先进的数据挖掘
  • AD Targeting 广告定位 - 企业如何才能提高作战效能?营销自动化,商业智能
  • Point-of-sales Transaction Analysis 销售点交易分析
  • Analyzing Network Data to Predict - 网络数据分析预测 -
  • Threat Analysis 威胁分析 - 企业如何才能检测到的威胁和欺诈活动?
  • Trade Surveillance 贸易管制 - 检测流氓交易?
  • Search Quality 搜索质量 - 你在搜索什么呢?
  • Data Sandbox 数据沙箱 / 数据测试实验室
  • GIS - 3D 地图,空间应用
  • Real-time Customer Segmentation 实时客户细分 - 市场分析
   

当您需要随机实时读/写访问大数据,您可以考虑 Hadoop。

如果您有任何疑问,请随时  与我们联系.

PostgreSQL, Open Source, database, Oracle, SQLServer, MYSQL