大数据

背景


分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。

 

另一方面,随着数据量越来越大,关系型数据库开始暴露出一些难以克服的缺点,非关系型数据库,其高可扩展性、高并发性等优势出现了快速发展,一时间市场上出现了大量的key-value 存储系统、文档型数据库等数据库产品。非关系型类型数据库正日渐成为大数据时代下分布式数据库领域的主力。

 

创元大数据解决方案提供基础的分布式文件系统作为存储引擎,YARN作为资源管理框架,组合了一系列Apache 项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,可以在同一个HDFS数据集上动态创建Inceptor交互式分析集群、Map/Reduce批处理集群以及实时流处理集群,提供多部门间资源配额管理、动态资源调配、资源共享的能力,为企业建立一站式数据平台提供有力支持。

 

主要技术资源清单


Technology                

Compay                

Introduce                

Hadoop                

Apache                

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。                

MapReduce                

-                

MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态。如果一个节点保持沉默超过一个预设的时间间隔,主节点(类同Google File System中的主服务器)记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突;当文件被改名的时候,系统可能会把他们复制到任务名以外的另一个名字上去。                

Hive                

-                

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。                

HDFS                

-                

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。                

Pig                

Apache                

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化   Hadoop 的使用.                

 

产品特点


大数据.jpg

 

1、提供多数据源接口对接支持;

2、改善传统数据源访问速度;

3、简化数据库底层繁杂的性能调优过程;

4、通过可视化平台改善数据源操作体验;

5、提供数据库性能监控、数据监控驾驶舱;

6、提供可视化数据挖掘工具,支持多种报表、图表,多维度浏览分析;

7、更多特性等您发现...


© 版权所有 创元网络技术股份有限公司 豫ICP备05021020号-1