管理进化

大数据平台是什么


大数据平台是为了计算现今社会所产生的越来越大的数据量,以存储、运算、展现作为目的的平台。它是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。

一、 大数据平台的功能

①   容纳海量数据:利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。

②   速度快:结合列式数据库架构和使用大规模并行处理技术,不仅能够大幅提高性能,还可以实现更低且更透明的定价机制。

③   兼容传统工具:确保平台已经过认证,可以兼容传统工具。

④   利用Hadoop:Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。

⑤   为数据科学家提供支持:数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。

⑥   提供数据分析功能:确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。

二、 大数据的具体应用

①   精准化定制:第一种是个性化产品,比如智能化的搜索引擎搜索同样的内容,每个人的结果都不同,或者是一些定制化的新闻服务,或者是网游等。第二种是精准营销,现在已经比较常见的互联网营销,网页的推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。

②   预测类应用:第一类是支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。第二类是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备实施的运营维护,公共安全,以及金融行业的信用风险管理等。第三类是实时优化类的,比如智能线路规划,实时定价等。

三、 如何搭建大数据平台

一般性步骤:

1、Linux系统安装

2、分布式计算平台/组件安装:当前分布式系统的大多使用的是Hadoop系列开源系统

3、数据导入:数据导入的工具是Sqoop

4、数据分析:数据分析一般包括两个阶段:数据预处理和数据建模分析。数据预处理这个过程可能会用到Hive SQL,Spark QL和Impala。数据建模分析最好用的是Spark

5、结果可视化及输出API:可视化一般式对结果或部分原始数据做展示

智齿客服