怎么打造高性能大数据分析平台

发布时间：2021-09-14 13:56:48 所属栏目：大数据来源：互联网

导读：大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时，如果大数据分析系统无法在第一时间为运营决策提供关键数据，那么这样的大数据分析系统一文不值。本文将从技术无关的角度讨论一些提高性能的

　　多种技术解决方案的存在是为了处理这种持久（RDBMS，NoSQL的分布式文件系统，如Hadoop和等）。

　　谨慎选择一个能够最大限度的满足需求的解决方案。

　　4. 数据存储中的性能技巧

一旦所有的数据采集步骤完成后，数据将进入持久层。

　　在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构（数据模型）。这些技巧适用于所有的数据处理过程，无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。

　　首先选择数据范式。您对数据的建模方式对性能有直接的影响，例如像数据冗余，磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景，你也许需要保持数据原始的格式，对于另外一些场景，如执行一些分析计算聚集等，你可能不需要将数据范式化。

　　大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。

　　不同的NoSQL数据库适用不同的场景，一部分在select时性能更好，有些是在插入或者更新性能更好。

　　数据库分为行存储和列存储。

　　具体的数据库选型依赖于你的具体需求（例如，你的应用程序的数据库读写比）。

　　同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性?这些设置会直接影响数据库性能。在数据库技术选型前一定要注意。

　　压缩率、缓冲池、超时的大小，和缓存的对于不同的NoSQL数据库来说配置都是不同的，同时对数据库性能的影响也是不一样的。

　　数据Sharding和分区是这些数据库的另一个非常重要的功能。数据Sharding的方式能够对系统的性能产生巨大的影响，所以在数据Sharding和分区时请谨慎选择。

　　并非所有的NoSQL数据库都内置了支持连接，排序，汇总，过滤器，索引等。

　　如果有需要还是建议使用内置的类似功能，因为自己开发的还是不灵。

　　NoSQLs内置了压缩、编解码器和数据移植工具。如果这些可以满足您的部分需求，那么优先选择使用这些内置的功能。这些工具可以执行各种各样的任务，如格式转换、压缩数据等，使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。

　　许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统，分布式文件系统，甚至基于云的存储解决方案。

　　如果在交互式需求上有严格的要求，否则还是尽量尝试使用NoSQL本地（内置）文件系统（例如HBase 使用HDFS）。

　　这是因为，如果使用一些外部文件系统/格式，则需要对数据进行相应的编解码/数据移植。它将在整个读/写过程中增加原本不必要的冗余处理。

　　大数据系统的数据模型一般来说需要根据需求用例来综合设计。与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型，用外键和表之间的关系用来描述数据实体与现实世界之间的交互。

　　在硬件一级，本地RAID模式也许不太适用。请考虑使用SAN存储。

　　5. 数据处理分析中的性能技巧

数据处理和分析是一个大数据系统的核心。像聚合，预测，聚集，和其它这样的逻辑操作都需要在这一步完成。

　　本节讨论一些数据处理性能方面的技巧。需要注意的是大数据系统架构有两个组成部分，实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。

　　在细节评估和数据格式和模型后选择适当的数据处理框架。

　　其中一些框架适用于批量数据处理，而另外一些适用于实时数据处理。

　　同样一些框架使用内存模式，另外一些是基于磁盘io处理模式。

　　有些框架擅长高度并行计算，这样能够大大提高数据效率。

　　基于内存的框架性能明显优于基于磁盘io的框架，但是同时成本也可想而知。

　　概括地说，当务之急是选择一个能够满足需求的框架。否则就有可能既无法满足功能需求也无法满足非功能需求，当然也包括性能需求。

　　一些这些框架将数据划分成较小的块。这些小数据块由各个作业独立处理。协调器管理所有这些独立的子作业?在数据分块是需要当心。

　　该数据快越小，就会产生越多的作业，这样就会增加系统初始化作业和清理作业的负担。

　　如果数据快太大，数据传输可能需要很长时间才能完成。这也可能导致资源利用不均衡，长时间在一台服务器上运行一个大作业，而其他服务器就会等待。

　　不要忘了查看一个任务的作业总数。在必要时调整这个参数。

　　最好实时监控数据块的传输。在本机机型io的效率会更高，这么做也会带来一个副作用就是需要将数据块的冗余参数提高（一般hadoop默认是3份）这样又会反作用使得系统性能下降。

　　此外，实时数据流需要与批量数据处理的结果进行合并。设计系统时尽量减少对其他作业的影响。

　　大多数情况下同一数据集需要经过多次计算。这种情况可能是由于数据抓取等初始步骤就有报错，或者某些业务流程发生变化，值得一提的是旧数据也是如此。设计系统时需要注意这个地方的容错。

　　这意味着你可能需要存储原始数据的时间较长，因此需要更多的存储。

　　数据结果输出后应该保存成用户期望看到的格式。例如，如果最终的结果是用户要求按照每周的时间序列汇总输出，那么你就要将结果以周为单位进行汇总保存。

　　为了达到这个目标，大数据系统的数据库建模就要在满足用例的前提下进行。例如，大数据系统经常会输出一些结构化的数据表，这样在展示输出上就有很大的优势。

　　更常见的是，这可能会这将会让用户感觉到性能问题。例如用户只需要上周的数据汇总结果，如果在数据规模较大的时候按照每周来汇总数据，这样就会大大降低数据处理能力。

　　一些框架提供了大数据查询懒评价功能。在数据没有在其他地方被使用时效果不错。

　　实时监控系统的性能，这样能够帮助你预估作业的完成时间。

　　6. 数据可视化和展示中的性能技巧

精心设计的高性能大数据系统通过对数据的深入分析，能够提供有价值战略指导。这就是可视化的用武之地。良好的可视化帮助用户获取数据的多维度透视视图。

　　需要注意的是传统的BI和报告工具，或用于构建自定义报表系统无法大规模扩展满足大数据系统的可视化需求。同时，许多COTS可视化工具现已上市。

　　本文将不会对这些个别工具如何进行调节，而是聚焦在一些通用的技术，帮助您能打造可视化层。

　　确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。这些总结表可以根据时间短进行汇总，建议使用分类或者用例进行汇总。这么做可以避免直接从可视化层读取整个原始数据。

　　这不仅最大限度地减少数据传输，而且当用户在线查看在报告时还有助于避免性能卡顿问题。

　　重分利用大化可视化工具的缓存。缓存可以对可视化层的整体性能产生非常不错的影响。

　　物化视图是可以提高性能的另一个重要的技术。

　　大部分可视化工具允许通过增加线程数来提高请求响应的速度。如果资源足够、访问量较大那么这是提高系统性能的好办法。

　　尽量提前将数据进行预处理，如果一些数据必须在运行时计算请将运行时计算简化到最小。

　　可视化工具可以按照各种各样的展示方法对应不同的读取策略。其中一些是离线模式、提取模式或者在线连接模式。每种服务模式都是针对不同场景设计的。

　　同样，一些工具可以进行增量数据同步。这最大限度地减少了数据传输，并将整个可视化过程固化下来。

　　保持像图形，图表等使用最小的尺寸。

　　大多数可视化框架和工具的使用可缩放矢量图形（SVG）。使用SVG复杂的布局可能会产生严重的性能影响。

　　7. 数据安全以及对于性能的影响

像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。在本节中，我们讨论一下安全对大数据平台性能的影响。

（编辑：萍乡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页