《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于Flink框架的TopN堆排序优化算法
基于Flink框架的TopN堆排序优化算法
2020年信息技术与网络安全第2期
关沫,魏碧晴
(沈阳工业大学 信息科学与工程学院,辽宁 沈阳 110870)
摘要: 为了解决大数据TopN排序问题,将传统的堆排序进行优化,阐述了优化后的HeapOptimize方法的处理过程。HeapOptimize方法基于Flink框架来完成TopN作业,可以实时地接收并处理大量的数据,根据单位时间需要处理的数据数量来调整算子的并行度,增加Flink框架的吞吐量,提高处理数据的速度。通过实验测量的数据结果佐证了HeapOptimize方法的优势。
关键词: 大数据 TopN Flink 吞吐量
中图分类号:TP311.13
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2020.02.005
引用格式:关沫,魏碧晴.基于Flink框架的TopN堆排序优化算法[J].信息技术与网络安全,2020,39(2):23-26.
Flinkbased heap ranking optimization algorithm for TopN problem
Guan Mo,Wei Biqing
(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,China)
Abstract: In order to solve the problem of TopN sorting for big data,the traditional heap sorting is optimized.The optimized method is named HeapOptimize,and the calculation process of HeapOptimize method is described.This method is based on Flink framework to complete TopN operations.It can receive and process large amounts of data in real time.It can adjust the parallelism of operators according to the number of data to be processed per unit time,increase the throughput of Flink framework,and improve the speed of data processing.The advantage of HeapOptimize method is confirmed by the data results of experimental measurement.
Key words : big data;TopN;Flink;throughput

0     引言

随着计算机技术和信息科技的快速发展,全球的数据量急剧增长,2015年全球的数据总量达到8.61 ZB,预估2020年全球的数据总量会超过40 ZB。通过移动互联网、社交媒体等服务模式,大数据产业已渗透到人们生活的各个方面,并且数据价值的时效性越来越重要,集群必须以毫秒级的延迟从大规模的数据中提炼有价值的信息。

TopN问题就是从许多的数值选出前N个最大或者最小的数值有序排好,最常见的应用于微博热搜榜、歌曲人气榜、投票选举等。由此可见利用大数据技术和计算机技术能轻松解决传统排序问题。如微博热搜榜,需要实时更新点击量并按其从大到小的顺序排列。而使用流计算框架Flink来解决TopN问题可以满足其实时性和低延迟的要求。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003154





作者信息:

关沫,魏碧晴

(沈阳工业大学 信息科学与工程学院,辽宁 沈阳 110870)


此内容为AET网站原创,未经授权禁止转载。