2019双十一流量大考过关 流计算虽强大但仍存在短板

2019-11-15 09:56:05 深圳资讯网 NEWSSZ.com

实时采集、实时计算、实时查询

刘驰向记者介绍道,流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算和实时查询服务。

首先,后台工作人员会用实时数据集成工具,将数据实时传输到流式数据存储系统。具体过程是,系统将长时间累积的大量数据,平摊到每个计算时间节点,数据会被不停地进行小批量实时传输。此时,数据将会被源源不断地写入流数据存储系统,不需要预先加载的过程。同时,在此过程中,数据是持续流动的,在计算完成后就会被立刻丢弃。

然后,不同于批量计算等待数据集成全部完成后才启动计算作业,流式计算作业是一种常驻计算服务,一旦启动将一直处于等待事件触发的状态,即一有小批量数据进入流式数据存储系统,流计算系统就会立刻计算并得出结果。“同时,部分电商平台的流计算团队,还使用了增量计算模型,将大批量数据分批进行增量计算,进一步减少单次运算规模并有效降低整体运算时延。”刘驰说。

最后,采用数据批处理方式,通常需要等待数据计算结果得出后,才能批量将数据传输到在线系统。而流式处理方式可在每次小批量数据计算工作完成后,就立刻将计算结果写入在线系统。“这样无需等待全部数据计算工作完成,我们就可在流计算数据查询系统中,查询到在线系统的数据处理结果。技术人员也可将实时结果发送给可视化系统,以实现计算结果的实时化展示。”刘驰说。

技术虽强大但仍存在短板

不过,刘驰表示,流计算虽然强大,也存在技术短板。

“如果在系统内存不足的情况下,还要满足多个用户的数据请求,那么每个用户实际被分到的内存就会很少。此时,应用流式处理技术后,由于内存需求量增加,系统会把原来分给多个用户的内存资源,全部分给一个用户。其他需要内存的用户,则会因为没有内存可用,被迫进入等待状态,直到那个占有内存资源用户退出后,其他用户才能使用内存。”刘驰说,同时,实时的计算环境会由于各种各样的原因,比如网络延时等,导致程序到达计算节点的顺序出现变化。

“此外,流计算技术面对的是源源不断涌入的数据,而如果还像批处理那样来计算数据的话,就可能会导致计算根本无法结束,或随着时间的推移需要保存的数据越来越多,给内存造成巨大压力。”刘驰补充道,“数据不断产生,就需要计算持续进行。但计算时间一长,出问题的概率就会大大增加。一旦出现问题,一些在计算过程中缓存下来的数据该被怎么长期保存、怎么恢复就会成为比较大的问题。”

1 2
来源:科技日报 作者:崔 爽 编辑:深圳资讯网
相关资讯
深圳资讯网·网友评论
更多资讯