亚马逊首发Kinesis服务:帮助开发者实时处理海量数据

亚马逊云计算不仅要在今日宣布入华的消息,此外,他们在今年11月公布的流数据服务Kinesis,也在今日公开面世。

流数据处理正越来越受到一些公司的欢迎,作为互联网服务的基础,它已经超越这几年来的传统批处理服务的负载性能。对于企业而言,以往的数据服务需要在一定时间范围内去收集数据,并完成数据的处理,然后才能将数据结果反映出来。而Kinesis的优势就在于,它能够以每小时上千个数据源的近百万兆的数据流为单位量级,实时的收集和处理这些数据。换句话说,第三方再也不用忍受为了新的数据结构而等上几十分钟甚至一个小时。

在Kinesis之前,Storm是这类产品中最流行的工具,在数据被发送到其他地方存储之前,它会像Hadoop(一种分布式系统基础架构)那样先分析有关的历史数据。Twitter在2011年时收购时Backtype捎带着把Storm的创始人Nathan Marz也雇佣过来。很快,Storm就帮助Twitte拥有了即时刷新最新的时间线数据的能力,并同时能够跟踪突发的流行趋势。

与Storm相同的是,Kinesis也能在数据被传输到另一个数据存储点之前,就实时对数据进行处理。不过比Storm更强大的是,Kinesis维持数据处理的时间可以长达24小时,通过软件开发工具和嵌入SDK,每小时自动弹性伸缩处理上百TB的数据。

所以,利用亚马逊的Kinesis,我们可以看到这样一个场景——对于广告平台而言,用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次刷新页面时,就提供给用户新的广告;对于在线电商而言,用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中,立刻修正商品推荐;对于社交网络而言,用户社交图谱的变更和发言等行为,也能快速被反映在他的好友推荐、热门话题提醒上。

总之,Kinesis服务让这个第三方平台,能够在更短的周期内,提供更聪明的服务。

当然,对于第三方平台而言,数据的迁移往往是他们选择服务的门槛,所以Kinesis提供了一个移植数据到Storm的连接器,AWS数据科学主管 Matt Wood称,当Storm用户希望继续使用它来处理数据,他们会让Kinesis对接Storm的服务。

目前,亚马逊是唯一一家提供流数据处理服务的云服务供应商,越来越多的企业需要一个完整的通道用于捕获和处理数据,相信很快便会有更多云服务提供商跟进。

订阅更多文章