机遇与挑战 大数据时代微博如何突破瓶颈

ZOL

    近年来,微博成为了时下最为时髦的互联网应用。它不仅是互联网发展的一个新兴产物,也是社交平台更趋丰富和细化的应用分支。自从 2009 年新浪推出国内首个微博平台以来,微博在国内的发展犹如雨后春笋,遍布大江南北。

    2010 年迎来了国内微博发展的春天,新浪腾讯等门户网站均推出微博业务。自去年以来,微博用户数量获得迅猛增长。今年 5 月份新浪发布的第一财季报告显示,仅新浪微博用户数就已增至 3.24 亿人。而另一个微博巨头——腾讯微博,也呈现出发展迅猛的姿态,微博注册用户也突破 3 亿大关。

    微博获得迅猛发展有着深层次的原因。一方面,微博的内容组成只是由简单的只言片语组成,对用户的技术和文字功底要求较低,而且在语言的编排组织上,也没有博客那么高。另一方面,随着微博的推广,运营商开放 API 使得用户都可以通过手机、平板电脑、PC 等各种终端和系统平台实时更新和追踪微博内容。

    除此之外,最为重要的原因是中国人口基数大,中国网民数量众多,微博的使用人群数量也大,状态信息更新频繁、信息传播迅速。根据中国互联网信息中心的统计,截至 2011 年  12 月底,中国网民数量突破 5 亿,达到 5.13 亿。众多网民的背后,不仅有助于扩充微博用户群体规模,也为广大商家和运营商从微博中获取商机带来了便利。

微博大数据:大商机 大烦恼

    直观、便捷、高效的传播与转发模式,是微博运营商挖掘商机的潜在动力。每一个微博注册用户,既是用户者同时也是消费者。美国财经网站 CNNMoney 曾撰文指出,Facebook 每名用户每个季度能给其贡献 1.21 美元的营收,在这个微博火热的时代,谁抢占了微博的先机,谁就会在激烈的竞争中更脱颖而出。

    随着用户的增加,微博将会逐步实现商业化。其核心是为用户提供增值服务,利用广告对应的页面吸引粉丝互动,对品牌和产品进行推广,帮助微博运营商实现盈利;另一方面,国内外已经出现很多专业数据挖掘和分析机构,利用微博平台收集海量数据,对微博用户的言论和兴趣爱好进行分析,从微博“大数据”中挖掘商业价值。

    然而,由于微博用户、微博内容及其复杂性的持续增加,要想实现高效、快速的从海量微博内容中挖掘有价值的信息,并从中提炼出具有商业价值的决策分析数据,对于任何一个数据挖掘的企业或者微博运营商来说都面临着极大的挑战。

    新浪微博平台首席架构师杨卫华表示,一方面,微博运营商需要提供高效、可靠、稳定的微博平台,支撑不断增长的微博用户和微博内容,尤其是音视频等海量非结构化数据带来的高访问量需求;另一方面,要有符合开放、易用而又支持定制化、可轻松扩展的数据挖掘平台,充分利用已有的硬件平台,支撑高效灵活的数据挖掘和分享应用。

精“芯”构建数据挖掘平台

    微博面临的诸多挑战,其实也见证了大数据应用下的常见困境。微博运营商需要搭建起能够支撑不断增长的用户访问需求,并提供开放、可支持定制化的 API,为运营商和第三方实现微博数据价值挖掘奠定基础。

    新浪微博平台首席架构师杨卫华就曾表示,很多突发事件的访问峰值,会给微博运营商带来严峻挑战。“(除此之外)我们还要关注怎么样打造一个高性能架构。”杨卫华接着表示。这些问题的本质其实是架构需要考虑高访问量、海量数据下的易于扩展、低延迟、高可用和异地分布的问题。新浪微博每天有数十亿外部网页和 API 接口访问需求。高性能系统要具备低延迟、高实时性的特点。微博的核心价值就在于实现高实时性,而实时性的核心就是尽可能让数据邻近 CPU,避免出现磁盘 IO 问题。

    新浪研发部平台架构高级总监童剑也告诉记者,现在新浪微博的服务器群组,在晚上高峰期,每秒要接受 100 万以上的响应请求,压力巨大。新浪也在不断寻找性能更强的服务器来满足他们的需求。为此,新浪微博从推出伊始就与英特尔建立起了广泛的合作关系。得益于得天独厚的优势,英特尔至强平台能够提供显著的性能优势,即时响应数百万访问请求和微博消息队列处理。在此基础上,一方面 x86 架构能够提供更具性价比的解决方案,能够适应和满足新浪微博推出初期未能带来盈利的问题,并支撑微博的持续发展和业务扩充;另一方面,开放性架构有助于新浪微博推广和开放 API,让更多第三方依托微博平台开发出微博数据挖掘等应用。其开放性也体现在可以更好的兼容并支持微博程序代码的优化,满足更高的资源整合和性能要求。

    新浪微博平台上的风云榜、微数据、微报告,以及餐客等第三方微博数据挖掘,就是基于微博内容对海量数据进行挖掘和价值提炼的典型应用。在基于英特尔架构的基础上,新浪还特别重视软件层面的大数据解决方案。

    根据杨卫华的介绍,目前新浪微博主要采用 2 种方法来处理海量数据,分别是传统的关系型数据库和 NoSQL。在关系数据库中,可以通过 sharding 将数据分散至多台服务器上,并针对不同时间段的热门微博内容或者关键词,通过时间分片进行 sharding。比如针对微博热词或者微博账号影响力按照一定规则进行排序,提供风云榜排名,也可支持微博用户鉴定自我影响力和了解当前热门话题。NoSQL 属于非关系型数据库,同时也是 Hadoop 框架中的 HBase 子模块,能够搭建起应对微博海量数据的解决方案。对于音视频、投票排名等非结构化数据,可以通过对微博数据按行业类别进行挖掘、分析和处理,并将处理结果形成微报告,指导运营工作。而开放 API 的新浪微博,也可以为第三方开发内容更为丰富的微博数据挖掘应用提供外部接口。不远的未来,新浪微博将升级系统,直接采用能够与现有架构实现完美支持、并将性能发挥至极致的英特尔 Hadoop 发行版,实现大数据完整解决方案。

    英特尔 Hadoop 发行版,专门针对英特尔架构平台进行了一系列优化,能获得比非英特尔发行版 Hadoop 的性能实现成倍增长,使其处理能力达到或者接近于实时的效果,同时可确保更好的稳定性。英特尔 Hadoop Manager 2.0 可帮助管理员简化 Hadoop 的部署和管理工作,提高效率。这些,让已经部署了英特尔硬件平台的新浪微博看到了希望,精“芯”构筑的软硬一体数据挖掘平台,为开放 API 给第三方提供更多微博数据挖掘提供更好支持。

总结:

    大数据,既是一种机遇也是一种挑战。作为国内最大的微博平台,新浪微博在应对不断增长的微博用户和数据内容带来的挑战的同时,也需要特别抓住微博带来的巨大商业价值。基于英特尔平台的底层架构和英特尔 Hadoop 发行版分布式处理系统,可以帮助提供可靠、高效而又易于扩展的微博平台。在实现新浪微博通过微博数据进行挖掘,满足微博用户个性化应用体验的同时,也可以满足第三方挖掘微博数据价值为企业提供决策参考的需求。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。