数据,越大越淘越开心

CIOI

    最近两三年,对数据进行有效的分布式存储和处理的优势越来越明晰,运用这一方式来直面大数据时代需求的企业和研究机构也越来越多,面对数据的 TB 级增长,是否能越大越开心?

文/田鸽

    “我们对大数据的关注集中在两个层面,技术层面与销售层面,即怎样通过一套技术架构对大数据进行处理,以及如何真正利用数据提高销售额,为企业增值。”淘宝网技术共享平台核心系统研发专家组资深产品经理何燕锋介绍说。只有通过有力的技术架构,从存储、处理、深度分析方面用好数据,才能实现数据的企业价值。

数据之大

    大数据的“大”对于淘宝来说,是对其用户,即买家和卖家两者有关的全程信息保存,这包括用户浏览的网页,以及购买的商品、购买的地理位置、交易额以及卖家涉及的信息。这些数据均需要得到有效保留,每日新增的数据达到 20TB 以上。而这仅仅占据每日需要保存的数量的 0.5%。至 2011 年底,淘宝网单日独立访客量最高超过 1.2 亿人,比上一年同期增长 120%,其中在 12 月 12 日凌晨第一个小时,淘宝就成交了 278 万笔,交易额突破 4.75 亿。由此可以试想淘宝所拥有的庞大数据量。

    从淘宝目前用户的增长趋势来看,淘宝渐渐将业务已经从中国大陆向中国港澳台地区和国外延伸—覆盖面大;随着电子商务的逐渐发展,网购年龄的跨度也在从青年向中老年发展。此外从阿里巴巴集团角度来分析,旗下拥有的阿里巴巴、支付宝、淘宝、阿里金融等业务部门,其内部数据也面临资源共享与数据互通的挑战。一旦各个业务组织单元的数据相互整合,淘宝网技术共享平台核心系统研发专家组资深产品经理何燕锋说“通过这样的大数据平台,可以分析出整个消费领域产品整体的发展脉络。”

    对于淘宝的来说,无论是自身成长还是作为集团一个重要的组成部分来看,对于“大数据”如何挖掘、分析和运用这些数据,并和全社会分享,已经放在了越来越重要的地位。

不断创新的应用

    淘宝针对目前海量数据,进行了相应的创新尝试。他们对这些数据提供了在线应用,并且建立索引,保证如此庞大的数据随时可用。“数据魔方”和“量子恒道统计”,两个业务产品就是目前淘宝向其用户提供的两种不同类别的大数据服务。它们通过对数据进行分析挖掘,为用户提供有深度有价值的数据报告。商家、企业及消费者可以通过这些应用分享来自淘宝全网的海量数据及分析。

    “数据魔方”,是一个基于数据的开放平台,提供面向卖家的推荐系统技术产品,向全球开放了淘宝的宏观交易数据,这其中主要针对淘宝卖家等企业以及咨询公司和投资商。“数据魔方”可以展现市场整体行情、买家规模、商品特征、排行,为店铺数据化运营、市场行业研究提供辅助。

    “量子恒道统计”,可以向市场提供大量收集、统计过的数据产品和相关的定制化讲解,辅助店铺的流量分析,为卖家提供“过滤掌柜 ID ”等工具类产品,提供多种流量来源及有效的数据分析服务。

    通过利用云存储的数据存储、利用,将整个集团层面的数据连接,使支付宝、淘宝、阿里金融、B2B 的数据打通,借助新的应用产品对数据进行挖掘。

强有力的帮助

    淘宝网技术共享平台核心系统研发专家组资深产品经理何燕锋将各种与业务相关的创新工作,称为“科研项目”,当这些项目经历了测试、论证之后则会在淘宝的实际业务中进行开展。正是这样的一个模式,对于何燕锋来说如果能够得到相应 IT 合作伙伴的支持,会使他的“科研项目”开展得更为顺利。

    “英特尔针对我们的需求,会提供相应的资源支持。” 何燕锋说到,对他来说英特尔毕竟是作为一个底层架构和平台的合作伙伴。理论上这种伙伴的角色与企业业务直接接触的机会并不是很多。但是,英特尔在针对何燕锋所提出的各种“科研项目”中,均会给予专人、专项的支持。期间在大数据分析过程中,何燕锋希望针对服务器能耗优化以及 I/O 处理速度等方面进行优化。

    在这个过程中,英特尔提供了基于至强架构的多种品牌服务器的设备资源,并对具体的技术问题进行了有针对性地服务支持。在这种合作模式下,何燕锋所提出的诸多需求得以解决。

    大数据应用需求对于淘宝来说日益迫切。“面对一个用户提出的数据分析需求,我们就要在这几十上百亿的数据中进行一系列的操作,从存储,到处理、深度策略分析,最后形成一条曲线,一份报告。”何燕锋说到。英特尔提供的不仅仅是基于至强架构的服务器产品,更多的是在用户 IT 进程中给予辅助。尽管通常离终端用户较远,但是英特尔却能够直面用户需求,站在用户的角度提供服务。何燕锋介绍说:“如果可以为我们提供专业化、个性化的架构开发、调整,我们就更愿意选择加载这些优化服务的设备。”利用专业的技术优势,才能真正帮助企业顺利开展各类开发项目。

    这对于数据的处理来说,针对海量数据、复杂模式使用图形化的手段,发现数据中隐藏的规律、趋势及异常,结合交互手段,就必须要有一套清晰完整的处理逻辑。在不断摸索、开拓过程中会,用户会面对不同纬度的挑战,如果能够得到合作伙伴专业的技术支持、辅助,将会使企业用户在大数据应用领域实现事半功倍的效果。英特尔针对淘宝的响应支持,对于何燕锋未来开展其他的创新项目也会起到不小的帮助。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。