预测数据与分析 — 这是什么?为何重要?

了解预测分析如何在数据驱动型企业新时代,帮助组织打造竞争优势。

什么是预测分析?

设想一下,您所掌握的全部数据并未得到充分利用。这不仅是通过标准客户交易生成的数据,还包括从社交媒体、Web、语音文件和图像文档这类非传统来源收集到的数据。今天,您已能够充分利用所有这些数据—无论是结构化还是非结构化数据—来赢得竞争优势。要获取这些洞察的一个关键就在于分析 — 尤其是预测分析。

预测分析是这样一个流程,通过利用您的组织创建和收集到的各类不同数据,来获取有关未来可能发生的结果的洞察。请注意“可能发生”一词。预测分析能够帮助用户基于假设的运行场景,并利用现有数据评估可能性,来预测在合理范围内未来会发生的状况。

预测分析被视为一种高级数据分析技术。 高级数据分析方法不同于传统分析方法,它可以帮助企业展望未来,而非回溯过往。因此不是 “发生了什么?”  而是 “可能会发生什么?” 例如,这部电梯是否还另外需要 50 个小时的维修时间?或者随着您在分析方面的经验和专业知识技能不断积累,甚至我们可以问“应该为此做些什么?” 再或者,更令人兴奋的是,当您精通高级分析知识之后,您会信任自己选择的系统:由系统来分析数据并采取最适合我的业务的措施。

分析技术的部署通常对应一条五阶段的成熟度曲线。传统分析仅包含这条成熟度曲线上的两种分析,高级数据分析则包含其余三种。

接收英特尔针对每周 IT 头条提供的看法。试读英特尔对本周发展概况的看法,然后立即订阅吧。

注册即表示您同意我们的隐私声明使用条款

注册即表示您同意我们的隐私声明使用条款

组织如何从预测分析中受益?

时下,许多企业都渴望从传统商务智能 (BI) 向预测分析这类高级数据分析技术转型。

但预测分析究竟能为您的公司做些什么?

能做很多。您总算可以实时利用快速增长的结构化和非结构化数据,来解答关于人事、定价和库存管理方面的业务问题了,更不用说数据中心正常运行时间和 SLA 这类运营问题了。

两个现实示例:

  •  一家大型医院因为近期规章制度的变更,面临减少患者再次入院的压力,于是构建了一个预测分析模型。该模型考虑到了新数据和不常见的数据(无论是患者贫困、文化水平低下、英语水平有限、在家很难得到社会支持、生活条件差,还是其他原因),并将其与患者的电子医疗记录相结合,从而判断患者是否很有可能再次入院。通过找到目标患者并给予更多的护理,医院显著降低了患者再次入院医治的比例,在避免遭受数百万美元罚款的同时释放出资源来医治更多患者。1
  • 一家大型服装零售商为其产品打上 RFID 标记,然后通过能以近乎实时的方式全面查看库存信息的预测分析模型来跟踪相关数据。生成的模型能预测在其货架上需要添置什么款式和尺寸的商品,以便进店的购物者能找到他们想要的,还有某些特定商品的 “热点” 区域和最佳销售时机。结果不仅门店销量上升,该零售商还能更有效地跟踪和补充库存。

什么是最佳的预测分析基础设施?

每种分析技术都有一套独特的基础设施要求。首先,您要审视自己现有的基础设施。分析您的计算、网络和存储功能有哪里已经老化,阻碍了您的发展。

要进行预测分析,您可能会需要实现基础设施的现代化,以交付所需的性能、安全性以及内存或存储功能。您的基础设施必须足够灵活,才能同时运行商用的和开源的预测分析解决方案,并提供充足的成长空间 — 仅以线性方式增长已然不够,基础设施可能必须以超出正常预期的规模扩展,才能达成您的需求。

基础设施应能够运行多种分析工作负载 — 从实时的、嵌入内存中的 SAP HANA* 或 Oracle* Exadata* 数据库,到流数据分析(Storm*、Flink*)和大数据 Hadoop* 部署。今天,您可能想构建一个 Hadoop* 数据湖,但明天,可能就需要一个单独的 Spark* 环境。您的基础设施必须足够灵活,才能同时做到这两点。

别忘了考虑云环境。如果您的目标是实施大规模预测分析,那么,云计算和云存储功能可以为您扩大基础设施,使您能根据需要实现本地增长和异地增长。对于目前尚不在您计划内的基础设施或平台解决方案,云环境还可帮助加快这类解决方案的部署。

要想实现所有这些目标,请选择符合行业标准的基础设施组件,但千万不要认为这样做就可以一劳永逸。这只不过是最低标准。此外,还需针对预测分析工作负载对您的组件进行测试和优化,例如,不要拘泥于一般的处理器功能,您需要的是您可以进行定制的 FPGA,从而为目标分析工作负载、内存、存储、以太网、互联构件以及专为进行深度学习而优化的各种平台加速。

开放源代码是怎样在预测分析中发挥作用的?

您可以在不评估开源工具的情况下部署预测分析,但这样容易出问题。开源分析社区的覆盖广度和深度都很具规模,该社区有一套高级分析工具明星产品组合,从 Hadoop* 到 Spark* 再到 Hive*,此外还包括很多正在通过全球开源社区进行改进完善的其他品牌产品。 

从表面上看,比起专属分析平台而言,开源预测分析工具能大幅降低部署成本。这使得它们颇受刚刚涉足预测分析领域的公司的青睐。这类工具相当灵活,能为您提供适合多种分析工作负载的大量部署选项。 

然而,正是这一非同一般的灵活性让他们在使用工具时遇到不少困难。如果选择开源方案,您就需要具备相关新兴技能和高级技能的人才,比如数据科学家、数据工程师以及数据分析师。您可以选择招募这样的人才,也可选择培养内部员工,等待他们掌握相关知识技能,但第二种方案相当费时。许多公司最后都选择聘用顾问,这无疑就增加了开源计划的成本。 

有些公司会选择通过开源方式对预测分析系统进行概念验证 (POC) 测试,然后在生产中使用专属解决方案。不过,由于开放源代码给了公司们利用所有结构化数据和非机构化数据的机会,并且支持企业测试各种令人兴奋的新分析概念,因此这种方式逐渐在生产解决方案中发挥出越来越重要的作用。于是,这种情形往往就促成了开源技术与专属技术的融合,能让您针对不同工作挑选最合适的解决方案,然后进行有机组合,实现最佳结果。

在组织内打造预测分析业务案例

阻拦预测分析技术得到采用的最大障碍之一就是评估所提议的活动将会为您的企业创造多大的价值。 

您知道您的 BI 解决方案目前具有重要价值是因为您已经无法离开它。但如果是要您确认预测分析的价值呢?首先,您必须证明构建新的基础设施、招聘专业人才或培养员工技能,以及购买分析平台或工具需要在前期花费多少资金。您必须证明这项投资将可为您的企业创造前瞻性价值,而不是对已经发生的事情进行归纳总结,毕竟传统分析技术在过去十年间就已经能够提供这种总结能力了。 

要确保投资物有所值,首先要遵循的规则是:与企业密切相关。预测分析无法孤立存在。您选择这项技术是为了解决业务问题。请询问您的业务用户,确定可以通过预测分析解决哪些痛点问题。选择一个他们一直设法解决,但目前超出了您现有数据源和分析系统能力的难题。或者选择一个由于数据源为全新,并且没有接受过测试或是属于非结构化数据源,而导致的过去从未考虑过解决的新问题。

第二条规则是从小处着手。预测分析势不可挡。毕竟,这是一个每天都在变化的复杂领域。新解决方案和新工具源源不断地涌入市场(尤其是在开源领域),但所有这些内容彼此之间如何集成目前尚不明确。同时还需考虑到数据安全注意事项。 

问您自己几个基础问题:我究竟想为企业实现怎样的目的?较之传统分析,预测分析将如何为我提供更多见解?我所需的数据是否可用,这些数据能否带来业务竞争优势?预期的 ROI 是什么样的?

与英特尔合作有什么好处

英特尔一直致力于推动技术创新,帮助您借助预测分析技术取得丰硕成果。英特尔® 技术涵盖了基础设施的每一个方面,旨在帮助企业利用预测分析来创造竞争优势。

需要特别指出的是,英特尔为全世界定义了能促进计算、网络和存储技术发展的各类标准,并积极推动这些标准逐步完善。英特尔的创新技术均已针对业内覆盖面最广的预测分析解决方案生态系统进行了测试和优化,支持适用于多种工作负载(无论是在开源平台还是在专属平台上运行)的预测分析型基础设施。由于新的预测分析平台全部基于英特尔架构,因此,您可以在平台上的任何位置执行分析操作,从而使分布式分析技术也能融入到每一项部署当中。

在计算方面,英特尔® 处理器完全能满足各类预测分析需求。该产品组合超出了通用型英特尔® 至强® 处理器的范畴,延伸到多项重要辅助技术领域,比如用来为分析工作负载、内存、存储、以太网和互联构件进行加速的定制型 FPGA。

如果您为了进行预测分析而打造现代化的存储,英特尔技术将为您带来突破性的应用性能,使数据更快地转化为见解。英特尔存储解决方案旨在借助英特尔® 处理器、芯片组、固件、软件和驱动程序实现无缝性能表现与增强的功能,能很好地兼顾速度、低价和性能需求。

英特尔对预测分析的联网也能发挥助力。将数据湖或仓库中的数据移至计算基础设施时如果出现延迟,则会增加实时操作的成本。为了帮助您的组织避免遭遇这类延迟现象,英特尔提供了市面上现有速度最快的架构之一,从而跨不同网络通道为预测分析工作负载加速。

同时要重视的还有安全问题:英特尔硬件和软件安全工具有助于保护访问安全,以及静态数据和移动数据的安全。

点击此处了解更多有关英特尔如何支持贵组织的预测分析战略的内容。