掌握数据科学工作流程
这些专门设计的工作站将较大的内存跨度、多个用于连接多台设备的扩展槽以及精心挑选的 CPU 相结合,旨在满足向您这样的基于 Python 的数据科学家和数据分析师的独特需求。
数据科学工作站:具备强大功能
作为数据科学家,您的大部分时间花在整理 CPU 密集型 Python 库和算法中的中大型数据集上,这使大多数工作站不堪重负。
这是因为,您的工作站可能在模型训练方面构建过度,但在内存密集型数据转换方面却构建不足。
如果 Pandas 函数所需的内存超过您的设备或云实例可用内存,通常需要在尝试加载和探索数据时避免内存错误。
NumPy/SciPy 计算速度比上一代更快
线性代数是数字和数据科学的基础。NumPy 和 SciPy 提供的数字计算工具使数据科学家可以通过数字分析和函数以及各种机器学习模型和数学公式开展工作。iBench 是测试 NumPy 和 SciPy 中常用线性代数算法中的 stress 命令(如 dot、det、inv、lu、qr 和 svd)的基准测试。性能以秒为单位进行测试(越低越好)。在最近的 iBench 测试中,与第三代至强 W3275 相比,第四代至强 W3495X 的性能快 25% 至 75%1。
大幅改进数据科学
我们设计了采用英特尔技术的数据科学工作站,能够实现快速、流畅、响应迅捷的数据密集型 AI 和机器学习工作流程。这些工作站采用内存容量高达 8 TB 的双插槽系统以及与工作负载相匹配的 CPU,可以在内存中运行中大型数据集,并节省 AI 开发中最耗时任务的时间。
采用英特尔技术的数据科学工作站推荐
采用英特尔技术的数据科学工作站提供三个平台(移动、主流和专家),采用多种 CPU、内存容量和 PCIe 扩展槽。
面向 32 GB - 64 GB 数据集的移动数据科学平台
为移动 AI 开发和数据可视化提供出色性能。
- 英特尔酷睿 HX 系列,多达 24 核 (8P+16E)。
- 128 GB DDR5 DRAM,适用于所有平台。
- 建议 SKU:
- i9-13950HX(24 核)
- i7-13850HX(20 核)
面向 64 GB - 512 GB 数据集的主流数据科学平台
为中型数据集预处理和分析提供出色的性价比。
- 英特尔 至强 W-2400 处理器,多达 24 核,未锁频。
- 高达 2 TB 的 DDR5 RIDMM。
- 建议 SKU:
- W7-2495X(24 核)
- W5-2465X(16 核)
面向双插槽平台高达 8 TB 的 DDR5 的专家数据科学平台
为处理大型数据集、机器学习和数据分析提供极致性能。
- 英特尔至强 W-3400 处理器,多达 56 核。
- W-3400 系列采用高达 4 TB 的 DDR5 RIDMM,第四代双插槽至强 SP 平台采用高达 8 TB 的 DDR5。
- 单插槽平台的建议 SKU:
- W9-3475X(36 核)
- W7-3455(24 核)
- W5-3425X(16 核)
- 双插槽平台的建议 SKU:
- 6448Y(32 核)
- 6442Y(24 核)
- 6444Y(16 核)
借助英特尔® oneAPI AI 分析工具套件提高运行速度
我们针对英特尔架构优化了 Python 生态系统中最常用的工具,并将其捆绑在英特尔 oneAPI AI 分析工具套件中,从而改善您构建数据科学环境的体验,并提高这些工具的性能。这些嵌入式优化可随时运行,您只需更改少量代码或无需更改代码即可更快完成工作。
常见问题解答
选择数据科学工作站时,需要考虑两个主要因素:您使用最多的工具和技术以及您的数据集大小。
在数据科学框架方面,核数更高并非始终意味着性能更好。如果核数超过 18,NumPy、SciPy 和 scikit-learn 的扩展效果并不好。另一方面,HEAVY.AI(前身为 OmniSci)将占用它能获取的所有内核。
采用英特尔技术的所有数据科学工作站都使用英特尔® 酷睿™、英特尔® 至强® W 和英特尔® 至强® 可扩展处理器,能够在真实世界测试中的数据科学工作负载中提供卓越性能。它们将为您提供一流的处理器家族性能,这使内存容量成为您最重要的选择。
数据科学框架会将内存占用量扩大两倍至三倍。为了满足您的基础内存需求,请检查您的代表性数据集并将其大小乘以三。如果您处理的数据集为 512 GB 或以下,台式机可以为您提供卓越性能。如果您的数据集往往超过 500 GB,您需要内存容量为 1.5 TB 或以上的塔式电脑。
GPU 加速器在深度学习模型训练和大规模深度学习推理方面表现出色。但是,对于大多数数据科学工作(数据预处理、分析和经典机器学习)来说,由于大多数用于数据科学的 Python 库都在 CPU 本地运行,这些 GPU 会被闲置。您需要使用显卡适配器来驱动显示器,而非 GPU 设备。
云无法为您提供最佳性能,除非在专用虚拟机或裸机服务器上运行。云实例以单节点的形式呈现,但后台事务是高度分布式的。您的工作负载和数据会被划分到多个地点的多个服务器。这会产生处理和内存延迟,导致运行时降级。此外,通过远程桌面处理大型数据集和图表并不是理想的体验。
将工作负载和数据保留在本地的单一设备上,可以大幅提升性能并提供更流畅、响应更迅捷的工作体验。
可以运行,但您需要花费大量的时间监控存储、内存和 CPU 之间的数据转移。如果您在专业环境中工作,升级到英特尔® 数据科学笔记本电脑或中端台式机可以节省大量时间。我们专门测试了采用英特尔® 酷睿™ 处理器的数据科学笔记本电脑并制定了规格,使学生、初学者和 AI 开发者都能获得经济实惠的选择,使用开源 AI 工具进行开发和试验。
使用英特尔优化的库和分发版本,您可以在标准电脑上更快地运行基于 Python 的数据科学工具。它们都是免费英特尔 AI 套件的一部分。
公告和免责声明
测试结果基于利用英特尔验证平台在 NumPy/SciPy(Inv,N=25000)中对英特尔至强 w9-3495X 与英特尔® 至强® W-3275 进行的比较
有关详细信息,请参阅 intel.com/performanceindex。结果可能会有所不同。
性能结果基于截至配置中所示日期的测试,并且可能无法反映所有公开的更新。有关配置详细信息,请参见备用材料。请访问 intel.com/PerformanceIndex 了解更多信息。
使用英特尔® Distribution of Modin 实现的 Pandas、scikit-learn 和 TensorFlow 加速。有关详细信息,请参阅 intel.com/content/www/cn/zh/developer/articles/technical/code-changes-boost-pandas-scikit-learn-tensorflow.html#gs.mdyh9o。
© 英特尔公司。英特尔、英特尔标志和其他英特尔标识是英特尔公司或其子公司的商标。文中涉及的其它名称及商标属于各自所有者资产。