掌握数据科学工作流程

这些专门设计的工作站将较大的内存跨度、多个用于连接多台设备的扩展槽以及精心挑选的 CPU 相结合,旨在满足向您这样的基于 Python 的数据科学家和数据分析师的独特需求。

常见问题解答

选择数据科学工作站时,需要考虑两个主要因素:您使用最多的工具和技术以及您的数据集大小。

在数据科学框架方面,核数更高并非始终意味着性能更好。如果核数超过 18,NumPy、SciPy 和 scikit-learn 的扩展效果并不好。另一方面,HEAVY.AI(前身为 OmniSci)将占用它能获取的所有内核。

采用英特尔技术的所有数据科学工作站都使用英特尔® 酷睿™、英特尔® 至强® W 和英特尔® 至强® 可扩展处理器,能够在真实世界测试中的数据科学工作负载中提供卓越性能。它们将为您提供一流的处理器家族性能,这使内存容量成为您最重要的选择。

数据科学框架会将内存占用量扩大两倍至三倍。为了满足您的基础内存需求,请检查您的代表性数据集并将其大小乘以三。如果您处理的数据集为 512 GB 或以下,台式机可以为您提供卓越性能。如果您的数据集往往超过 500 GB,您需要内存容量为 1.5 TB 或以上的塔式电脑。

GPU 加速器在深度学习模型训练和大规模深度学习推理方面表现出色。但是,对于大多数数据科学工作(数据预处理、分析和经典机器学习)来说,由于大多数用于数据科学的 Python 库都在 CPU 本地运行,这些 GPU 会被闲置。您需要使用显卡适配器来驱动显示器,而非 GPU 设备。

云无法为您提供最佳性能,除非在专用虚拟机或裸机服务器上运行。云实例以单节点的形式呈现,但后台事务是高度分布式的。您的工作负载和数据会被划分到多个地点的多个服务器。这会产生处理和内存延迟,导致运行时降级。此外,通过远程桌面处理大型数据集和图表并不是理想的体验。

将工作负载和数据保留在本地的单一设备上,可以大幅提升性能并提供更流畅、响应更迅捷的工作体验。

可以运行,但您需要花费大量的时间监控存储、内存和 CPU 之间的数据转移。如果您在专业环境中工作,升级到英特尔® 数据科学笔记本电脑或中端台式机可以节省大量时间。我们专门测试了采用英特尔® 酷睿™ 处理器的数据科学笔记本电脑并制定了规格,使学生、初学者和 AI 开发者都能获得经济实惠的选择,使用开源 AI 工具进行开发和试验。

使用英特尔优化的库和分发版本,您可以在标准电脑上更快地运行基于 Python 的数据科学工具。它们都是免费英特尔 AI 套件的一部分。