nasdaq-200x70

纳斯达克使用 AWS 率先在云中存储股票交易所数据

2020

纳斯达克是一家跨国金融服务和技术公司,拥有并运营纳斯达克股票交易所。纳斯达克总共运营 27 个市场、一家中央证券存管机构和清算所,涵盖北美和欧洲的各种资产类别。全球市场近 4,000 家公司在这里挂牌上市,并且纳斯达克为 50 个国家/地区的其他市场基础设施运营商提供任务关键型技术。

纳斯达克证券交易所是全球交易量最大的股票特许经营企业,它以高成交量和高速度管理买卖双方的匹配,同时为电子化交易中的股票报价提供数据。纳斯达克依赖一个内部应用程序来捕获和存储所有受保护的交易所数据。“这些数据包括订单、报价、交易和取消,”纳斯达克软件工程部副总裁 Robert Hunt 说。每天晚上,纳斯达克都会收到数十亿条记录,这些记录需要在第二天早上开市前载入计费和报告流程。

随着自动交易平台进入市场,交易的速度和数量都在增长。2014 年,为了扩大规模、提高性能并降低运营成本,纳斯达克从一个传统的本地数据仓库迁移到一个由 Amazon Redshift 集群支持的 Amazon Web Services (AWS) 数据仓库。2014 年至 2018 年,随着亚马逊扩展解决方案以支持其所有北美市场,该 Amazon Redshift 集群增至 70 个节点。到 2018 年,该解决方案每晚从数千个来源接收金融市场数据,总共有 300 亿至 550 亿条记录,大小超过 4TB。

随着时间的推移,数据的增长导致数据分析管理方法发生了改变。针对仓库运行的通宵批处理在处理大量数据以满足严格的截止日期方面造成了挑战。用户依靠这些数据来完成计费、报告和监督。“当 2018 年初市场波动加剧时,数据仓库的数据量大幅增长,在 2018 年达到每日 550 亿条记录的峰值,”Hunt 说。

更加复杂的交易行为导致了数据的大量增长,纳斯达克开始计划发展一个新的架构,以继续实现生态系统所期望的性能标准和卓越运营,这一点至关重要。“从收市到第二天早上,我们必须在这段时间内加载和使用 300 亿条记录。数据加载延迟了报告的交付,”Hunt 说。“我们需要能够非常快速地将数据写入或加载到数据存储解决方案中,同时又不干扰对数据的读取和查询。”

纳斯达克将其日益增长的数据仓库迁移到更现代化的数据湖架构中 (2:25)
kr_quotemark

凭借 Amazon S3 和 Amazon Redshift 的灵活性和可扩展性,我们每天能够处理的记录数量可以轻松地从 300 亿条跃升至 700 亿条。”

纳斯达克软件工程部副总裁
Robert Hunt

使用 AWS 服务实现灵活性、可扩展性和高性能

2018 年,纳斯达克选择在 Amazon Simple Storage Service (Amazon S3) 上建立新数据湖的基础,这使该公司能够将计算和存储分开,并独立扩展每个功能。在传统的数据仓库部署中,扩展存储容量往往需要公司同时扩展计算容量,因为应用程序和存储紧密联系在一起,对两者的比率进行任何更改都需要在现场进行硬件修改。“除了计算和存储分离带来的灵活性外,Amazon S3 在同时写入和读取大型数据集方面也具有更好的扩展特性,”Hunt 说。“Amazon S3 为我们提供了一种解决方案,可在数据加载和查询过程之间实现零争用。”

通过集成 Amazon Identity and Access Management (Amazon IAM) 策略,Amazon S3 还提供跨多个 AWS 账户的全面访问控制。此外,纳斯达克使用 Amazon S3 来存储关键的财务数据,并将其移至 Amazon S3 Glacier,在那里可以用较低的成本进行存档。该公司依靠 Amazon S3 Object Lock 功能进一步实现合规性。
 
2019 年 1 月,纳斯达克参加了 Amazon Data Lab,在那里与 AWS 解决方案架构师和分析服务专家合作,他们提供规范性的架构指导,重新思考纳斯达克如何实施数据仓库。在为期四天的实验中,纳斯达克使用 Amazon Redshift 作为计算层,重新设计了其提供分析的方式。因此,纳斯达克开始使用 Amazon Redshift Spectrum,这是一项支持湖仓一体架构的功能,可以查询数据仓库和 Amazon S3 数据湖中的数据。“我们将把来自内部运营的交易所的所有数据都放到 Amazon S3 和 Amazon Redshift Spectrum 中,”Hunt 说。“其中包括订单、取消、报价和交易。它们将转变成消息并在 Amazon S3 中存档,这些消息将推动我们下游计费和报告监督流程。”
 
新的数据湖在 Amazon S3 上包含 15 TB 的数据,纳斯达克在将数据写入 Amazon S3 后可以立即就地查询,而无需加载数据。如此一来,见解生成时间缩至最短,使纳斯达克经济研究团队能够进行数据分析并对数据运行复杂的查询。此外,该公司的监督业务团队在收到美国证券交易委员会 (SEC) 的询问后,将对数据湖进行查询。

起初是以性能为重点的解决方案,现在变成了团队间共享的多用途数据湖,从而为业务创造额外效益。

扩展到支持每天 700 亿条记录

随着计算和存储的独立扩展,纳斯达克现在可以灵活运用其计算层来支持交易量,在 Amazon S3 存储上构建的数据湖可以轻松支持数量和复杂性持续增加的数据。例如,2020 年 2 月下旬,新冠肺炎疫情伊始,市场波动加剧,该解决方案规模扩大,每天可接收 700 亿条记录 — 峰值为 1130 亿条记录。
 
“凭借 Amazon S3 和 Amazon Redshift 的灵活性和可扩展性,我们每天能够处理的记录数量可以轻松地从 300 亿条跃升至 700 亿条,”Hunt 说。“我们能够跟上数据量激增的速度,并建立了必要的计费、报告和监督流程,以支持我们对市场的义务。” 此外,纳斯达克还可以轻松快速地缩减其环境规模,以确保当市场再次调整时不会出现闲置产能。

为报告加载市场数据的速度加快了 5 小时

借助基于 Amazon S3 和 Amazon Redshift 的新型湖仓一体架构,纳斯达克比以前提前 5 小时达到 90% 的数据加载完成率。此外,通过优化其数据仓库,该公司运行 Amazon Redshift 查询的速度加快了 32%。“这些改进帮助我们加快了计费和报告流程,”Hunt 说。“例如,我们在收市后的一两个小时内就完成了数据接收,让我们在计费和报告方面有了先发优势。这对我们应对最近出现的业务量激增非常有帮助,同时也有助于我们满足或超出内部客户的最后期限要求。”
 
随着时间的推移,Amazon S3 和 Amazon Redshift 数据湖使纳斯达克的转型成为可能。“我们可以自由地专注于我们的行业专业知识,助力纳斯达克创新,同时依靠 AWS 提供云专业知识,”Hunt 说。“展望未来,我们将继续根据市场需求来利用新的 AWS 服务和技术。”

纳斯达克简介

纳斯达克是一家跨国金融服务公司,成立于 1971 年,总部位于纽约市,拥有并运营纳斯达克股票市场和 8 家欧洲股票交易所。全球 50 个国家/地区近 4,000 家公司在这里挂牌上市。

AWS 的优势

  • 每天接收 700 亿条记录
  • 加载金融市场数据的速度加快了 5 小时
  • 运行 Amazon Redshift 查询的速度加快了 32%
  • 通过共享数据实现业务转型
  • 以更多的使用案例刺激创新


使用的 AWS 服务

Amazon Simple Storage Service

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

了解详情 »

Amazon Redshift

Amazon Redshift 为您提供最好的高性能数据仓库,具有无限的数据湖存储灵活性和可扩展性。

了解详情 »

Amazon Identity and Access Management

Amazon Identity and Access Management (IAM) 使您能够安全地管理对 AWS 服务和资源的访问。

了解详情 »

Amazon S3 Glacier

Amazon S3 Glacier 和 S3 Glacier Deep Archive 是安全、持久且成本极低的 Amazon S3 云存储类,适用于数据存档和长期备份。

了解详情 »


开始使用

无论行业无论规模,每天都有的公司在使用 AWS 实现业务运维转型。联系我们的专家,立即踏上您的 AWS 云之旅。