科技食谱

Netflix如何使数据具有成本效益

公司和公共机构越来越多地采用AWS等云服务作为自己的数据库。但是,使用这些云服务的成本绝不便宜。 Netflix如何管理云中的大量数据,从而降低其基于数据的运营成本并提高成本效益?

预算上限和严格的支出限制通常是管理数据驱动成本的一种方法。但是在拥有高度分散的数据库并重视自由和责任感的Netflix上,这是反文化的,效率低下。为了提高数据驱动的成本效益,Netflix开发了一个仪表板,该仪表板将这些信息组织起来以使成本透明化,并将有关成本效益的信息尽可能地靠近决策者。

Netflix处理的数据有两种类型:静态数据和动态数据。静态数据是指存储在AWS S3,Cassandra和Elasticsearch中的数据。动态数据是由Keystone或Flink处理的数据。

由于这些数据由不同的团队保存,因此,为了逐个团队计算成本,必须在各个平台上汇总成本,并分解有意义的资源单位(例如资源)的成本。表或索引。这是Netflix为实现此分解功能而构建的系统。

首先,AMS检索AWS使用费和S3库存元数据。 S3库存提供了输出存储在S3中的对象元数据的服务。在Netflix内部,Atlas是一个监视诸如NDC(Netflix数据目录)之类的指标的系统,该系统提供与数据和成本相关的元数据,涵盖所有Netflix的数据资源,动态数据服务API的信息,CPU使用率或网络吞吐量。地图集),它检索信息,计算成本效益并将其显示在仪表板上。

AWS使用费是针对每个平台的,例如EC2和S3,因此每个团队都需要为该平台分配成本以了解成本。对于基于EC2的平台,首先确定瓶颈指标,例如平台上的CPU利用率或内存利用率。此后,通过图集计算数据识别的比率,并根据该比率确定分配标准。基于S3的平台使用S3库存来根据S3存储占用的数据量分配成本。

实际显示数据的仪表板采用Druid作为后端,并按使用对成本进行分组。例如,您可以按组织单位查看成本或以支持单位显示成本。还有一个仪表板可以按时间序列显示成本。此类仪表板主要用于工程师和数据科学团队。

除了通过仪表板可视化成本外,Netflix还可以简化数据使用方式。 Netflix的大数据仓库允许所有者自由设置有效期限,但是无法设置最佳的有效期限。为了改善这种情况,我们开发了一种系统,该系统可以自动计算出设置存储的最佳到期日期。

S3中最昂贵的东西是每日更新的交易表。首先,使用S3访问日志(系统Metacat)收集数据仓库元数据,以检查何时可以访问哪个分区。然后,通过分析过去180天的访问条件中再次访问所花费的最长时间,来设置最佳有效期。它还为数据所有者提供了一个仪表板,可显示建议的到期时间,当前设置的到期日期和节省额。

除了该仪表板和到期日期建议系统之外,我们还正在构建一个系统,该系统可通知使用工程师数据的成本增加。据说这样的系统能够将数据仓库的存储使用量减少10%以上。作为未来的任务,Netflix正计划通过在组织和所有者变更时保持数据连续性以及在发生数据问题时保持状态持久性来提高数据使用效率。相关信息可以在这里找到。

lswcap

lswcap

通过每月的AHC PC和HowPC杂志时代,他在网络IT媒体上观看了“技术时代”,如ZDNet,电子报互联网经理,Consumer Journal Ivers的编辑,TechHolic出版商和Venture Square的编辑。 我很好奇这个仍然充满活力的市场。

Add comment

Follow us

Don't be shy, get in touch. We love meeting interesting people and making new friends.

Most discussed

%d 블로거가 이것을 좋아합니다: