盛大游戏G云2.0的基石—MegaBric智能集群存储

2018-4-4 9:43:44 新闻来源:中国消费网

     传统架构无法满足G云2.0存储需求

    随着云计算和大数据技术的迅猛发展,应用程序的交付方式发生改变,系统的计算系功能大大提高,数据规模呈指数级增长,传统存储的局限性被无限放大。尤其在游戏行业,新开服瞬时的并发压力、数据库高I/O负载、虚拟化中存储QoS、多类型存储的管理问题、无法在线热升级等均成为存储的核心挑战。

    2017年盛大游戏在“精品研发、全球发行、IP管理和新文化产业生态“四大战略的推动下,游戏业务营收再创新高。游戏业务的持续推进产生了海量数据,同时也对底层存储架构的高效性、可扩展性及智能性提出了更高的要求。因此,盛大游戏在G云2.0建设之初,针对多年游戏行业运营特点,对存储选型提出以下要求:

    ·多存储类型:需要同时考虑支持多种存储类型,比如块存储、文件存储、对象存储等,不同的存储类型需要能够统一部署统一管理;

    ·易管理:需要考虑多存储集群的支持,超融合以及独立存储资源池的统一管理,以及存储的硬件、卷的健康度监控,需要有完善的通知告警功能;

    高性能:需要考虑不同虚拟机之间的访问以及性能隔离

    高可靠性:需要稳定可靠采用全冗余架构,能够应对服务器故障、磁盘故障、机架故障、网络故障等,拥有快速恢复能力,保证数据不丢失,能够支持在线更换故障硬件,从而保障整个网络 7 x 24小时高可靠性要求;

    灵活扩展性:需要支持利旧服务器。支持不同品牌、不同规格的硬件服务器,支持在线的存储扩容以及缩容,并且要求对现网业务没有影响。

    软件定义存储,颠覆传统架构

    作为整个混合云的基础,传统的存储方式已经不能满足游戏行业性能和业务等多方面的诉求。盛大游戏在G云2.0在建设之初,即测试对比了Ceph、GlusterFS等主流开源文件系统,但都不尽如意,经过长时间严格的选型对比测试,最终选择思华自研分布式存储——MegaBric。

    MegaBric基于标准x86架构,独立资源池可以同时提供Cinder块存储服务、文件存储服务、对象存储服务。针对盛大游戏业务需求,采用多独立存储资源池,包括高速的SSD存储资源池、普通的SAS存储资源池。同时通过以下特色功能灵活面对游戏行业特殊需求:

    1.   通过独有的本地化IO技术进行性能提升:在使用传统存储的虚拟化方案中,大多采用服务器+集中存储的方式,存在很多技术瓶颈,特别是虚拟机的IOPS以及吞吐,远不能达到业务高峰时的要求。虚拟机镜像存放在远端存储中,因而虚拟机的每次实际 IO 访问都需要经过多级的物理链路,每一层的时间消耗都直接影响存储的性能,如下图所示:

    MegaBric在G云2.0平台方案中充分考虑了数据的安全性以及访问效率。首先,MegaBric采用双副本的数据冗余方式, 可以保证数据在节点故障的情况下,虚拟机对数据的正常访问。其次,MegaBric具有数据本地化的特性,数据优先从本地读取,极大的降低了数据读写延时,从而提高虚拟环境下的IOPS以及吞吐,单台虚拟机可以达到3W IOPS。当需要进行虚拟机迁移时,存储自动将虚拟机所需要的数据搬迁到对应的计算节点。

    2.解决存储硬件成本和运维成本高的问题:传统运维体系中有各个厂商的存储管理运维工具,在出现故障时排查定位难,需要大量的运维人员来保障整套系统的稳定运行。由此产生的硬件成本、能耗成本以及运维成本非常高。在G云2.0建设过程中,首先考虑要采用软件定义存储来管理多种类型的硬件设备,包括SSD盘服务器、SAS盘服务器、以及利旧的服务器。MegaBric可以根据存储介质将硬件资源化成多个资源池,给虚拟化服务提供不同性能的存储服务。在统一的存储管理界面,可以详细的看到各个资源池的空间利用情况、存储池的吞吐、健康状态等,如果出现亚健康状态,有多种告警手段通知运维人员。

    ·  Cinder块存储服务:MegaBric为Openstack环境提供Cinder driver,可以方便的为虚拟机提供块存储服务,支持对虚拟机中的云硬盘创建快照、快照恢复、在线调整云硬盘大小,支持对云硬盘的QoS的设置。

    ·  文件存储的特点简单易用:MegaBric文件存储可以同时提供NFS、SMB、POSIX服务,支持主流的Windows、Linux操作系统。游戏业务中将用户的操作日志、操作历史记录等10KB左右的小文件存储在共享的文件系统中,这部分数据单文件规格小但数据量巨大,使用MegaBric小文件加速专利技术,比传统NAS性能提高10倍以上。

    ·  对象存储的特点安全、低成本,采用RESTful API可以在互联网任何位置存储和访问,容量和处理能力弹性扩展。思华MegaBric支持Swift对象存储、同时兼容S3接口,可以为游戏业务提供更加丰富的接入方式。盛大游戏的多个工作室将游戏业务中的冷数据转存到G云2.0的对象存储里,可以有效地降低数据存储的成本,更加利于对用户行为数据的总结分析。

    3.在线云硬盘跨存储池迁移:在G云2.0运营的过程中,某些游戏业务初始采用普通的云硬盘(SAS),但是游戏后期用户激增,对于磁盘的IO要求显著提高,需要迁移到高速云硬盘(SSD)。传统的做法是重建一个高速的云硬盘,客户自己将数据从低速盘迁移到高速盘。MegaBric采用在线卷迁移功能,在云硬盘规格升级过程中,可以将云硬盘从SAS资源池在线迁移到SSD资源池,用户无需干预。迁移过程中数据访问不中断、性能无明显影响。

    4.多存储类型支持,动态调整空间比例:业务的发展需要G云2.0来提供对象存储,G云2.0建设规划时将对象存储的支持列为重点,云平台建设初期业务对于各种类型存储的需求量并不确定,这就需要存储服务能够支持动态调整集群内块存储、文件存储、对象存储的空间使用比例。MegaBric存储资源池在线扩容、缩容的功能很好地解决了空间调整的问题。

    秒级存储热迁移,毫秒级业务感知

    存储软件不可避免的由于各种原因需要进行升级操作,传统的存储升级,首先需要停止平台上所有的业务系统后再进行升级,直至升级验证完成才能重新再开启服务,操作持续时间在1小时到数小时之间。如果是管控系统,管理员也只能选择在晚间不进行操作的时候进行升级。

    从盛大游戏的业务运营上,这是不能容忍的。游戏业务需要保持实时在线,这是用户体验最基本的保证,G云2.0要求存储升级过程中业务需要达到无感知。存储热升级中的文件存储热升级有更高的技术难度,其中涉及到NFS客户端、POSIX客户端以及服务端的热升级。业界鲜有存储厂商能够提供存储的热升级支持,而能够提供文件存储热升级的则少之又少。

    在G云2.0中,思华MegaBric成功地解决了文件存储热升级中遇到的业务实时大量的IO读写、存储各组件动态库的更新、存储状态中锁状态/内存状态的维持、存储状态中网络连接的维持/重连、存储集群中客户端和服务端信息同步升级等难点。真正做到了分布式文件存储的热升级,毫秒级的业务感知,可以在存储管理端实现一键热升级、一键回滚。MegaBric分布式文件存储提供的热升级功能在G云2.0大规模游戏业务中发挥了非常重要的作用,保证业务在存储升级过程中不间断的安全、稳定运行。

    思华MegaBric自2010年推向市场以来,至今已经服务了众多客户,如:中国电信、中国移动、中国联通、天游、咪咕视讯、中国平安等,为新疆、江苏、河北、陕西、华数、OCN、重庆、福建、广东等广电运营商提供累计达百PB以上的媒资库。同时,在各地市公安项目中也成功的大量运用于监控视频、执法记录仪、警综平台、警务云、人脸识别等场景。

    思华长期坚持国产化、自主研发的分布式存储道路,致力于打造出高质量、高性能、高安全、高性价比的软件定义存储产品。MegaBric基于标准x86硬件设计,全对等全分布式架构,同时提供文件、块、对象存储服务,能够方便快捷的满足用户业务上的复杂应用,可广泛应用于各种数据存储需求的场合。



美图


本站所刊登的各种新闻﹑信息和各种专题专栏资料,均为北京经济网版权所有,未经协议授权禁止下载使用。
编辑QQ:2383424132 电话13681102741
Copyright © 2000-2013 www.jingjjw.com All Rights Reserved