苏宁的全场景零售布局和线上线下一体化管理模式,意味着在818推广节点,高峰数据量可能是日销量的几十倍。它背后的大量数据需要强大的计算和存储能力,而正是云计算可以在整个场景中支持这些复杂的计算和数据存储需求。
业务的快速发展意味着对云资源的需求不断增长。在保证业务连续性的同时,确保业务是否高效利用资源,响应动态高峰需求非常重要。鉴于818推广产生的数据峰值,苏宁云技术需要综合考虑安全性、可控性、资源利用率、资源成本等因素。
每秒数百万个高并发请求,系统间数百亿次调用,数十亿次实时消息推送,数千个应用服务的精确协作& hellip这一系列海量数据的背后,苏宁云科技如何保证核心服务不降级,818期间不发生重大事故?
提高资源调度效率,818台物理机整体利用率提高10%
在私有云领域,需要考虑提高整合率,降低toc。具体比如说数据中心的建设需要物尽其用,物美价廉。基于这一理念,苏宁云在应对提高资源利用率和有效应对业务高峰这一基本矛盾的实践中,推出了基础资源微调度产品。818期间,通过资源竞争组件的组合和兄弟团队资源池之间的平衡能力,苏宁云中物理机的整体利用率提高了10%,保证了稳定性,获得了较好的经济成本效益。
如将监测粒度从分钟级提高到二级,以分散监测和边际计算的思想指导设计,为识别毛刺峰异常、获取资源图像和训练预测提供数据依据。并通过对历史数据的分析,建立了系统关键服务和客人在物理核心层的归属和隔离关系,保证关键服务和客人不会相互干扰。根据对资源竞争和资源利用程度的判断,通过算法建立资源竞争健康评分和资源利用评分,使得判断越来越容易。通过物理机pcpu级的自动微调度,快速完成资源热点平衡,降低峰峰值叠加到来时资源争用的概率;此外,通过qos自动部署可以实现对特定虚拟机的快速准确干预,保证核心系统的关键资源供应。
保证资源调度的稳定性,精确分配几十万台虚拟机
“818”运动带来了数十倍以上的日流量,因此保证大规模服务器资源的稳定性是最具挑战性的任务之一。苏宁云通过动态资源调度技术为应用系统中的数十万台虚拟机精确分配资源,提前避免了虚拟化过度分割场景下业务系统间资源竞争的风险,解决了大推广全环节压力测试认定的虚拟机资源竞争和物理机负载超过安全水位的问题, 保证参与大促销活动的业务系统能够获得足够的资源服务能力,并在零点流量高峰到来时稳定运行,从而保证大促销活动的顺利进行。
动态资源调度技术依靠系统容量规划系统来刻画应用负载的镜像数据,然后结合不同型号物理机的虚拟化服务能力,为应用系统精确匹配资源,保证关键应用系统的资源需求。系统容量规划管理大促销活动场景和系统容量,收集和分析大促销全环节的应用性能数据和虚拟机监控数据,绘制在线核心购物和浏览链接、线下购物主流程、支付主流程、商户主流程、金融服务、物流、客服、售后等数千个参与大促销活动系统的应用负载画像,为精细化资源调度提供大促销活动场景下的应用负载特征数据。
同时,根据大推广活动场景中的应用负载镜像数据和全链路压力测试收集的物理机cpu、内存、网络多维负载数据,动态资源调度为大推广业务系统重新匹配资源,进行二次资源调度和资源调整。除了静态资源规格要求之外,业务系统资源要求还考虑运行时资源消耗要求,如cpu计算能力、内存使用、网络吞吐量和磁盘io。只有准确匹配业务系统的多维运行时资源需求,才能有效保证应用系统在大推广活动中的稳定运行,不存在资源竞争,不影响应用系统的服务能力和大推广活动的正常运行。针对全链路压力测试发现的虚拟机资源争用和物理机超安全水位问题,通过仿真调度重新匹配资源。如果当前物理机资源充足,根据模拟调度结果锁定资源放置位置,协助运维人员准确调整资源。如果当前物理机资源余量不足,并且评估了资源缺口,则将补充新的物理机资源。
未来将继续深化负荷图像数据的使用,利用ai算法分析不同活动场景和时间段的资源需求变化特征,实现分时复用资源调度能力,使资源调度精度更加细化。结合内核资源隔离和保障技术,可以降低资源竞争风险,提高物理机资源利用率,降低资源使用成本。
构建全方位保障体系,为818推广保驾护航
此次818推广恰逢苏宁30周年。这期间有很多重要的推广节点,很多丰富强大的推广游戏让人眼花缭乱。在利益的驱动下,这一时期黑客和灰色产品的攻击强度和攻击频率预计会大幅增加。在访问量飙升、订单激增、渗透力度加大的情况下,如何有效应对各种网络攻击,确保业务系统的安全稳定,无疑是对苏宁安全团队的重大考验。
苏宁的安全系统提供全面、快速、准确的漏洞扫描、风险管理和专家级安全服务。其中,漏洞扫描结合动态爬虫技术,全面深入收集应用攻击面信息,使用6w+漏洞检测插件监控各种主机和应用的安全风险。在818热身赛之前,近1000个系统、2000多个域名和数十万台主机已经被安全扫描和修复。使用sdk与kms进行交互,给数据加上了一层安全,使数据在采集、传输、处理、交换、存储、销毁的整个生命周期内得到保护。此外,苏宁的数据库审计系统支持对业务网络中的数据库进行全方位的安全审计,以提高数据资产的安全性。
动态攻防博弈有利于帮助安全团队提高日常威胁检测和发现能力、事件分析和决策能力以及应急响应能力。苏宁在真实的网络环境中进行实际的攻防演练,攻击者渗透核心目标,防御者检测全方位的安全事件,在过载信息中指定防护方案,快速做出应急响应。针对网络攻击,结合大数据分析和自然语言处理技术,构建了一个针对网络攻击的智能人工智能检测引擎,能够有效识别变形攻击和0天漏洞。目前苏宁的web攻击模型拦截准确率为98%,召回率为94%;bot攻击模型的拦截准确率为97%,召回率为90%。可以支持百万qp请求的过滤分析,大幅度提升拦截攻击高达10亿+次。通过对海量流量和日志数据的深入关联分析,与全网威胁情报系统收集的信息进行碰撞对比,结合主机运行状态的实时监控数据,生成攻击者画像,并在攻击行为发生前及时拦截,避免信息资产损失。
面对818期间巨大的数据量和超大流量高峰,高稳定性、高可扩展性、高可用性是苏宁云技术团队交出的优秀答卷。818时期后,苏宁云技术团队还将对海量信息数据进行全面分析,进一步完善和优化缺失信息,支持业务需求快速发展。
标题:[科技资讯] 云计算守护苏宁818方案揭秘:云资源调度、安全云双重防线“护周全
地址:http://www.heliu2.cn/xw/1935.html