行业动态

了解最新公司动态及行业资讯

当前位置:首页>新闻中心>行业动态
全部 4100 公司动态 964 行业动态 3136

阿里云联合中国计算机行业协会专家探讨数字经济时代存储系统的运维之道

时间:2022-09-11   访问量:2041

只有昨天的缜密“谋略”,才能“维持”未来的稳定。前不久,阿里云和中国计算机行业商会信息存储与安全专业委员会邀请了阿里云、字节跳动、华中科技大学的多位专家,共同讲解存储系统的运维在数字经济时代。

一、减少延迟以防止系统性能发生较大变化

运维的本质是对网络、服务器、服务的生命周期的各个阶段进行运维,使其在成本、稳定性、效率等方面达到可以接受的状态。在ICT行业,运维人员经常调侃“运维是对应用的承诺,一辈子都不会放弃”。他们就像数据中心和公司中 IT 资源的管家、保安和消防员。

阿里云智能高级技术专家、对象存储研发负责人罗清超对此深有体会。他回忆了过去阿里巴巴清大客户要求延迟和振动保护的情况,并强调当云存储服务请求延迟和振动严重时,应用程序的整体性能会发生过山车式的变化。

云端的请求延迟包括网络延迟和存储延迟。云服务的网络非常复杂,包括BGP()和数据中心的静态网段和网络。识别影响延迟和合理调度的串扰点对于防止交通拥堵至关重要。

存储服务还需要处理媒体访问的延迟。机械/SSD也是一个复杂的系统。压力越大,延迟越高。尤其是在分布式存储系统中it运维技术,会带来病毒传染效应。为了减少延迟抖动,对象存储OSS从快速监控、精准告警、根因分析、优化调度入手,将延迟抖动控制在合理的剩余范围内,保证良好的客户体验。

华北理工大学研究员、博士生导师吴飞笑着说,因为自己来自大学,没有亲身感受到运维人员的压力,但他明白7*24随叫随到的难度,被称为永动机。目前云存储的可靠性要求是 11 个 9s。固态硬盘和传统机械硬盘是云存储中最基本的数据存储单元,维护起来并不容易。后者的存储介质由闪存组成。原则上,闪存就像一扇门。每次打开都会生锈。在使用的过程中,难免会造成老化,逐渐吱吱作响,故障层出不穷;前者就像一扇门。机械机器不断摆动,但也有停止的时候。在由数千个固态硬盘或光驱组成的存储系统中,要保证如此高的可靠性,运维人员的压力是显而易见的。

二、智能运维的大趋势是随着时间而变化的

“如果要完善新的基础设施,首先要从运维中受益。”在企业数字化的过程中,运维是一门工夫。

字节跳动数据库存储技术负责人张磊表示,从传统的自动化运维,到人工运维,再到AIOps智能运维,运维技术在过去十年实现了跨越式发展。开发。字节云数据库云存储整个运维系统的开发过程大致分为三个阶段。

第一阶段是2016年,整体的数据库和存储量都不是很大,团队运维还处于“刀陶”的状态,也就是基本由人来完成。

第二阶段为2017年至2021年,业务规模快速发展。云存储系统也达到了EB级别。数据库的规模是上千甚至上万套数据库。因此,运维团队转而建立一些人工运维平台,依靠这个平台解决运营问题。

第三阶段是从2021年年中开始,构建基于人工智能等技术的第三代运维系统。将运维人员的知识和经验与大数据和机器学习技术相结合,融入运维系统中替代人力,从而更大规模地解决运营效率问题。

在这三个阶段,整个业务系统的发展呈现出两个能力的转变:一是运维的文化、组织和能力的提升。从运维到系统,成立专职运维SRE团队进行运维;另一方面,整个运维体系和一些面向服务的技术体系也在不断推进,比如从最初的管理十台服务器到今天管理了几十万台服务器,这是技术不断演进的支撑。系统。总而言之,运维的文化和组织,以及运维的技术体系,这两条路径是齐头并进的。

三、快速定位诊断问题根源

it运维团队建设_it运维新技术_it运维技术

随着业务上云,运维逐渐“云化”。资源监控、终端管控、安全保障等运维服务转化为云应用,企业可按需订阅。

张磊表示,他普遍关注服务的黄金指标,尤其是一些与稳定性相关的黄金指标,因为对于小型在线服务来说,稳定性可能是第一位的。据悉,他更关注自己常年依赖的服务的一些技术演进路径,以便提前做好规划,确保运维/运营系统在技术或产品形式变化。

罗清超强调,阿里云对象存储OSS作为服务商,必须履行服务承诺的SLA( Level )和SLO( Level )两个关键指标。详细来说,OSS官网承诺99.995%业界领先的SLA,所以作为服务商,肯定会按照参考标准衡量请求的成功率,千方百计确保这个指标。 SLO是更细化的服务项承诺,比如保证客户请求的整体带宽可以达到稳定的Tbps级别,一些典型的请求信噪比可以保证在100ms左右,不会有太大的波动. .

近期,阿里云将发布可观察服务,为客户提供主流云产品的运维知识。为对象存储OSS提供剂量分析、性能监控、安全分析、数据保护、异常检查、访问分析等功能,从成本、性能、安全、数据保护、稳定性、安全等六个维度为客户提供支持。访问分析。管理能力。

吴飞觉得,为了支持应用的快速发展,存储技术也在不断发展。从传统的 C 盘阵列到集中式存储,再到当今系统中可能有数十或数万台服务器的分布式存储。从技术上讲,首先要考虑的是如何确保数千台服务器能够可靠运行。从运维的角度来说,就是应该没有故障或者故障少,或者故障要快速发现,从而达到快速修复、快速恢复、快速检查等指标。

近年来,人工智能的发展如火如荼,学术研究人员也在做利用人工智能提前预测系统故障的研究,希望在系统故障发生之前完成数据迁移,从而有效缓解用户的压力。运维。

四、产学研用,建设成长社区

运维为业务系统提供的保障it运维技术,离不开阿里云等服务商的布局,也离不开字节特等产品用户的努力。高校和科研院所作为基础理论技术和前沿技术研究的主体,在众多关键前沿技术方面具有深厚的基础技术储备和丰富的理论研究基础。因此,校企合作创新是产业发展中需要关注的蓝筹股。

吴非说,用“共同成长体”来定义这样的合作关系是微不足道的。这条链包括创新链、产业链和用户链。正是因为这样的联盟,用户端和研发端才联动起来,共同促进彼此的发展。简单来说就是产、学、研、用一体化,各方共同成长,推动技术的发展和落地。

例如,高校在研究云存储的可靠性时,提出了一种新的算法。在推进算法应用的过程中,可能需要与字节跳动、阿里云等企业合作,将算法部署到实际系统上。促进产业发展。

吴飞还提到,校企界的跨界创新也成为高校专家学者专业发展规划的重要组成部分。许多专家学者选择在行业旨在推动技术落地后重返学术界。这被称为“学术假期”。她相信,未来学术界与产业界会进一步深入融合。

张磊认为,校企融合是科技诞生到其广泛应用的重要推动力。近年来,云存储系统的一些技术已经固化。他首先希望学术界和研究界能在基础设施领域带来更多的突破:无论是存储介质,还是整个云存储架构的突破,或者是系统、运维思路、方法上的一些突破,都能带来一些突破。为行业注入新的活力。其次,行业也要精益求精,大胆尝试新技术、新技能、新理念,融入合适的场景。由于字节跳动等行业小企业,整体技术体量、服务器、数量存储容量都比较大,虽然有特别好的技术杠杆效应。虽然看起来是一个很小的技术优化,但在大范围的场景下只能形成一个非常大的价值。因此,学校和企业之间的相互支持是非常必要的。

罗清超强调,阿里云作为服务商,有两个共同成长的核心点:一是提供基础服务,共同运维能力;这反过来又有助于基地的发展。

针对两位嘉宾提到的校企结合,罗清超表示,相互成长进化的两个阶段可能非常重要。第一阶段,CCIA等组织为共同成长提供基础和生态。本次CCIA的良好运行,可以为运维与技术的共同成长奠定坚实的基础。第二阶段,共同成长体必须产生成果。比如通过CCIA的组织,我们可以搭建沟通的桥梁,孵化一些在行业内有影响力的标准蓝皮书或技术创新理念。

结论:随着高校的职能从人才培养和科研向社会服务延伸,企业、协会、学院之间的合作将进一步推进,这无疑将有助于形成良性发展的循环和良性循环。推动储备科技成果加快市场化。 ,而在这个过程中,用户和厂商都将受益匪浅。

原文链接:

上一篇:it技能服务学员:php培训班老师:关于技能:前端

下一篇:小程序定制开发价格费用高吗?一般需要多少钱

发表评论:

评论记录:

未查询到任何数据!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后服务专员

在线咨询

免费通话

24小时免费咨询

请输入您的联系电话,座机请加区号

免费通话

微信扫一扫

微信联系
返回顶部