不停服!腾讯云百T数据跨云迁移之战
电脑屏幕上进度条再一次慢下来的时候,「销售易」运维负责人赵文华的表情严肃了起来。 连续熬了几夜,同事们脸上疲态尽显,可是眼前的数据同步工作却没有想象中顺利。 「传输的速度不太稳定,变慢了」,坐在电脑前面的同事说到。没有人搭话,机箱和空调发出的轰隆声占据了全部的空间。 能做的只有等待。 这是国内企业级CRM(客户关系管理应用)厂商「销售易」正在进行的跨云数据迁移现场,团队正在将过去九年的主体业务迁移到腾讯云上。 一个谋划筹备两年的决定 「销售易」从创立开始,就选择了云原生的技术路径,以实现更加便利的调动、更快速的扩容以及更灵活的业务部署。 「上云」的选择是坚定的,也是一个长期的技术方向。 对于SaaS企业来说,底层技术的合作伙伴选择遵从「稳定为王」原则,不太会考虑更换技术合作伙伴,除了性价比外,更换和迁移随之而来的系统稳定性、业务适应性风险是首要评估标准,决策非常谨慎。 重新选择云服务合作伙伴,并将数据进行迁移的想法,「销售易」是两年前开始酝酿的。 2019年,「销售易」发布了「客户数字化平台」,还联合「企业微信」发布汽车、教育、家装家居三大行业解决方案。业务发展越来越多样化,客户覆盖领域和数据都在快速增加,「销售易」对云计算资源的需求也呈现了井喷式的增长。 「我们接触了不少云厂商,进行测试后发现,从故障率、性能、服务和技术支持方式上,腾讯云都展示出了优异的表现」,赵文华说,「同时,我们是腾讯的SaaS生态合作伙伴,双方在业务上有深度的合作」。 一个大挑战:数百TB数据不停服迁移 在过去9年多的时间里,「销售易」在原有云厂商已经累积了高达数百TB的文件数据和几十TB的数据库数据(1TB=1024GB)。 经过前期的调研和排查,摆在项目组前面的难题有几个: 首先,「销售易」数据库的实例过大,可以理解为,此前的数据资产存放的宝箱太大,很难搬运,并且丢失一个宝箱,就会对整体的资产有很大影响,因而需要将这些资产分别存在更小的宝箱中,降低搬运难度。 其次,是网络问题,项目组需要在网络带宽上提出创新的技术解决方案。 第三,「销售易」的“生产正式”系统体量过于庞大,无法一次性完成。 针对以上三个核心难题,项目组一直围绕这些问题进行反复的研讨和论证,并模拟真实的迁移场景进行预案演练。 到了10月份,项目组终于完成了一套细致的迁移方案,其中的主要技术难点解决思路包括: 针对数据库实例过大的问题,在腾讯云端创建多套生产级别数据库实例,并将两侧云厂商内部网络进行打通,根据业务特点将过大的实例进行拆分,并使用otter工具实时进行同步,确保拆分和迁移同步顺利进行,尽可能缩短迁移时间。 为了保障迁移过程网络稳定,做好了小带宽迁移方案优化的准备,通过2根光纤顺利完成了迁移工作。 分类分批迁移:将迁移细化到不同类型的客户,分批次迁移,确保租户业务不受迁移影响。 一切准备就绪,可以正式「动手了」! 一个小“惊吓” 北京秋高气爽的一个深夜,正式的数据迁移启动。 由于前期做了充足的准备,一切按计划进行,项目组每到晚上夜深人静之时就开始进行数据迁移,一夜接着一夜。到了 11月初,90%的数据都已经切换完成,眼看胜利在望。 距离胜利还差10%的一个周六晚上,按照原计划,项目组要启动第二阶段BI数据的同步,并在第二天等同步完成后进行切割。 这一天夜里,赵文华的电话忽然响了,直觉告诉他,深夜来电话应该没有什么好事。果然,负责数据监控迁移的同事告诉他,光纤出现了断开的情况,数据同步出现了停滞。 光纤出现问题的原因有很多,必须马上抢修,赵文华立刻召集项目组的同事讨论解决方案。有人拿出了在做迁移预案的时候已经评估的网络应急预案,第一时间进行了人工干预和切换。 几分钟后,网络恢复了正常。被吓出一身汗的项目组也决定,由于提前数据已经同步完成,当晚提前完成第二割接,立刻执行! 就这样,当又一个不眠之夜过去,第二阶段的任务完成了。 项目最大的数据库进行迁移过程中,因网络问题存在短暂数据延迟,销售易团队紧锣密鼓地排查问题 一次正确的选择 经过3次大版本的更新,17次小版本迭代,「销售易」和腾讯云组成的合作项目组最终完成这一浩大的工程。 「这是一次正确的选择」,赵文华评价说。 其实,对于迁移的效果,大家心里也没底,所以迁移顺利完成后,「销售易」进行了紧密的检测,结果显示,「系统的整体稳定性得到了提升,服务器自动重启、数据库异常等问题大大减少」,并且,「每月IT基础设施费用的开支节省了大约23%」。 此外,腾讯云强大的生态能力也进一步帮助到了「销售易」的业务发展。作为腾讯SaaS生态“千帆计划”的臻选合作伙伴,「销售易」与腾讯展开多方位合作,拿下众多行业头部客户。 千帆企业应用连接器产品帮助「销售易」解决了实际交付过程中的技术难题。 国内某头部电商企业旗下物流集团是销售易的重要客户。电商大促时,该物流企业常常出现流量突刺的问题。但销售易系统有流量控制,无法处理订单大并发的情况,需要快速上线“流量削峰填谷”的能力。 借助千帆iPaaS,「销售易」三天便实现了与该客户业务系统的集成,相比此前的集成效率提升了约5倍,且在大流量高并发场景下服务依然稳定可靠。 腾讯千帆iPaaS不但帮助客户实现了业务系统间的数据连接,同时极大地提升了「销售易」交付效率、降低交付成本。 数据迁移完成后,值守到最后的腾讯云和销售易联合团队拍了一张合照 目前,「销售易」的大部分业务都平稳地在腾讯云上运行,对于这场迁移,不管是「销售易」服务的公司,还是最前端的用户,大家都没有任何感觉。 这就是做「不停服迁移」的目标,担忧、焦虑、惊险都留在一个个不眠不休的夜晚,留在了后台,在每一笔业务产生的前台——太阳升起,一切照旧。 |
全部评论
暂无评论
最新文章
-
1大模型数量国内第一!百度智能云国内首家支持Llama3全系列训练推理
-
2华为云推动土耳其数据库技术创新,“土耳其数据库先锋计划”正式启动
-
3鹅厂造了一座「桥」!腾讯云让主机搬家~
-
41299 万元,中兴新云中标财务共享建设项目
-
5新版本新能力,华为云 OceanBase 为何要打造实时分析数据库
-
61473.8万元,浪潮云中标重庆职业技能公共实训中心智联驾驶技术实训项目
-
7基于阿里云通义千问!央视《新闻联播》点赞中国一汽大模型应用!
-
8腾讯云4月8日故障复盘及情况说明
-
9天翼云大模型首次接入天文望远镜!基于通义千问,“星语3.0”发布
-
10IDC发布2023年中国整体超融合市场报告,深信服第一
热点排行
-
1文件存储 NAS 和 对象存储 OSS 的区别
-
2天翼云云电脑 | 让电视一秒变身电脑
-
3阿里工程师太凶残了,竟把服务器泡在“水里”!
-
4腾讯云 | 想在微信群里发起9人以上的语音聊天怎么办?
-
5数据仓库终结者:Dremio
-
62020年云服务器哪家强:阿里云、腾讯云、华为云、UCloud测评报告
-
72020 年 Q1 中国云市场份额:阿里云第一、华为云跃居第二、腾讯云下降为第三
-
8阿里云 web 应用防火墙(WAF)价格:179元/年
-
92020 Q1 中国公有云市场份额 TOP3:阿里云、腾讯云、华为云
-
10郑大一附院系统瘫痪 2 小时,运维人员被判 5 年半:破坏计算机信息系统罪
有话要说