1
关注中国自动化产业发展的先行者!
2024
2024中国自动化产业年会
2023年工业安全大会
OICT公益讲堂
当前位置:首页 >> 案例 >> 案例首页

案例频道

轨道交通AFC线网管理中心灾备设计方案
  • 企业:     行业:智慧交通    
  • 点击数:1501     发布时间:2021-07-10 19:07:22
  • 分享到:
本文基于郑州市轨道交通自动售检票线网管理中心(ANCC)系统主副中心双活设计方案,从灾备中心建设的必要性入手,分析得出选择双活中心方案建设。其次对双活中心的容灾架构、存储双活、应用双 活和主备倒切流程等分别做出分析,展现了双活中心的架构特点和相较于传统方案的应用优势,为后续城市线网管理中心的建设提供参考。

郑州地铁集团有限公司 徐淑鹏,陈俊亚,曹美阁

摘要:本文基于郑州市轨道交通自动售检票线网管理中心(ANCC)系统主副中心双活设计方案,从灾备中心建设的必要性入手,分析得出选择双活中心方案建设。其次对双活中心的容灾架构、存储双活、应用双 活和主备倒切流程等分别做出分析,展现了双活中心的架构特点和相较于传统方案的应用优势,为后续城市线网管理中心的建设提供参考。

关键词:城市轨道交通;自动售检票系统;灾备

Abstract: In this paper, based on the Zhengzhou rail transit automatic  fare collection line network management center (ANCC) system main  and auxiliary center double live design scheme and starting from the  necessity of the construction of disaster recovery center, we analysis  the choice of double live center construction scheme. Then we analysis  the disaster recovery architecture, storage, application and main /  standby switching process of the dual activity center respectively,  showing the architecture characteristics of the dual activity center and  the application advantages compared with the traditional scheme.  The analysis of this paper provides a reference for the subsequent  construction of urban network management center.

Key words: Urban rail transit; Automated fare collection system; Disaster  recovery

1 引言

近年,全国各地城市轨道交通的快速建设,各大城市的城轨线网逐渐成型,对线网级自动化、智能化调度指挥和运维管理的需求日益加强[1]。郑州市轨道交通在建设多线路中心(MLC)和清分中心(ACC)扩容的背景下,从架构、可行性、建设成本、技术发展趋势等方面进行了充分的论证和分析,依托云平台、大数据的快速发展,最终确定实施ACC及MLC系统组合建设方案, 即建设郑州市轨道交通线网管理中心ANCC系统。

可以看出,ANCC成为了郑州市轨道交通全线网 AFC系统协调及对外票务信息服务和管理的主要窗口, 重要性可见一斑。ANCC系统瘫痪或者由于其它原因 (火灾、恐怖袭击等)退出运行,将会导致全线网运营管理处于瘫痪状态,造成票务收益损失[2],因此建立一套安全、可靠的灾备系统,是非常必要的[3]。本文基于郑州市轨道交通ANCC系统的建设,分析了灾备中心建设的必要性、双活中心方案的设计选择,并对双活中心的建设方案进行介绍。

2 建设背景

2.1 必要性分析

灾备方案是ANCC建设工作重要内容,关系到业务可用性、业务连续性、数据安全性、系统合规性等多方面[4]。

高可用设计包括平台架构高可用和业务系统高可 用,保证整个业务平台可以稳定运行,当故障出现时快速定位并恢复故障[5];对于业务系统来说,在出现意外宕机时业务不会中断,对用户无感知。

ANCC作为线网级生产平台,作为各线路的大脑,如果由于意外事故的出现,线网级业务瘫痪并停止运行,会给整个行业带来严重的后果[6]。所以应该建立拥有线网业务功能的后备中心系统,当主系统发生故障或意外不能正常工作时,及时、快速地接管主系统的基本工作,实现正常情况下异地灾备、紧急情况 下应急处理等。

2.2 双活中心的选择

灾备包含三个层次,即基础设施灾备、数据灾备和应用灾备[7]。基础设施灾备是对业务处理逻辑相关的设备备份,数据灾备是对数据备份以保证数据的完整 性,应用灾备是对应用处理系统的冗余备份。

双活中心方案从基础设施、数据、应用三个层面进行容灾,具有更高级的连续性和高可用性,能够针对服务器、硬盘、适配器卡、网络等物理设备实施保护, 也能针对操作系统、数据库、应用、服务等软件的致命错误实施保护,对于发生在本地的错误,具备自动接管功能[8]。该方案技术实现复杂度最高,但能够充分利用两个中心的所有资源,业务高可用性和连续性最优。

3 ANCC系统双活中心关键技术

3.1 双活容灾架构

各线路数据汇聚节点就近接入,主副中心同时处理业务,资源得到有效利用;业务处理完成后,写入主中心数据库,主副中心数据库通过数据库同步软件进行同步;当主中心/副中心接入故障或业务处理故障时, 系统通过预置的备用路由,自动完成线路接入的切换; 当系统数据存储出现故障时,系统通过内部业务倒切, 实现数据的有序入库存储;通过系统应用双活设计,实现系统的高稳定运营。

生产中心发生灾难(生产中心停电、火灾等): 可对受云服务器高可用性(CSHA)服务保护的生产云服务器自动或手工切换到灾备中心,快速启动容灾云服务器。

计划内停机(计划性停电、日常运维等):容灾管理员可对受CSHA服务保护的生产云服务器进行一键式的计划性迁移,在灾备中心快速启动容灾云服务器,保证业务数据零丢失;在原生产中心完成计划性活动后,容灾管理员对受保护云服务器进行反向重保护,并在合适时间通过计划性迁移将业务切回到原生产中心。

双活中心的总体架构如图1所示。

图片.png

图1 双活中心总体架构

3.2 存储双活方案

3.2.1 方案描述

云硬盘高可用服务(VHA)为云服务器中的云硬盘提供本地存储双活保护[9]。当单套存储设备发生故障时,数据零丢失,业务不中断。该方案是基于 FusionSphere OpenStack云操作系统平台的IaaS层云服务器容灾方案。它通过云数据中心结合存储双活实现单中心内的云硬盘容灾。

3.2.2 方案架构

云硬盘高可用服务与网络是解耦的,原则上使用 FusionCloud的通用网络方案即可,仅要求在通用组网方案上预留存储网络端口,增加两套双活存储间的双活数据路径。

在组件部署上,云硬盘高可用主要增加了存储仲裁软件和BCManager eReplication两大组件。二者均可部署在物理机中,也可以部署在虚拟机中。如图2所示。

图片.png

图2 存储双活方案架构

3.2.3 实现原理

租户登录VHA服务申请界面,为云主机申请本地存储双活容灾保护。系统过滤出该租户具备创建容灾保护条件但还尚未创建的云主机[10]。租户可从中选择单个或多个需要容灾保护的云主机,提交申请。后台自动调用容灾管理组件对应API,创建存储双活保护,实现的基本原理及主要步骤如下:

(1)调用Cinder建卷API,在对应的容灾存储上创建双活占位卷(并设置为预留状态)及双活LUN;

(2)调用DRextend容灾扩展组件,为双活LUN 配置双活Pair;

(3)调用DRextend容灾扩展组件,创建双活一 致性组(将双活Pair加入双活一致性组,当灾难发生时,可实现存储一致性切换,实现存储一致性保护);

(4)调用Nova的在线重连双活卷扩展接口,将创 建的双活LUN挂载给云主机;

(5)生成VHA保护服务实例。

3.2.4 方案优势

(1)开放架构

业界率先推出基于Openstack+KVM云架构的云硬盘 高可用方案,在一套Openstack私有云架构上构建云服务 器本地存储双活保护能力防止厂商锁定,为客户节约成本扩展Openstack标准并开放接口,只要第三方厂家支持该 接口,就可以接入进行统一高可用配置和管理。

(2)按需使用

支持租户按需自助申请云硬盘高可用服务,服务开通便捷高效,业务发放周期由一周缩短到半小时内,系 统根据租户要求自动化配置和开通云硬盘高可用服务。

(3)可靠高效

基于存储侧的双活技术,对主机性能无影响;数据实时同步。

3.3 应用双活方案

3.3.1 方案描述

此方案特点是各线路就近接入主、副中心,主副 中心同时处理业务,有效利用资源;针对主副中心不能 同时上线的情况,由单中心改为双中心的实施过程较简 单,可在线操作,不影响业务运行,实施风险较小。总体架构如图3所示。

图片.png

图3 应用中心总体架构

3.3.2 实现原理

云服务器高可用(CSHA)是为了当生产中心故障 后,容灾云服务器能够挂载容灾端的卷,并在灾备中心快速启动,实现的基本原理如下:

租户根据生产中心网络、计算的资源类型及高可用要求,在灾备中心配置相同或相似的网络、计算资源,并申请CSHA服务实例。

服务申请成功后,根据生产端云服务器的云磁盘信息,自动在容灾端创建相同规格的云磁盘,并在存储层配置双活复制对、一致性组,实现数据的镜像保护。

当生产中心发生站点级故障时,云平台仲裁服务显示站点故障,同时生产云服务器、存储层双活复制对故障。此时,可自动或管理员手工触发CSHA保护组切换,将灾备中心的云硬盘挂载至容灾云服务器并启动云服务器。

容灾云服务器接入所在灾备中心的网络,取决于容灾云服务器创建时所接入的VPC网络。

3.4 主备倒切流程

主备系统倒切应急处置流程分为五个阶段,即灾 难发生、处置决策、前期准备、应急处置和处置结束。

灾难发生阶段,当系统发生灾难影响生产中心正常业务时,应立即将灾难情况报告给应急处置小组组长、副组长。

处置决策阶段,应急处置小组组长、副组长,收到灾难情况报告后,应立即组织小组成员开会,分析灾 难具体情况、判断影响范围并确定对应措施启动相关预案,开展应急处置工作。

前期准备阶段,根据应急处置小组组长决策,各分组组长按照预案内容,组织分组成员进行主备系统倒切前的相关技术准备。副组长负责与相关单位沟通,协调主备系统倒切前工作。

应急处置阶段,准备工作完成后,应急处置小组组长指挥小组成员进行主备系统倒切工作。系统倒切完成后,各分组组长负责确认系统状态、业务情况,并向组进行报告。

处置结束阶段,主备系统倒切完成后,确认系统状态、业务情况正常后,应急处置小组组长向上级单位、 领导汇报应急处置工作情况。

4 结论

轨道交通自动售检票系统线网管理中心的建设,提高了基础设施资源的利用率,实现了郑州轨道信息化基础设施资源的统一规划、统一建设、按需调配、即需即用、有效共享。采用双活中心的容灾方案,可更大程度 保证业务的连续性,也可有效保障灾难发生后,业务恢复的时效性。随着技术的发展和建设需求,后续可继续探索灾备中心建设的可能性。

作者简介:

徐淑鹏(1969-),男,山东莘县人,高级工程师,学士,现就职于郑州地铁集团有限公司,主要从事地铁 AFC系统建设的工作。

陈俊亚(1993-),女,河南周口人,助理工程师,硕士,现就职于郑州地铁集团有限公司,主要从事地铁 AFC系统建设的工作。

曹美阁(1989-),女,河南许昌人,工程师,硕士, 现就职于郑州地铁集团有限公司,主要从事地铁AFC系统建设的工作。

参考文献:

[1] 李中浩. 城轨互联网票务系统建设指南[J]. 城市轨道交通, 2019, 37 (03) : 25 - 28.

[2] 王彪. 城轨云架构下灾备方案研究[J]. 都市快轨交通, 2019, 32 (03) : 33 - 39.

[3] 赵晗, 陈琦, 高伟, 等. “互联网+"技术在郑州地铁AFC系统中的应用[J]. 都市快轨交通, 2017, (4) : 81 - 85.

[4] 顾洋, 陈青云. 移动支付在轨道交通自动售检票系统中的设计与应用[J]. 都市快轨交通, 2016, (6) : 114 - 119.

[5] 廖东玲. 深圳地铁三期工程AFC系统建设与创新实践[J]. 铁路技术创新, 2016, (6) : 17 - 22.

[6] 张守芝. 轨道交通清分系统灾备升级方案研究[J]. 铁道通信信号, 2016, 52 (012) : 72 - 76.

[7] 徐钟全, 张见, 张宁, 等. 基于数据仓库的ACC系统架构方案探讨[J]. 铁路通信信号工程技术, 2017, 14 (03) : 62 - 67.

[8] 顾洋, 陈青云. 基于双活架构的城市轨道交通自动售检票系统设计[J]. 城市轨道交通研究, 2020, 23 (10) : 129 - 133.

[9] 湛维昭, 张森. 基于金融标准的移动支付技术在宁波轨道交通的应用[J]. 都市快轨交通, 2017, (1) : 106 - 109.

[10] 李道全. 城市轨道交通自动售检票系统多元化支付研究与应用[J]. 都市快轨交通, 2019, (4) : 126 - 131

摘自《自动化博览》2021年6月刊

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: