医院信息化集成建设,如何从频繁“修平台”迈向真正“用平台”?

Odin Editor, 29 十月, 2023
关键字

运维、平台、环境、一体化

来源: CHIMA微信公众号 (文章由Odin供稿)


 

“医院系统为什么又出问题了? ” 

“为什么平台用起来这么卡? ” 

...... 

越来越多医院建设了集成平台后,会出现以上的抱怨和困惑。 有的医院发现,平台搭建完成后时常出现问题,三日一小补,五日一大修,运维人员的主要工作变成了“修平台”而非“用平台”。 果把医院平台比成一辆车,那么数据就是车上货物,道路就是承载平台运行的软硬 件环境和网络。 道路维护和车修“人员”就像运维人员,他们不仅要保持“道路”(软硬件环境、网络情况)通畅和“车辆”(平台运行)完好,还要在出现问题时,能够迅速采取措施,进行调度和修复,以确保“运输”(集成业务)通畅平稳。

这里重点提到的三个要素: 软硬件和网络环境、平台运维和集成平台自身能力,是医院从频繁“修平台”迈向真正“用平台”的关键因素。
 

环境为基——“小问题”也会引起“大情况”

“...... 医院里不晓得哪个灾舅子昨天下午把网线拔了,然后插回去又没插好,导致网络一卡一卡的,今天好多系统都出问题了 ......”这是发生在一家医院中,运维人员花了数天确定集成平台异常的原因后,在群里发的一句话。 尽管只是调侃,但背后的原因值得思考。 
 

良好的软硬件配套以及稳定高效的网络环境是集成业务构建的“基石”。 如果说集成平台能稳定运行,有一半的功劳归功于平台自身,另一半则取决于软硬件环境的可靠性。 在医院的集成过程中,频繁出现的通常是一些“小问题”,但这些“小问题”可能会引发“大情况”,以下列举了几个例子供参考: 

  • 由于虚拟机设置不当,出现内存资源竞争问题,导致平台异常; 
  • 因为使用的快照软件导致每天高峰期出现业务异常; 
  • 安装的杀毒软件没有进行优化和设置影响平台进程,导致CPU占用率极高,引起平台运行卡顿; 
  • 硬件存储IO问题使虚拟机出现卡顿,进而导致集成平台无法使用,并且多个系统出现不定时卡顿故障; 
  • ...... 

随着平台在医院信息化中的核心地位不断上升,它对环境的敏感度也显著增强。 因此,医院必须努力提供更高质量、更干净、更可靠的软硬件设施和网络环境,以确保平台在复杂的医疗信息化场景中能够稳定运行,并保障医院的正常运营。 为实现这一目标,平台的运维团队必须规范流程,提高运维能力,建立有效的风险预警机制。 

 

运维为本: “制度”、“人员”两手抓

百度百科中对运维的释义如下: “运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态”。 在医院信息化集成中,集成平台的运维是确保平台能持续稳定运行,实现集成业务的顺畅平稳作业的“根本”保障。 在这一过程中,建立 合理的管理机制和适当的人员配套至关重要。 

管理机制: 主要是对运维工作的组织和规划,重点是定期观察业务高峰期的运行状态、软硬件配套和网络的情况、平台上集成业务的异常和未解决状态等,并检查是否做好故障预警等措施,包括: 

  • 巡检监控: 运维人员需要定期进行系统巡检,检查硬件设备的状态、网络连接是否正常以及软件是否运行顺畅。 同时,建立有效的监控系统,能够实时监测平台的各项指标,以便及时发现潜在问题。 Odin的一体化界面能够实现对平台所有下属服务器的核心数据进行监控和查询,包括CPU使用率、内存利用率以及事件异常等信息,并将 这些数据按照事件类型(一般、警告、错误)进行汇总,便于 后续的处理分析
  • 预警机制: 运维团队需要建立有效的预警机制,以便在问题发生之前就能够提前预警。 这包括设置阈值,当系统指标达到或超过这些阈值时,自动触发警报,使运维人员能够及时采取措施。 Odin 具备态势感知功能,结合自动预警机制,能及时发现并监测平台潜在问题。 此外 ,Odin还为常见问题提供了包括熔断、降级、限流等在内的多种解决措施,从技术上为医疗机构的预警机制提供支持。
  • 故障处理: 当平台出现异常或故障时,运维人员 的首要任务是 快速 恢复日常 生产, 最小化平台停机时间 ,再 进行故障处理。 Odin 独特的统一界面管理能力 让 运维人员能通过统一的界面对于工作实例运行状态以及其中各业务情况进行浏览查看, 避免了对服务器一一排查或频繁切换服务器管理界面的繁琐操作,大幅降低异常发生时集成平台容灾恢复的时间和工作量,这是多台服务器二次开发后搭建的 “集群”难以具备的能力。
  • 性能优化: 运维团队还需要不断优化系统性能,以应对日益复杂的应用场景和高并发的业务需求。 这可能包括资源分配的调整、软件升级和配置的优化等工作。 根据Intel官网发布的《ODIN 引擎全场景一体化集群版基于第三代英特尔® 至强® HCI 平台优化方案白皮书》,Intel和Odin进行了深入的联合测试和调优,Odin集群版的平均每秒事务处理量(TPS)可达30000以上,相当于每分钟处理180万次事务,充分满足医疗集团、医联体/医共体以及区域医疗等大规模医疗卫生机构的平台 能需求。

人员配套: 建议有专人负责平台运维,同时运维人员需具备一定的集成技术知识,可以对生产环境中出现的问题给到及时的应对方案,并能落实好相应的运维机制。 如果平台自 身能力比较强、功能比较全面和易用,那么运维人员1到2人即可,反之可能会需要更多的人员以及对人员能力要有更高要求。

Odin针对医院的本土化需求进行大量开发,增加国内常用而国际著名品牌不具备的易用性功能,例如内置API网关、鉴权管理、各种标准化定义、数据处理转换工具、PDF导出等各类组件,并兼容国产服务器和操作系统,实现开箱即用。 同时Odin全程中文支持,纯Web操作界面和可视化工具等,使操作运维更简单,一目了然,降低学习使用门槛,快速上手操作。  
 

台为用: 从“补丁式”、“碎片化”开发迈向“一体化”、“全局化”建设

有的医院通过努力打造坚实的硬性和软性基础,解决了频繁“修平台”的问题。 然而,在医疗机构中,尤其是大型三级医院,信息化建设已步入复杂的“深水区”。 医院不仅需要确保平台的稳定高可用,还需要将平台 真正用起来,满足 “深度”业务需求,如闭环管理、跨院区的实时交互、互联网医院的业务协同、T+0的数据主题库建设和业务中台建设等高级别测评要求和着眼全局的建设规划。

如果集成平台日常运维仍处于“补丁式”开发和“碎片化”应用的阶段,缺乏一体化、全局化的建设流程来实现相应需求,将难以满足这些复杂多样的集成需求,或者实际使用过程非常繁琐复杂,导致医院难以充分发挥平台的潜力,那么平台本身的价值将受到限制,距离真正 用平台”仍有一定距离。

Odin突破了传统堆砌功能“授人以鱼”的方式,而是通过“授人以渔”形成了一套DevOps规范化管理的方法论,并为该管理流程搭建了扎实的环境基础,例如生产/开发双环境隔离、开发/测试/审核/管理人员不同权限的分离,通过熟练运用上述环境进行开发,自然而然能引导医院形成一套规范化的管理流程,助力医院应对复杂集成需求,实现对 集成平台的“深层次”运用。   

结语

环境为基、运维为本、平台为用,通过将这三者有机结合,实现更稳定、更可靠、更高效的信息化集成,走出频繁“修平台”的困境,助力医院信息化迈上真正“用平台”的新台阶。 

Odin文章评论:

如您在使用此平台时遇到问题,可发送邮件至:customer.service@odin.co.nz 获得帮助