基于虚拟机技术的大型仪器公共平台远程数据处理系统建设

2022-04-06 10:12彬,
实验室研究与探索 2022年2期
关键词:数据处理质谱仪器

郝 彬, 李 薇

(上海交通大学药学院,上海 200240)

0 引 言

色谱、质谱以及色谱-质谱联用是高校和科研单位大型仪器共享平台最常见的检测仪器,服务于生命科学、药学、医学等研究领域内的定量和定性分析,其特点是样本量多(几十个至上千个,连续检测数小时至数天)、分析及数据处理时间长(几小时至几天)。常规的仪器管理平台可对色谱、质谱仪器进行日常管理,如信息管理、开放预约、使用记录与统计等[1-4]。提高仪器的共享使用率需解决两大技术和管理问题,即仪器的运行效率和数据的处理效率。数据分析与样品测试各自独立运行可有效增加仪器的测试机时与样品量,提高仪器利用率。

数据处理软件是样品数据分析的主要工具,是色谱、质谱分析技术不可或缺的重要组成部分[5-7]。色谱、质谱仪器所产生的数据均需专门的数据处理软件进行分析[8],而大部分软件是与仪器硬件相配套,由仪器厂商提供且具有一定的使用授权,因此这些数据处理工作只能在采集数据的电脑上或专用电脑上进行,受到使用时间及场所的限制。而实验人员可利用网络远程连接到数据工作站上处理大型仪器所采集的数据[9-10],不再受时间和空间的限制;管理人员也可以进行远程协助及故障诊断与处理,从而大大拓展仪器使用空间和时间。

虚拟机可以单独支持不同的系统,相互独立,又便于管理与维护[11-12]。目前,远程-虚拟机方案已经用于计算机实验教学等方面[11,13],但尚没有仪器共享平台数据处理应用方面的相关报道。本文针对院级公共仪器平台中各色谱、质谱仪器数据处理软件的运行要求、远程访问、安全与维护等一系列关键技术问题进行研究,提出远程-虚拟机模型,并以此模型为基础,尝试设计和构建一个色谱、质谱远程数据处理平台,实现色谱、质谱数据的远程处理,为院级公共平台大型仪器共享管理提供技术保障。

1 平台组建模式的选择

1.1 远程数据处理平台独立与共享模式的比较

根据软件安装平台以及每个平台可同时开放服务的用户数量,远程数据处理平台可分为物理机独立和共享模式,以及虚拟机独立和共享模式共4种类型。

独立模式是指将1个色谱、质谱处理软件安装运行在1个独立的物理机或虚拟机上,其隔离级别最高,运行效率最高,但增加了维护和购置成本,需占用更多的资源。完全物理机的独立模式无疑是运行效率最高,特别适用于长时间、高负荷的数据计算,但其购置与维护成本、能耗也最高。

共享模式是指将多个色谱、质谱处理软件安装运行在1个物理机或虚拟机上,不同用户分别或同时使用数据处理程序。这是共享程度最高、隔离级别最低的模式,其优点是:维护和购置成本最低,减少物理机或虚拟机数量意味着降低购置成本和维护成本。缺点是:隔离级别、安全性最低,系统崩溃将影响所有共享用户,而且单一处理软件只能限定1位用户,其中1个用户运行高负荷数据处理工作将占用大量系统资源从而影响其他用户的工作。因而尽管共享模式是一种最经济的方式,但仅适用于同时进行轻负荷数据处理工作,或进行单一的高负荷工作。平台组建4种模式的比较见表1。

表1 平台4种组建模式的比较

基于物理机或虚拟机的远程数据处理平台,其独立与共享模式的选择可从经济性、安全性、使用频率及使用方式等方面去考虑,必要时可采用独立与共享相结合的方式来保证数据处理的性能和效率。由于各个色谱、质谱处理软件安装要求不同,应用范围各异,使用频率高低不同,实际应用中需兼顾性能与成本的平衡。

1.2 虚拟机技术用于远程数据处理的优势

公共平台的色谱、质谱仪器一般来源于多个生产厂商,每台仪器的软件运行环境存在明显差异,对操作系统、运行库等要求不同。虚拟机可以单独支持不同的系统,相互独立,又便于管理和维护,并可分别运行多个独立数据处理程序而不相互干扰;虚拟机还可以提供最大程度的兼容性,便于软件的部署。

一台虚拟机服务器可运行多台相互独立的虚拟机以安装不同的数据处理软件,小规模色谱、质谱平台或实验室仅用一台服务器即可同时运行多台独立虚拟机。这种虚拟机技术在不增加CPU工作负荷的情况下,实现了更为稳定和高效的虚拟机应用。即使某个虚拟机出现故障无法运行也不会对其他虚拟机上的操作产生任何影响,同时故障虚拟机的恢复可通过虚拟机的克隆备份而得到快速恢复。

2 远程数据处理平台的建设

2.1 平台设备情况

色谱和质谱数据平台选择一台服务器上同时运行4台独立虚拟机。远程数据处理平台具体配置为:Dell工作站1台(物理机);路由器1台,连接到校园网。Dell工作站安装Windows Server 2019操作系统,部署VMware workstation Pro 16.1虚拟机软件,建立4个虚拟机并分别安装Empower、Labsolution、MultiQuant以及Sciex OS数据处理软件。Empower 3是目前Waters公司的色谱工作站,LabSolution是岛津公司的色谱与质谱采集与处理软件,MultiQuant用于批量处理Sciex公司液相-三重四极杆质谱仪Qtrap5500的定量数据,Sciex OS可进行液相-四极杆飞行时间质谱的高分辨质谱数据分析。各软件的安装要求见图1,物理机及各虚拟机的配置见图2。

图1 4种色谱、质谱数据处理软件的安装要求*

图2 物理机及各虚拟机的配置

2.2 虚拟机的安装、配置与管理

在VMware workstation Pro上安装虚拟机之前需根据各软件的技术文档确定相应的安装环境,如操作系统、CPU、内存、硬盘空间,按要求配置虚拟机并安装操作系统。本平台分别建立了两个虚拟机系统,Win 7(32 bit)和Win 10(64 bit)。各虚拟机的配置,如CPU、内存、硬盘等均可在虚拟机设置中进行调整,以分别满足不同处理软件的运行要求。如果多个虚拟机的操作系统相同,可以应用虚拟机克隆生成多个相同的克隆虚拟机,然后将软件部署在各个克隆虚拟机上,可节省大量的物理机硬盘空间[14-15]。同样,安装数据处理软件并配置网络后可再次进行虚拟机克隆,将克隆机提供给用户使用。虚拟机系统故障时,只需使用备份的克隆文件恢复即可。链接克隆虚拟机所占用的磁盘空间较小,更有利于快速系统恢复。

2.3 虚拟机及路由器网络设置

虚拟机的网络连接属性设置为桥接模式,即将虚拟机直接连接到外部网络。人工分配各虚拟机的IP地址,并指定其远程桌面连接使用的端口。在路由器参数设置中,需在外部网络(WAN)端进行端口转发设置,包括物理机和各虚拟机的外部端口、IP地址和内部端口参数,以便外网的计算机可直接访问虚拟机。

2.4 用户远程接入

用户采用远程桌面接入的方式来访问数据处理平台[16]。远程桌面连接工具除Window版本(系统自带)外,微软公司也提供安卓和苹果Mac版本,支持手机、平板端和苹果电脑的接入。用户远程接入的步骤为:①用户在远程桌面连接工具中输入指定色谱质谱数据处理软件对应的虚拟机IP地址和端口号,经路由器转接并通过服务器中VMware workstation连接到目标虚拟机;②经用户名及密码验证后登陆对应的虚拟机系统;③启动色谱质谱数据处理软件进行数据分析。整个色谱质谱数据处理平台的拓扑结构如图3所示。

图3 色谱、质谱数据处理平台的拓扑结构示意图

3 平台运行测试及成效

虚拟机中安装预约管理程序,并接入学院公共仪器开放共享平台。用户使用前需在预约系统内预约并取得验证码,远程桌面连接到目标虚拟机后输入预约验证码后方可使用相应的数据处理系统。

在虚拟机系统中导入实验数据后,测试人员应用4台电脑通过校园网连入色谱、质谱数据处理平台,远程进行相应的数据处理和分析。运行测试包括系统资源占用、软件启动时间、批量数据处理时间等。测试项目分为物理机测试、单虚拟机处理测试和全虚拟机处理测试。其中,物理机测试指将数据处理软件安装在独立的物理机并运行测试;单虚拟机处理测试指单独1台虚拟机运行测试,其他3台虚拟机处于空闲状态;全虚拟机处理测试指全部4台虚拟机同时运行测试。测试指标为完成批量数据处理所用的时间,结果见表2。测试数据表明单虚拟机运行的性能相当于物理机的90%,即使4台虚拟机同时运行,各分系统的性能仍可满足4位用户同时在线进行数据分析,其性能相当于物理机的80%-90%。

表2 数据处理系统的性能测试

色谱、质谱数据远程处理平台的实现是基于虚拟机系统和远程网络访问,其构建的远程处理系统具有一系列优点:①实现分析仪器更高效的应用,仪器的测试操作与数据处理分离,避免数据处理过程中占用过多的电脑系统资源;②有效地整合分析仪器数据处理资源,通过网络把分散于不同仪器处理平台的软件有机地联系起来,如可同时处理同一样品的色谱与质谱数据,或不同质谱平台的数据;③支持多用户异地实时进行数据处理以及单用户同时处理多项实验数据;④极强的灵活性和可拓展性,可根据软件的应用调整虚拟操作系统的配置,如增加内存及硬盘空间;可增加多个虚拟机以适应数据处理需要。

4 后期建设方案

基于Windows Server 2019及VMware workstation基础上的虚拟机运行数量有限,但安装配置及维护均简单方便,可满足大多数色谱、质谱数据处理需求。不足之处是:①服务器基于Windows Server 2019,本身需占用一定的系统资源;②服务器硬件水平限制了更强的虚拟机配置及虚拟机数量;③虚拟机的启动及故障排查、恢复需人工处理。

更高性能的远程数据处理平台方案需要更强的服务器作为基础,即高频、多核及多处理器,128G甚至192G内存,大容量高速固态硬盘等。ESXi提供虚拟化服务,即所有的虚拟机包括vCenter Server均运行在ESXi服务上面[17]。应用vSphere client直接管理ESXi服务或通过vCenter间接管理ESXi服务。这样通过VMware vSphere软件可高效管理、访问十几台至几十台虚拟机,不但可运行多个不同的数据处理软件,也可同时运行相同的数据处理软件进行不同的数据分析。

5 结 语

针对公共仪器测试平台的色谱、质谱数据处理问题,本文设计并建立了基于虚拟化技术的远程数据处理平台,将现有的本地数据处理程序以虚拟机为载体连入网络,从而实现多用户同时进行数据的远程访问与处理。实践证明,基于虚拟机和远程桌面技术的数据处理平台极大拓展了仪器使用空间和时间,能够显著提高大型仪器的共享程度,有效提高色谱和质谱等分析仪器应用效率和使用水平,在公共平台及实验室大型仪器共享和使用管理方面具有广阔的应用前景。

猜你喜欢
数据处理质谱仪器
《现代仪器与医疗》2022年征订回执
《现代仪器与医疗》2022年征订回执
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
气相色谱质谱联用仪在农残检测中的应用及维护
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
“质谱技术在核工业中的应用”专辑
我国古代的天文仪器
成都仪器厂氦质谱检漏仪
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用