面向船型阻力性能优化的知识获取技术研究

2019-11-09 01:21冯佰威常海超

船舶力学 2019年10期

叶萌，吴凯，冯佰威，常海超

（1. 高性能船舶技术教育部重点实验室（武汉理工大学），武汉430063； 2. 哈尔滨工程大学水下机器人技术重点实验室，哈尔滨150001； 3. 武汉理工大学交通学院，武汉430063）

0 引言

近年来，将优化算法与计算流体力学（CFD）技术相结合的船型优化方法在船舶工程领域被广泛应用。该方法往往包含密集的仿真分析，会产生海量仿真数据[1-2]。然而，目前国内外的研究仅仅是对最优仿真结果进行讨论分析，却忽视了仿真数据中隐含的设计知识。为此，本文将数据挖掘技术应用于船型优化设计中，通过获得隐含的设计知识，用来指导和理解船型优化问题。

数据挖掘（Data mining）就是指从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中，通过规则和可视化等形式，提取隐含在其中的，人们事先不知道的，但又是潜在有用的、目标明确、针对性强、精炼准确的信息和知识的过程[3]。如Shieh 等人[4]通过人们对产品的情感反应数据，利用粗糙集理论进行分析，得到产品尺寸和颜色等设计参数对产品受欢迎程度的影响。池力[5]采用自组织映射（SOM）和模糊聚类对高强混凝土配合比设计数据进行知识挖掘，通过映射图和聚类分析，得到有助于增加混泥土抗压强度的设计信息。Sugimura 等人[6]通过决策树分析和粗糙集理论对鼓风机的叶轮优化数据进行挖掘分析，提出有利于增强气动效率和运行稳定性的设计规则。

为了挖掘船型设计参数与水动力性能之间的设计知识，本文基于粗糙集理论，对KCS 集装箱船的兴波阻力优化仿真数据进行数据挖掘，数据挖掘的结果验证了该方法的可靠性。

1 基于粗糙集理论的知识获取方法

1.1 船型优化仿真数据知识挖掘流程

船型优化仿真数据知识挖掘流程如图1 所示。第一阶段为船型优化设计:利用本课题组的船型优化平台，使用遗传算法得到用于数据挖掘的优化仿真数据；第二阶段为数据挖掘:基于粗糙集理论，提取相关设计规则，对设计规则进行统计分析，可以获得优化仿真数据中隐含的设计知识。

1.2 粗糙集理论概述

图1 船型优化设计知识挖掘流程图Fig.1 Overall procedure of design knowledge extraction framework

图2 粗糙集理论示意图Fig.2 Rough set theory

粗糙集理论是1982 年由Pawlak 首次提出，作为一个数学工具，能够处理模糊数据，并从数据中提取规则，被广泛应用于人工智能分析领域。粗糙集理论通过集合元素分类和集合逻辑运算，实现规则的提取，其数学方面的原理可以参考文献[9-10]。本文将粗糙集理论应用于船型优化仿真数据的知识挖掘中，其运行原理如图2 所示。

1.2.1 粗糙集离散化

运用粗糙集理论提取规则时，需要进行数据预处理，把信息表知识表达系统S 转换为用离散值表示的决策表S′，进而适用于集合逻辑运算。由于优化仿真数据都是连续型数据，本文采用模糊C 均值聚类算法（FCM）对所有优化设计变量和优化目标逐一进行离散化处理，具体步骤如下:

（1）根据4 个聚类有效性指标，即划分系数VPC、Xie_Beni 有效性指标VXB、A.M. Bensaid 有效性指标VSC和Overlap and Separation 有效性指标VOS[11-14]，确定最佳模糊聚类数m（m≥2），使待离散数据可以离散为m 个区间。 VPC越大，VXB、VSC和VOS越小，代表聚类效果越好；

（2）根据最佳聚类数m 进行模糊C 均值聚类计算，n 个仿真数据可聚为m 类，计算得到m 个聚类中心Vk（k=1, 2, …, m）以及每一仿真数据i 对应每一聚类j 的隶属度μij（i=1, 2, …, n; j=1, 2, …,m）；

（3）对m 个聚类中心Vk进行升序排序，依次编码为0, 1, …, m-1，对应的离散区间为［l, （V1+V2）/2 ］，［（V1+V2）/2, （V2+V3）/2 ］，…，［（Vm-1+Vm）/2,r ］，l 和r 分别代表待离散数据值域的上边界和下边界；

（4）比较每一仿真数据i 对应每一聚类j 的隶属度μij的大小，依据最大隶属度μij对应的聚类中心进行离散编码。

1.2.2 粗糙集属性约减

基于粗糙集理论的知识获取，通过对原始决策表的约减，在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对条件属性进行简化，称为属性约减[15]。优化仿真数据离散化后，一些优化变量可以被省去而不影响决策表分类能力。优化变量的减少将使推导规则简化，有助于知识的理解和分析。本文采用基于属性重要性的属性约减算法。

该算法的步骤如下:

（1）计算条件属性集C 相对决策属性D 的核属性集C0，令初始约简集合B=C0；

（2）对于每一条件属性ai∈C-B，分别计算各条件属性重要度sig （ai, B,D ）=card（POSB∪｛ai｝（D ）-POSB（D ））/card（D ）。 card（）代表集合中元素的个数；

（3）选取条件属性重要度sig （ai, B,D ）最大的属性ai加入约减集合B，若存在多个条件属性重要度sig （ai, B,D ）为最大，则任选其一加入约减集合B；

（4）计算POSB（D ），若POSB（D ）=POSC（D ），则完成属性约减，输出约减集合B，否则跳转至步骤二。

1.2.3 粗糙集规则提取

本文采用穷举算法（Exhaustive algorithm）得到所有推导规则[16]，并删除不感兴趣的推导规则，主要包括优化目标结果差的规则，样本出现频率较低的规则（支持度较低的规则），最终获得需要的、可信度高的规则集。

2 KCS 集装箱船设计知识挖掘实例

2.1 KCS 集装箱船兴波阻力优化

以韩国船舶与海洋工程研究所（KRISO）的集装箱船KCS 为研究对象，利用参数化建模软件Friendship 完成船体参数化建模工作，如图3 所示。

图3 KCS 三维图Fig.3 KCS model

本文选取船体曲面前半部分作为优化对象，优化设计变量如表1 所示。为使优化船舶的载重量以及浮态不发生太大改变，设计约束设定为排水量及浮心纵向位置在母型船1%范围内变动。优化目标为傅汝德数Fr=0.26 时，船舶兴波阻力最小。兴波阻力采用SHIPFLOW 软件计算。

表1 优化设计变量Tab.1 Optimisation variables

为了更好地理解相关设计参数的物理含义，部分设计参数在特征曲线上的表示如图4 所示。

图4 部分设计参数在特征曲线上的示意图Fig.4 Design parameters on the characteristic curve

基于Friendship 软件平台，采用NSGA-Ⅱ遗传算法，对船舶兴波阻力进行优化。表2 为船舶兴波阻力的优化结果，可以看出优化船型的兴波阻力相比母型船降低了10.8%，兴波阻力性能改善明显。此外，在整个优化过程中可以得到860 条船舶兴波阻力优化仿真数据，如表3 所示，这些优化仿真数据隐含着与船舶兴波阻力相关的船型设计知识，将被用于数据挖掘。

表2 船舶兴波阻力优化结果比较Tab.2 Comparison of optimisation results

表3 船型方案的部分样本数据Tab.3 Samples data for the hull forms

2.2 KCS 集装箱船优化仿真数据知识挖掘

2.2.1 船型优化仿真数据离散化

由表3 可知，兴波阻力优化仿真数据是连续性数据，需要进行离散化预处理，以便进行粗糙集理论的集合逻辑运算。本文采用1.2.1 节的模糊C 均值聚类算法（FCM）逐一对优化变量（X1, X2, …, X10）和优化目标Rw进行离散化处理。考虑到聚类数目过多会导致离散区间数目增加，使推导规则过于繁多和复杂，故在此限定聚类数目不大于5。以优化变量X1（球鼻艏最前端高度值）为例，对其优化数据进行聚类，图5 显示了聚类有效性指标随聚类数目变化的情况，不难发现，当聚类数目为4 时，评价指标VPC较大，评价指标VXB、VSC和VOS较小，聚类效果综合评价最佳，故优化变量X1适宜离散为4 个区间，计算得到聚类中心的位置为（5.31, 5.91, 6.46, 7.12）。根据聚类中心位置和隶属度大小比较，可对每一个仿真数据对象进行编码，用离散值0，1，2，3 表示，其对应的离散区间分别（5, 5.61）、（5.61, 6.18）、（6.18, 6.79）和（6.79, 7.2）。

图5 聚类有效性指标示意图Fig.5 Cluster validity index

同理，可以对其它优化变量和优化目标进行离散化处理，如图6 所示。从图中可以清楚地看到所有优化变量和优化目标的离散区间数目和离散区间位置，用不同的色块表示。球鼻艏长、球鼻艏丰满度曲线起点切角和横剖面面积曲线首部端点高度（X2, X4, X10）被离散为3 个区间。球鼻艏最前端高度值、球鼻艏下半部丰满度、球鼻艏最大宽度、球鼻艏上半部丰满度、球鼻艏轮廓线起点切角和P3 点处y 坐标（X1, X3, X5,X7, X8, X9）被离散为4 个区间。球鼻艏下半部丰满度曲线起点坐标和兴波阻力X6，Rw被离散为5 个区间。最终，优化仿真数据形成如表4 所示的决策表。

2.2.2 船型优化仿真数据属性约减

图6 优化变量和优化目标的离散示意图（值域下边界-0%，值域上边界-100%）Fig.6 Discrete schematic of optimization variables and objects

基于1.2.2 节阐述的属性重要性算法对船型优化仿真数据决策信息表进行属性约简，计算条件属性集C 相对决策属性D 的核属性集C0= ｛X2, X3, X5, X7, X9, X10｝，故初始约减集合B= ｛X2, X3, X5, X7, X9, X10｝。分别计算各条件属性的重要度sig （ai, B,D ），以条件属性X1为例，计算POSB（D ）= ｛1, 2, 3, …, 855, 859 ｝，POSB∪｛X1｝（D ）= ｛1, 2, 3, …, 859, 860 ｝，故sig （X1, B,D ）=card （POSB∪｛X1｝（D ）-POSB（D ））/card（D ）= （50 2-426 ）/860=76/860，同理可得sig （X4, B,D ）=13/860，sig（X6, B,D ）=62/860，sig （X8, B,D ）=95/860，条件属性X8的重要性最大，故将其加入约减集合B。继续计算余下各条件属性的属性重要性，并依次将属性重要性最大的条件属性加入到约简集合B 中，直到POSB（D）=POSC（D ），最终可得约简集B= ｛X1, X2, X3, X5, X6, X7, X8, X9, X10｝。

表4 优化仿真数据的离散化结果Tab.4 Discretization results of simulation data

2.2.3 船型优化仿真数据规则推导

采用1.2.3 的穷举算法进行规则推导，从中筛选感兴趣的（兴波阻力值较小）推导规则，即推导离散结果Rw=0 的规则。由于规则的出现次数越高，表明有更多的仿真数据支持这一规则，使规则的支持度和可靠度增强，故删除支持数目小于10 的推导规则，得到表5 所示的规则集。规则集中的每一条规则代表一个设计知识，例如编号为1 的规则表明:当优化设计变量X2, X3, X5, X7, X9, X10分别在离散值2、0、1、3、1、2 对应的离散区间取值时，船舶的兴波阻力性能较好。此外，从规则支持数目可以发现有63个样本支持这条规则。

2.2.4 推导规则的统计分析

由于挖掘得到的规则数目较多且含义复杂，不利于理解学习，仅用粗糙集理论不能对整个规则集给出一个合理的解释。因此，为了更好地理解规则集的含义，本文通过规则集中优化变量的离散值，计算得到所有设计变量的平均值和标准差，根据优化变量xi在规则集中的出现次数和相应规则的支持数目，对每一优化设计变量xi赋予权重系数wi（归一化系数）。权重系数wi的计算公式如下:

表5 推导规则集Tab.5 Derivation knowledge set

其中，ni为包含优化设计变量xi的所有规则对应的规则支持数目之和。

通常认为，优化变量的权重系数越大，代表优化变量的重要性越强；优化变量的标准差越大，代表优化变量变化幅度大，与其他变量间的交互效应较强。表6 给出了规则集统计分析的计算结果，根据权重系数的大小比较，发现球鼻艏长、球鼻艏下半部丰满度、球鼻艏最大宽度、球鼻艏上半部丰满度、P3 点处水线宽度和横剖面面积曲线首部端点高度值（X2, X3, X5, X7, X9, X10）是对优化影响较大的变量。其中球鼻艏长、球鼻艏上半部丰满度和横剖面面积曲线首部端点高度值越大（X2=2, X7=3, X10=2），球鼻艏下半部丰满度越小（X3=0），则兴波阻力越小。

表6 规则集的统计分析结果Tab.6 Statistical analysis results of knowledge sets

为了验证上述知识挖掘的可靠性，图7 和图8 分别给出了2.1 节母型船和优化船型的横剖线及纵剖线对比，不难发现，优化船型相较于母型船，球鼻艏的长度变长并上翘，球鼻艏上半部的丰满度变大且下半部的丰满度变小，这相当于增加水线以下的船长和进流段的长度，有利于兴波阻力的减小。同时，优化船型水线以下的横剖面曲线略有内凹，水线以上的横剖面曲线外凸，即意味着X10（横剖面面积曲线首部端点高度值）变大，使船艏更加尖瘦，进流角减小，也有利于改善兴波阻力。以上的分析结果与数据挖掘得到的知识是一致的，证实了数据挖掘方法的可行性。此外，与定性分析不同，基于粗糙集理论的知识挖掘方法是通过规则的形式表达知识，所有设计变量用离散值表示，通过感兴趣的规则集，可以定量地分析出设计变量适合的取值区间，如球鼻艏长（X2）适合在离散值2 对应的离散区间取值，球鼻艏下半部丰满度（X3）适合在离散值0 对应的离散区间取值。从表6 可知，球鼻艏最大宽度和P3 点处水线宽度（X5, X9）也是影响较大的变量，但是其取值会随其他变量发生变化（X5=1 或X5=2，X9=1 或X9=3），说明这些变量可能与其它变量有较强的交互效应。而球鼻艏丰满度曲线起点切角（X4）在表6 的规则集中没有出现，说明它是对优化目标灵敏度比较小的设计变量，对优化结果的影响程度较小。这些设计知识是定性分析难以得到的。因此，基于粗糙集理论的知识挖掘方法可以分析得到3 种类型的设计变量，一种是主效应强的重要设计变量，一种是交互效应强的重要设计变量，一种是对优化目标灵敏度比较小的设计变量，这也为设计者提供新的视角去理解船型优化问题。

图7 横剖线图对比Fig.7 Body-plans comparison

图8 纵剖线图对比Fig.8 Buttock-line comparison

3 结论

本文针对集装箱船KCS 兴波阻力的优化仿真数据，采用粗糙集理论进行知识挖掘，获得了以下知识:（1）球鼻艏长、球鼻艏上半部丰满度和横剖面面积曲线首部端点高度值增大，球鼻艏下半部丰满度减少有助于减少兴波阻力；（2）球鼻艏最大宽度和P3 点处水线宽度也是对兴波阻力影响较大的设计变量，这些变量与其他设计变量有较强的交互作用，适宜的取值区间并不固定；（3）球鼻艏丰满度曲线起点切角是对优化目标影响较小的设计变量。

通过比较分析，可以得到以下结论:（1）采用粗糙集理论进行知识挖掘，可以定性和定量地分析船型优化问题，确定相关设计变量的适宜取值范围，且挖掘知识可靠；（2）基于粗糙集理论的知识挖掘方法可以对设计变量的主效应、交互效应进行分析，为设计者提供一个新的视角去理解优化模型，为优化模型的更新简化提供参考。