基于深度学习的房产价值视觉评估

2021-01-28 03:35谢志伟
微型电脑应用 2021年1期
关键词:示例排序房屋

谢志伟

(东莞职业技术学院 计算机工程系, 广东 东莞 523808)

0 引言

在现代房地产市场背景下,房屋评估是包括买卖双方,贷款方和房地产经纪人在内的各方参与的必要步骤。传统考察房屋的方式一般是人员实地勘察。但随着网络发展带来的便利,以及新冠肺炎疫情的影响,网络看房成为主流选择。一般网上交易时,都是利用大量房屋照片吸引潜在买家并说服他们出价是一种常见的做法。要自动评估房屋价值,需要面临这样的问题:一个有经验的人如何去评估房屋价值。基本上,发现以下几个方面在评估房屋价值时最为重要:房屋的文字或视觉特征[1];与相似房产的比较[2];以及对周围区域的评估[3]。但这些评估主要是基于人的主观,所以难免会存在不公正现象,因此,解决以上问题,在此提出了一种有效的自动方法,基于文本和视觉特征(即视觉房屋评估)准确预测房屋价值,并命名为MDRR(Multi-instance Deep Ranking and Regression)。

1 多示例深度排序回归网

1.1 深度排序与回归网

考虑一组训练样本(xi,yi)其中xi表示示例包,而yi表示相关的连续标签。在此的目标是学习可以将示例映射到目标标签空间的预测函数gw(·)和可以根据其连续标签对两个示例进行排序的等级函数fw(·),w表示要从训练数据中学习的参数。这项工作的目标是从多示例设置中从弱监督数据中学习gw(·)和fw(·)的深入表示。

因此引入一个多层神经网络,称为多示例深度排序和回归网络,来参数化预测函数gw(·)和排序函数fw(·)。MDRR的体系结构,如图1所示。

输入是一个包含房屋文本和图像数据的示例,输出是连续的标签和等级。MDRR由3个子网组成。采用前馈神经网络(FNN)和卷积神经网络(CNN)分别对文本输入和图像输入进行处理。这两个网络的最后一个隐藏层完全连接到一个融合层,如浅色框所示,它在两个方面起作用。一方面,融合层的输出激活完全连接到一个以fw(·)表示的输出神经元,fw(·)的输出用于根据连续标记对两个示例进行排序,w表示MDRR的参数,但有滥用符号的情况。另一方面,融合层的激活进一步反馈给FNN,其输出神经元(表示为gw(·))返回连续标签。在下面的两部分中,将推导出这两个损失函数的数学定义。

图1 MDRR网络示意图

1.2 多示例排名损失

函数fw(·)用于将示例映射到秩标量。为了学习最优fw(·),收集一组有序的包对,用(i,j)表示,其中包i的等级高于其他包j,并使用这些有序的包对来学习网络参数w。让xik表示第i个包的第k个示例。对于任何一对(i,j),函数fw(·)应该遵循多示例约束[4]:包i示例的最大秩应该高于包j中任何示例的秩。形式上,有一组约束,如式(1)。

(1)

它可以用来限制w的可行解,从而达到排序的目的。

因此,排名损失,如式(2)、式(3)。

(2)

(3)

式中,λ是一个常量参数,ξijl≥0,∀k,l,∀(i,j)。根据文献[5],可以通过将xik重写为包i中示例的凸组合来替换式(3)左侧的最大算子。

1.3 多示例回归损失

回归函数gw(·)用于预测通过3个子网的输入示例的连续标记。这里,gw(·)遵循传统的多示例约束[6]:对于包中的所有示例,gw(·)的最大预测应等于仅对每个包可用的真实值,如式(4)。

(4)

或者,式(4)相当于式(5)。

yi=gw(xi,d(i)),受约束于gw(xi,d(i))≥gw(xik),∀k

(5)

式中,d(i)索引具有最大预测gw(·)的包i的示例。MDRR网络的回归损失函数定义,如式(6)。

(6)

式(6)受约束于条件式(7)。

gw(xi,d(i))≥gw(xik)

(7)

为了最小化Q(·),可以使用替代优化策略。在d(i)固定的情况下,Q(·)是相对于权重参数w的二次凸函数。在目前的步骤中,w可以评估gw(·)以检索d(i)。对于一个看不见的包,它的预测可以通过将它的所有示例通过MDRR网络并找到gw(·)的最大预测来实现。

1.4 反向传播学习

为了求解最优参数w,对式(2)和式(6)进行了转换,转化为无约束形式,利用反向传播算法[7]迭代更新网络参数w。在每次迭代中,计算关于w的损失函数的导数,并用反向传播的梯度更新相应的参数。采用带动量项的随机梯度下降法。动量重量设为0.9,最小批量为32。在开始时将全局学习率设置为0.004,并在各个时期衰减。

2 MDRR算法实现

在本节中,讨论了MDRR的实现,该实现可从文本和图像数据中预测房价。假设有一组房屋,并且每个房屋都提供了一组文字特征和一组房屋照片。将每个房屋视为一包示例,每个示例都代表房屋照片以及房屋的文字特征(例如,大小,房间数量等)。房屋价值在包装级别提供。在网上市场上,一所房子通常有20至50张照片,并用多种文字特征加以描述。

2.1 用语义意识对损失进行排名

式(3)中的约束是无意义的,如果两张房子的照片不是同一类别。对花园和厨房室等进行排名毫无意义。因此,将所有房屋照片(例如,花园,浴室,客厅等)分类,并在等式中应用约束。仅适用于同一类别的照片对,让cik表示图像xik的类别,为排序目的定义了语义感知目标函数,如式(8)。

(8)

公式(8)受限于式(9)和式(10)。

(9)

ξijl≥0,∀l,∀(i,j)

(10)

为了给一对测试房屋(i,j)排序,可以通过MDRR网络对它们的每个示例进行排序,并测试式(1)是否成立。

2.2 带有启发式约束的回归损失

在此进一步引入了一组人类启发式方法来规范回归损失函数式(6)的学习。这些启发式方法来源于常识性知识,人们在感知房价时广泛使用这些知识。例如,有3个卧室的房子往往比有一个卧室的房子更贵;独户的房子比公寓的价值更高。尽管个别的约束可能很弱,但这些约束的集合可以提供有用的信息,帮助预测房价。

形式上,让C表示房屋对的集合(i,j)∈C,根据常识类型,房屋i的价值低于房屋j的价值。在此修改式(6)中的回归损失函数,如式(11)。

(11)

式中,受限于gw(xi,d(i))≥gw(xik),gw(xik)-gw(xcl)>1-ζic,∀(i,c)∈C。

注意,根据不同的常识知识,C中的两个房子可能有冲突的顺序。式(11)简单地利用这些常识作为软约束来限制可行解空间。

2.3 照片分类

将所有的房屋照片分为11类:卧室、客厅、厨房、浴室、后院、餐厅、游泳池、车库、储藏室、邻居和其他。收集了11个类别中每一个类别的200张照片,密集的作物子区域,并使用修剪的图像来训练具有分类损失的CNN网络。为了对照片进行分类,在学习过的CNN网络上进行转发。预测将用于删减式(8)中的无效约束。使用自动分类结果来减少人工操作。此外,在本研究中,每一个约束都被用作软约束,并且没有一个约束会支配训练结果。

3 实验

在这一部分中,将提出的MDRR方法应用于多模态房价预测问题,并将其与其他方法进行比较。

3.1 数据集

为了研究可视房屋评估问题,收集了一个包含文本特征、房屋照片和交易历史的图像数据集,数据集来自于美国房产的多重上市服务系统(Multiple Listing Service)。数据集包括约90万张30 141栋房屋的照片。对于每套房子,使用最新的交易价格作为它的真实房价。

将数据集分成3个子集,分别用于培训、验证和测试,包括15 000,5 000和10 141个房屋。用11个类别对训练/验证图像进行人工标注,并用它们训练和评估CNN分类模型。

3.2 评估对象

该方法由3个子网络和2个损失函数组成,利用文本特征和房屋照片预测房屋价值。

1.MDRR-1A是使用子网A处理文本特征的排名网络。

2.MDRR-2A,使用子网工作A、子网C和回归损失的回归网络。

3.MDRR-3A,一种使用子网A和子网C的联合排序和回归网络。

4.MDRR-5A,一个联合排序和回归网络。

3.3 评估指标

将上述方法应用于图像数据集有两个目的:房屋价值的回归和房屋对的排序。为了回归的目的,计算了每套房子的预测值与真实值之间的误差,使用两个误差单位:(1)预测值与实际价格的绝对差;(2)误差百分比,即实际房价的绝对误差。对所有测试样本的这两个指标进行平均,并计算它们的标准偏差。为了排名的目的,只需计算测试样本错误预测的百分比。同时为了更加客观,也将结果与其他常用的回归或排序方法进行了比较。

针对两种设置评估上述算法:(1)在多示例设置中同时使用文本特征和照片;(2)仅使用文本特征并且多示例设置退化为监督设置。在这些算法中,NN和DR可以直接处理房屋照片。对于其他算法,在此将每一张照片通过训练用于照片分类的CNN网络,并使用最后一个隐藏层的输出激活作为视觉特征向量。这种特征提取已经被广泛应用于图像相关的任务。为了获得这些基线的最佳参数,在验证子集上使用10倍交叉验证过程,如图2所示。

a 带泳池的房屋

图2显示了MDRR-5A算法的运行结果。在每一子图中展示了同一所房子的两张照片。对于每一栋房子的照片,方框中为达到的最高价格预测gw(·)。最上面子图中的上方是后院的照片,最下方是外景的照片。真正的房价标在每一个方框的顶部。可以观察到,对房价的预测与人类的认知是一致的。特别是,图2(a)的房屋中有舒适的家具、保养良好的植物、良好的天花板、巨大的泳池或其他附加条件,这些都比其他框上的房子有更高的房屋估价。所提出的方法能够在训练期间对这些视觉模式进行建模,并做出一致和准确的价格预测。三个房屋外观示意图,如图3所示。

a

预测结果,如表1所示。

表1 预测结果

在这些房屋中,所提出的方法MDRR能够准确地预测其值,而VGG-16和MDRR-3具有相对较大的估计误差。这是因为MDRR-3只使用文本特征,VGG-16不使用排名损失。值得注意的是,MDRR-3和MDRR-5保留了这三所房子的相对顺序,即A

各种回归算法的平均误差和标准差,如表2所示。

表2 回归算法比较

不同价格区间的平均误差,如图4所示。

a 平均误差

除了展示本研究的方法的结果外,还引入了随机森林方法的结果。请注意,低价房的绝对误差相对低于高价房的绝对误差,这在直观上是合理的。成对房屋排序的错误率,如表3所示。

表3 排序比较

从以上结果,可以得到以下观察结果。(1)提出的MDRR网络在两个指标上都达到了最小的误差。特别是,平均误差小于5 000美元,考虑到房价在10万至200万美元之间变化,这在实践中是令人鼓舞的;(2)利用MDRR-net、RF、NN或boosting等不同框架的房屋照片,可以减少评估误差。以MDRR为例,MDRR-3A的平均误差为15 700美元,如果另外访问房屋照片,则可以减少到4 300美元;(3)联合回归和排名被证明是有效的,特别是对于提出的MDRR网络。这可以通过MDRR-5A与其它的比较,或者MDRR-3A与MDRR-2A的比较来验证;(4)提出的语义感知和常识知识可以进一步减少系统错误。此外,结果表明,提出的方法比最新的基于网络的回归方法能获得更好的精度。虽然提出的方法也可以从先进的网络结构中获益,但是对所提出的框架和各种网络结构的组合进行详尽的测试超出了本文的研究范围。在本研究的实验设置中,MDRR-5使用房屋照片和房屋纹理特征作为学习回归和排名网络的输入,而MDRR-3只使用文本房屋特征。考虑到数以千计的图像数据可以为学习深度表示提供大量信息。更重要的是,基于VGG网络的方法使用了一个完全监督的回归损失,定义在房屋示例(即照片)和行李层标签上,而不使用示例层标签,预计不会有效。由于MDRR-5采用多示例公式,同时训练回归和排序损失,效果较好。

4 总结

在这项工作中,研究了一种新颖的图像任务,即房屋视觉评估,并将其表述为弱监督学习问题。主要工作有两个方面。一方面,收集了一个综合的图像基准来研究视觉房屋评估问题,本研究实施了包括建议的回归方法在内的多种回归方法,并对建议的数据集进行了详尽的评估。收集的数据集以及基线方法将被发布,以促进这一新方向的研究;另一方面,开发了一种用于视觉房屋评估的多示例学习方法,该方法可以利用文本数据和图像数据共同训练用于排名和回归目的的深度表示。大量的比较实验表明,本研究的方法可以高精度估计房屋价值。对单个组件的分析清楚地表明了所提出解决方案的技术可靠性。

猜你喜欢
示例排序房屋
排序不等式
UMAMMA历史房屋改造
房屋
恐怖排序
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
常见单位符号大小写混淆示例
节日排序
转租房屋,出现问题由谁负责?
“全等三角形”错解示例