数据挖掘视角下住房租赁市场现状及对策研究

2022-05-18 01:58张菊玲卢晓婷
上海房地 2022年4期
关键词:租客建筑面积房源

文/张菊玲 卢晓婷

引言

2020年新华社正式发布《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》,该建议指出,“坚持房子是用来住的、不是用来炒的定位,租购并举、因城施策,促进房地产市场平稳健康发展”[1]。近年来,由于一线城市及新一线城市大规模的人口流动和不断上涨的房价,购房对于在大城市工作的人来说,成为一个遥不可及的目标。房地产市场逐渐从增量房市场过渡至存量房市场,因而住房租赁成为房地产市场关注的一个重点。2017年,北京、上海、广州外来人口中超过五成选择租房居住,深圳则将近七成租房居住[2];与一线城市相比,新一线城市竞争压力相对较小,加以人才引进政策的实施,以成都、杭州、重庆、西安为代表的新一线城市在近几年成为大学毕业生的工作首选之地,这也在无形中导致房价不断上涨。越来越多的人选择租房来住,“70后”为了孩子的教育问题选择租房,“80后”由于购房资金不足选择租房,“90后”为了工作需要选择租房。根据房天下研究院的调查数据,预计2023年我国住房租赁人口规模将达到2.48亿人[3]。由此可见,一线城市及新一线城市住房租赁市场的规模正在进一步扩大。

随着住房租赁市场规模的扩大,租房平台上的数据日渐增多。数据挖掘技术可以从海量数据中提取关键信息,将其应用于住房租赁市场研究的优势愈发明显。目前,针对住房租赁市场的相关研究大多聚焦于租房的价格影响因素[4-7]和价格预测[8-10]。有学者将昆明市呈贡区的租房数据进行时空聚类和关联分析,挖掘租房数据信息中的规律和价值[11],但其只分析了某一个地区的租房数据,明显缺乏代表性和普适性。因此,本文选取上海、北京、深圳、广州、成都、杭州、重庆、西安等八个城市的租房数据信息为样本,运用数据挖掘技术挖掘租房数据信息的规律和价值,深入分析住房租赁市场的供给现状,并对今后住房租赁市场的可持续健康发展提出切实可行的建议。

一、数据准备及预处理

(一)数据准备

本文依据《2021城市商业魅力排行榜》[12]选取了一线及新一线代表城市上海、北京、深圳、广州、成都、杭州、重庆、西安的租房数据作为参考样本。采用网络爬虫软件后羿采集器抓取了房天下网站上的租房数据,共抓取14895条房屋出租数据,将其保存到Excel表格中,每条数据包含出租标题、房屋地址、租金、建筑面积、装修、楼层等房屋信息。

(二)数据预处理

数据预处理主要是对数据中异常值和重复值的处理,由于样本量大,且网上采集下来的数据存在很多不规范的地方,数据处理显得尤为重要。本文剔除了以下有问题的数据:第一,重要信息缺失的房源,如面积、地址等信息;第二,信息完全相同的重复房源;第三,明显偏差过大或者不符合实际的数据,如一些房东或中介为了吸引租客,发布一些虚假信息,使得数据中存在一些离群值,例如有的房屋面积比较大,但租金较低,明显不符合实际情况,所以将这些样本进行删除;第四,租金过高(>80000元/月)的房源;第五,建筑面积过大(>400平方米)的房源。经过数据预处理后剩余14389条有效数据,八个城市数据占比依次为13.2%、10.3%、14.9%、15.6%、13.7%、14.3%、3.8%、14.2%。

二、统计分析

(一)词云分析

词云分析是通过调用相应的扩展包,使用分词工具进行中文分词后,对结果进行分析,生成对应的图表,反映数据中高热度、高使用频率的词或短语[13]。房东或者中介在网站上发布租房信息时,通常会把房子最重要的属性特征放到出租标题中,以此来吸引租客的浏览和点击。在抓取数据时,这些属性特征已经出现在标题中,因此本文对出租标题字段统计词频,作出词云图,以更直观地展示各城市出租房屋的属性特征。

采用Python生成词云图,其步骤大致为:首先,用import调用相应的扩展包;其次,读取文本内容进行分词,加载停用词词典;然后用extract_tags()函数去除停用词并统计词频,将其转化为字典格式word_dict;最后,调用WordCloud().fit_words(word_dict)绘制词云,调用plt.imshow(word_cloud)将词云图显示出来。本文对上述八大城市租房数据的词云分析结果如图1所示。

图1 八大城市词云图

通过八大城市出租房屋特征属性的词云图对比,发现“地铁”“精装修”“拎包入住”是各城市的核心关键词,而“公交”“巴士”等词几乎没有出现,这反映了地铁是租客的主要出行工具。室内装修也是出租房屋的核心特征,租客一般很少愿意自己装修租赁的房屋,他们通常直接租赁可以随时拎包入住的房子。除北京、上海外,其他各城市均出现关键词“优质教育”,可见这些城市房屋租赁市场上学区房占比较大,优质教育也是出租房的核心特征。

一线城市租客年龄主要集中在30-34岁,新一线城市则主要集中在25-29岁,主要是因为新一线城市的人才引进政策吸引了大多数应届毕业生。由此可见,一线及新一线城市的租客呈现出年轻化的特征,他们面临高房价通常会选择租房过渡,并且对房屋各方面的配置要求较高。各城市租客的关注特征有所不同:北京租客最关心“服务”,上海、广州、深圳的租客最关心“生活”,杭州、重庆的租客最关心“家电”,成都、西安的租客最关心“交通”[14]。分析图1可发现,房天下网站上具有地铁、装修和教育等核心价值特征的房源发布得较多,各城市应根据租客的需求情况对发布的房源进行调整。

(二)聚类分析

K-means聚类算法是以平均值为聚类中心的一种聚类方法,它应用广泛,但本身存在着许多问题[15]。由于K-Means聚类算法每一次迭代都需要遍历全部样本数据,数据量过大,迭代次数过多,导致计算复杂度高,进行聚类的样本量超过1万个时适用性差。因此,本文使用K-Means聚类算法的优化算法Mini Batch K-Means聚类算法对房屋租金进行聚类,分析住房租赁市场上租金的分布规律,为下文进行关联规则分析提供依据。

Mini Batch K-Means聚类算法是在保持聚类准确性的条件下大幅提高聚类效率的一种算法,该算法并不是每次都使用数据集中的所有数据,而是从数据集中随机选择一个子集,因此大大减少了聚类时间,总体上减少了收敛时间[16]。此外,它使用kmeans++初始化聚类中心,避免算法陷入局部最优,进一步保证聚类结果的有效性。该算法的运行步骤为:第一步,从数据集中随机选取小批量数据进行计算,将它们分配给距离其最近的质心;第二步,计算每一个小批量数据的平均值来更新质心,并把小批量里的数据分配给该质心,迭代次数越多,这些质心的变化越小,直至质心稳定便停止计算。

进行聚类前需要使用肘部法则确定最佳聚类数。肘部法则是根据所有样本点间的误差平方和与聚类数之间的关系来判断最佳聚类数。误差平方和随聚类数的增加而骤减,在达到某个临界点时降低幅度会减弱,之后逐渐趋于平缓,这个临界点对应的聚类数就是最佳聚类数。

将八个城市的租金和建筑面积对数化,可以缩小数据的离散程度。根据八个城市的月租金和建筑面积信息运用肘部法则,结果如图2所示,横轴为聚类数,纵轴为误差平方和。

图2 肘部法则图

从图2可以看出,聚类数为3时下降幅度减弱,之后趋于平缓,所以最佳聚类数为3类。将月租金与建筑面积进行二维聚类,聚类效果如图3所示,横轴代表建筑面积(平方米),纵轴代表月租金(元)。

图3 八个城市月租金-建筑面积聚类图

从图3可以看出,月租金与建筑面积具有正相关性,建筑面积越大,月租金越高。样本数据以月租金为聚类区间被分为A、B、C三类,由聚类结果可得到3个质心,A类质心为(87,4467),B类质心为(169,18757),C类质心为(258,44878)。其中,A类共有11513个样本,占总样本约80%,月租金在10000元以下;B类共有2254个样本,占总样本的16%,月租金在10000-30000元之间;C类共有622个样本,占总样本的4%,月租金高于30000元。由此可见,市场上发布的各个类簇的样本数并不平均,月租金10000元以下的房屋数量较多,月租金高于30000元的房屋数量较少,且房屋租金的跨度较大,最低月租金为1000元,最高月租金为80000元。住房租赁市场上租房的人大多为外来务工人员和大学毕业生,他们收入有限,更偏好租金低的小户型,以满足日常生活需求。中户型的房屋适合合租或者家庭租赁。根据市场调查,仅有27%的租客以家庭形式与老人、小孩同住[17],相比之下,租客更愿意个人整租小户型房屋。

三、关联规则分析

关联规则分析可以寻找数据库中不同属性之间的相互关系。关联规则的形式是X→Y,X为规则的前项,Y为规则的后项。支持度是指X和Y一起出现的概率,置信度是指在X出现的条件下,Y出现的概率[18]。

关联规则挖掘过程包括两步:第一步,从数据集中找出所有的频繁项集,它们的支持度大于等于设置的最小支持度;第二步,由频繁项集产生强关联规则,计算它们的置信度,保留大于等于设置的最小置信度的关联规则。[19]

GRI算法是关联规则挖掘中的一种算法,它能处理不同类型的变量。进行关联分析前,需要对变量进行分类,如楼层可分为低、中、高,装修可分为毛坯、简装修、中装修、精装修和豪华装修等,将分类后的变量进行编码,并转换为一个0-1类型的数据集,使用Clementine 12.0软件进行挖掘分析。该算法的步骤为:首先,通过Var.file节点读入数据;然后,在Fidel Ops中选择一个Type节点来设置输入数据的各个属性;接下来,在Modeling中选择GRI模型,并与前面的Type节点连接,最小支持度和最小置信度分别设置为10%和30%;最后,执行GRI模型中算法得到关联规则,从而发现租房数据信息属性特征之间的关联规律。

将城市、租金、建筑面积、楼层、装修、地铁进行编码,分为 P1、P2、……,P25,共25个字段,如表1所示。

表1 编码表

对编码后各变量之间的关联规则进行挖掘后,按照支持度和置信度排序,部分结果如表2、表3所示。

表3 关联规则表(置信度排序)

从表2可以看出:租金低于10000元的精装修房源数量约占总量的78%,租金低于10000元、建筑面积在0-87平方米之间的房源数量约占总量的78%,租金低于10000元、附近有地铁、建筑面积在0-87平方米之间的房源数量约占总量的60%,租金低于10000元、精装修、附近有地铁、高层的房源数量约占总量的48%,建筑面积在87-169平方米之间、精装修、附近有地铁、高层的房源数量约占总量的25%,租金在10000-30000元之间、建筑面积在87-169平方米之间的房源数量约占总量的17%。

表2 关联规则表(支持度排序)

从表3可以看出:上海的房源中约88%附近有地铁;西安租金小于10000元的房源中约85%为精装修;杭州租金小于10000元的房源中约70%附近有地铁;重庆租金小于10000元的房源中约60%建筑面积小于87平方米;广州精装修的房源中将近一半建筑面积在87-169平方米之间;深圳精装修的房源中约40%建筑面积在87-169平方米之间。

通过分析租房数据中的关联规则可以得出房源不同特征属性之间的关联性。分析表2和表3可以发现:一线及新一线城市住房租赁市场上的房源以中小户型、低租金、精装修为主;杭州约七成的房源附近有地铁,这是因为杭州作为高新产业园区聚集地,受人才政策的影响,吸引了大学毕业生就业,他们在入职初期,最看重的因素是“交通”和“价格”;重庆相较于其他城市来说租房最轻松,其房租收入比在一线及新一线城市中相对较低,租房压力较小;上海大多数的房源附近有地铁,越来越多的租客为了减少通勤时间,选择在地铁站或公交站附近租房,这样可以提高生活质量。正如前文词云分析所述,“地铁”“精装修”是各城市房源的最大特征属性。市场上也有一些大户型、高租金的房源,但数量极少,在寸土寸金的上海,大户型的房源自然与高租金相匹配;深圳稍大一点的户型租金较高,深圳作为“压力大的现代化都市”的代表,房租收入比最高,租房负担比较重。

四、对策建议

(一)结论

通过词云分析可以更直观地显示当前住房租赁市场上的房源大多具有“地铁”“精装修”“拎包入住”等关键属性,即向租客提供便利、更加贴近租客需求的热点特征属性。通过聚类分析可以发现,一线及新一线城市的房屋租金与建筑面积成正相关关系,租金大部分集中在10000元以下,建筑面积大多集中在169平方米以内,但租金跨度较大,并且房屋的建筑面积较大。由于当前房源供给主体大多数为居民个人,多居室、大户型的房源较多,与租客的需求不匹配,容易造成房屋空置,浪费房屋资源。基于词云分析和聚类分析的结果,进行关联规则分析,可以发现我国住房租赁市场上的房源以中小户型、低租金、精装修为主,上海、深圳租金较高,造成租客租房负担较重。

(二)对策建议

通过分析我国一线及新一线城市住房租赁市场的供给现状,结合当前住房租赁市场的需求现状,可以发现我国住房租赁市场上存在的一些问题。针对存在的问题,本文提出以下对策建议,以促进房屋租赁市场健康可持续发展。

1.加大适租房供应。从需求端看,75%以上的租客需要50平方米以下的中小户型房屋[17],租客的主体农民工和大学毕业生的居住诉求较为简单,对一居室、小户型的房屋有较大需求;从供给端看,租赁平台发布的房源大多数由居民个人供给,主要是多居室、大户型的房屋,房地产开发商最初建造住房的目的并不是为了出租而是为了销售,导致高档住宅的比例不断增加,而经济适用房的比例逐年减少,有些房源为豪华装修的独栋别墅,但由于租金太高,不太契合大众的需求。由此可见,当前住房租赁市场供给端与需求端不平衡,适租房供应不足。因此,政府应加大专项租赁用地的供给,鼓励房地产开发商在产业园或办公楼附近建造以租赁为主的楼盘,设计契合市场需求的户型,从而更好地解决适租房短缺的问题。

2.培育和发展专业化房屋租赁托管机构。当前市场上大部分房源为个人出租,由于个人房东没有时间精力向租客提供房屋装修、家具修理等日常配套服务,这可能导致租金滞纳、房屋损坏等各种租赁风险,也有些房产中介机构收取高额的中介费用并导致租金不得不上涨,造成租客不满。随意涨房租、二房东、黑中介等各种现象层出不穷,租客的权益未能得到有效保障。政府应培育从房屋建造到房屋装修再到房屋出租各环节一体化的专业房屋租赁机构,规范房屋租赁流程,完善租赁行业的法律法规,保障租客的权益,提高租赁市场的效率。

3.加大住房补贴政策力度。目前租赁市场的主力军是大学毕业生,各地为了吸引人才,给予符合条件的高校毕业生租房补贴,为他们解决住房问题,提升城市的综合竞争力。由于高房价的压力,大多数高校毕业生会长时间地租房,如果政府提供住房补贴的时间太短,大学生工作还没有稳定下来就失去了补贴,更容易造成人才流失。此外,政府补贴的申请条件之一是应届毕业生身份,这具有一定的局限性。政府应加大住房补贴力度,如放宽补贴的申请条件、延长补贴时限等,使更多的大学生享受住房补贴政策带来的优惠。

总结

本文运用词云分析、聚类分析和关联规则分析等数据挖掘技术,对我国一线及新一线代表城市住房租赁市场供给现状进行了深入研究,结合当前住房租赁市场需求状况,综合分析住房租赁市场存在的一些问题,并提出可行性建议。网站上发布的房源数据会定期清理,导致无法和往年数据进行对比,数据不够全面,具有一定的局限性。后续研究会考虑获取时间跨度更大的数据进行分析,挖掘其中重要的规律和价值,促使住房租赁市场健康可持续发展。

猜你喜欢
租客建筑面积房源
房屋建筑面积测量研究
从一句广告词看房地产经纪的本质
背影有点像你
刍议合理确定“三旧”改造项目容积率
浅析如何提高房产测绘质量的措施