产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析

2020-12-14 04:14陈玲林平段尧清
知识管理论坛 2020年3期
关键词:虚拟现实产业链专利

陈玲 林平 段尧清

摘要:[目的/意义]在产业链视角下,以虚拟现实技术为例,构建VR专利产业链语料库,挖掘中国VR专利的技术主题、研发热点和未来发展趋势。[方法/过程]首先,利用Python爬取VR领域的专利文本,通过数据清洗得到有效语料库;然后,结合IPC分类号和K-means聚类算法,构建并验证VR专利产业链;最后,基于TF-IDF算法和LDA主题模型,识别出产业链视角下中国VR专利的核心技术主题及其综合强度、技术研发热点和未来趋势。[结果/结论]当前中国VR产业链各环节的专利比例不均衡,上游研发最热门,其次是下游应用,最薄弱的是中游制作。主题挖掘方面,上游热点为软件研发,中游热点为影视制作,下游热点为医疗、教育、娱乐应用。未来趋势方面,产业链上游将以电数字数据处理、光学元件、图像通信等技术为主流,中游将以车辆部件、动力装置、减振装置等技术为主流,下游将以室内游戏、医学诊断、鉴定等技术为主流。

关键词:K-means聚类算法   LDA主题模型  技术主题演化  文本挖掘  VR(虚拟现实)

分类号:G250

DOI:10.13266/j.issn.2095-5472.2020.013

引用格式:陈玲, 林平, 段尧清. 产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析 ——以虚拟现实技术为例[J/OL]. 知识管理论坛, 2020, 5(3): 135-146[引用日期]. http://www.kmf.ac.cn/p/208/.

1  引言

专利是衡量科学技术发展的重要指标,专利内容挖掘是提高科学技术竞争力的主要途径之一。专利内容挖掘涉及专利分类、专利聚类、主题识别、技术趋势分析等方面,其中专利技术主题分析是其研究的核心所在。专利技术主题分析聚焦于识别专利文本的主题(如对主题进行分类、构建主题间的相互关系、预测主题的发展趋势等),对技术研发内容具有高度的概括性和代表性[1]。随着深度学习和机器学习的兴起,文本挖掘被越来越广泛地应用在技术专利主题分析中,其中以LDA(Latent Dirichlet Allocation)主题模型尤为突出。专利技术主题分析方法主要是抽取专利文献标题、摘要及技术要点中的技术特征词,利用文本挖掘方法选择获得主题词,建立主题词之间的共现关联关系,从而聚类获得技术主题[2]。专利技术主题分析常用的方法包括:①利用专利的分类属性作为其技术主题;②通过专利共现网络和引用关系为专利聚类;③使用SAO(subject -action -object)结构语义相似度识别、主题模型或主题聚类等方式从专利等科技文献中挖掘技术主题;④借助技术主题的时间信息,使用时间序列分析等方式预测技术主题演化趋势[3]。

在信息技术快速发展的知识经济时代,虚拟现实作为战略新兴技术的代表,涉及通信、互联网、新媒体等多个领域,具有突出的跨界融合性与技术交叉性,有望引领新一轮技术的变革。众多科技新兴企业均在VR领域积极布局,主要科技大国也均把VR列为战略新兴领域,中国在国家“十三五”规划纲要、G20工商峰会上的重要讲话中提出要发展人工智能和虚拟现实等技术,大力支持虚拟现实(VR)等新兴前沿领域创新和产业化,建设创新型世界经济[4-8]。在产业链视角下,深度挖掘中国VR领域的专利技术主题、技术热点与发展趋势,可以分别从宏观、中观和微观不同的角度对政府、产业和企业提供不同的情报服务,在此基础上制定相应的竞争战略;有助于相关政府部门、VR科研机构和企业等主体在中国和全球范围内更好地进行专利布局,为中国VR产业发展提供参考建议,最终提高中国VR领域的整体产业竞争力。

2  相关研究

2.1  虚拟现实

虚拟现实是以计算机技术为核心,生成与现实环境在视、听、触感等方面高度近似的数字化环境。用户借助相关设备与虚拟环境中的对象进行交互,从而产生真实环境的感受和体验。目前关于虚拟现实的研究主要集中在技术研究[4-5]、系统研究[6-7]、应用研究[8]3个方面:①虚拟现实技术研究。学者主要从立体显示技术[9]、传感器技术[10]、三维图形生成技术[11]等方面将虚拟和现实环境进行混合、实时交互、三维注册。②虚拟现实系统研究。主要分为硬件研究和软件研究,硬件研究包括三维跟踪定位设备、人体运动捕捉设备、触觉力觉反馈设备等的研究[12];软件研究包括数据库研究[13],三维动画、网络场景等应用软件研究[14],基于Vizard软件、Virtools软件、EON软件等的虚拟现实开发平台研究[15]。③虚拟现实应用研究。随着技术不断地进步与成熟,虚拟现实技术逐渐被应用到教育[16]、医疗[17]、图书馆[18]、博物馆[19]等不同场合,从而为人们的生产、生活、学习带来巨大的影响与冲击。

2.2  基于文本挖掘的专利技术主题分析

技术主题分析是文本挖掘在专利分析中的重要应用之一。目前已有较多利用文本挖掘方法进行专利技术主题分析的研究成果,依次包括詞频统计分析、共词分析、文本聚类分析、文本挖掘技术与引文聚类相结合的技术主题分析[20]。①基于词频统计的技术主题研究。主要是通过IPC分类号、高频词等的统计分析,研究某技术领域的主题分布情况[21]。②基于共词分析的技术主题研究。主要包括共词网络分析、共词聚类分析和战略图分析3种方法,可以比较客观地揭示技术领域中的各技术主题及技术主题之间的相互关联[22-23]。③基于文本聚类的技术主题研究。主要是对专利进行聚类,形成代表技术主题的多个聚簇;为每个聚簇生成主题词,从而直观有效地表示技术主题的分布情况[24]。④基于文本挖掘与引文聚类相结合的技术主题研究。主要从文本信息与引用信息的底层融合角度,分析技术研究热点、识别新兴技术主题、预测技术主题的发展趋势[25]。

4.1  基于IPC分类号的专利产业链构建

依据文献调研、专家咨询和专利的IPC分类号,将虚拟现实产业链分为工具/设备设计、内容制作、行业应用。在此基础上,选取专利的IPC分类号作为语义情景的限定,为所有专利赋予产业链语义。在提取IPC分类号时,不同的IPC层级会产生不同的聚类效果。基于IPC大类的划分过于粗泛,聚类效果不明显;基于IPC大组的划分过于密集,同样不适合聚类;而基于IPC小类的划分,能够在区分度明显的基础上保证规模不过于巨大,因而最终选定以主IPC分类号小类作为语言情景的限定。为了研究过程的简易性及结果展示的直观性,将专利数据涉及的产业链与IPC小类进行编码,部分编码分布情况如表3所示。其中,产业链上游为“工具/设备设计”,产业链中游为“内容制作”,产业链下游为“行业应用”。

4.2  基于关键词聚类的专利产业链验证

研究采用K-means算法验证已构建的专利产业链。首先,合并“同类关键词”。通过人工观察,将包含“本发明”“本发明专利”“本专利”等数据的关键词,统一合并为“发明专利”。其次,采用K-means算法中的欧氏距离来计算数据对象间的距离。根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。

VR专利摘要文本的K-means聚类效果如图2所示。依据产业链的分类特性和已有关于产业链划分的研究文献可知,专利产业链通常划分为上、中、下3类[32]或基础、技术、应用3类[33-34]。据此,研究将类簇个数K值设定为3,将专利文本聚集成3类主题。从图2中可以看到3个类簇有效地分隔开来,相似主题的文献聚集在一起,文本聚类效果较好。其中黄色表示“工具/设备设计”主题,紫色表示“行业应用”主题,绿色表示“内容制作”主题;且“工具/设备设计”专利聚类数量>“行业应用”专利聚类数量>“内容制作”专利聚类数量。观察聚类结果可知,“工具”“设备”等关键词聚为一类,划分至“工具/设备设计”专利类别;“游戏生产”“声音生产”“视频生产”等关键词聚为一类,划分至“内容制作”专利类别;“医疗应用”“教育应用”“旅游应用”等关键词聚为一类,划分至“行业应用”专利类别。基于关键词聚类的VR专利产业链验证结果,与上文中基于IPC分类号的VR专利产业链构建结果具有一致性。据此,根据产业链的构建和验证结果,对中国VR专利进行分类,构建产业链语料库。

5  产业链视角下中国VR专利的技术主题与趋势分析

5.1  基于TF-IDF算法的技术关键词挖掘

为了避免LDA主题分析抽取出的特征词汇不具主题代表性,研究首先使用TF-IDF算法对所得词汇赋予不同权重,有效过滤常见词汇,保留重要词汇,进而提高主题特征词的抽取准确率。TF-IDF是一种计算词语权重的经典统计方法,由词频(term frequency,TF) 和逆向文档频率(inverse document frequency,IDF) 两部分数据组成。TF-IDF的计算如公式(1)所示,其中,tfi,j代表词语wi在文档dj中出现频率,idfi代表词语wi在文本库d中的逆向文档频率。通过公式可以看出,词语wi对文档dj 的重要程度和它在文档dj中出现的频率成正比,和它在整个文本库dj中包含词语wi的文档数成反比。

依照产业链语料库数据和编码分词,在Python中提取摘要文本关键词;整合相似的文本数据,删除无实际作用的字段,根据TF-IDF算法计算关键词权重。TF-IDF算法是通过计算特征词在整个文本库中出现的总频率,从而标记出关键词的重要程度。产业链各环节中国VR专利摘要文本的高频关键词及权重计算结果如表4所示,可以看出“发明专利”类型在产业链上、中、下游的比重均较大。此外,产业链上游“工具/设备设计”中“发明专利”类型占比较大,产业链中游“内容制作”中“外观设计”类型专利占比较大,产业链下游“行业应用”中“实用新型”类型专利占比较大。

5.2  基于LDA模型的技术主题词挖掘

在基于LDA模型的主題挖掘中,最佳主题数目的确定是最为关键的一步,本文使用Gibbs采样的方法推断LDA模型中所涉及的多个分布。首先,充分参考虚拟现实产业链环节数量后, 将各个环节的输出主题数目初步确定为3-10个,对LDA模型进行训练。其次,通过计算模型困惑度Perplexity来判断模型的好坏,从而确定该模型的最佳参数,即使用不同数量的主题分别建模,随机将语料库划分为训练集与测试集,训练集和测试集比例为8:2。最后,通过计算困惑度10次结果的平均值将产业链上游的最佳主题数目确定为4个,将产业链中游的最佳主题数目确定为3个,将产业链下游的最佳主题数目确定为7个。

通过充分了解该领域的技术知识,对中国虚拟现实领域专利进行技术主题标注,确定主题名称。某种程度上,使用LDA主题模型挖掘到的主题可视为从技术链角度对虚拟现实技术进行细分,如表5所示。由表5可以看出,每个主题之间的区分非常明显。产业链上游——“工具/设备设计”的4个主题分别为输入设备、显示设备、拍摄设备、软件;产业链中游——“内容制作”的3个主题分别为影视、声音、游戏;产业链下游——“行业应用”的7个主题分别为房地产、旅游、工业、军事、医疗、教育、娱乐。

5.3  产业链视角下的技术主题强度与热点分析

经文献研究与小组讨论认为,产业链视角下技术主题强度的衡量指标主要包括:产业链各环节的专利数量权重与专利文档概率。其中,产业链各环节的专利权重为上、中、下游专利数量在总专利数量中的占比,文档概率为上、中、下游产业链视角下各主题的隶属概率值。产业链视角下各技术主题的综合强度计算如公式(2)所示:

TIi为第i个主题的综合强度。其中,i为专利的15个主题(i=1,2,3,……,14),p为这14个主题分别对应的三个产业链环节(p=1,2,3)。LDAi为第i个主题的LDA权重值,nip为第i个主题所对应的第p个产业链环节的专利数量,为第p个产业链环节的专利数量

权重值;为第i个主题的LDA权重值与其所对应的第p个产业链环节的专利数量权重值之乘积。

根据LDA模型提取的权重值,结合产业链各环节的专利数量,计算出产业链视角下各技术主题的综合强度分布,结果如表6所

示。由表6的综合主题强度可知,上游“工具/设备设计”产业链的强度最大,是当前最热门的研究领域;其次是下游“行业应用”,也是中国VR领域研发的共同关注焦点;最后是中游“内容制作”产业链,是中国VR领域研发的薄弱环节。从表6所示的各技术主题强度分布来看,在“工具/设备设计”环节,研发热点集中在Topic4软件研发和Topic1输入设备;在“内容制作”环节,研发热点集中在Topic5影视;在“行业应用”环节,研发热点集中在Topic12医疗、Topic13教育、Topic14娱乐。

5.4  产业链视角下的技术发展趋势分析

基于产业链语料库中的IPC编码,统计分析了中国VR专利的热点技术领域,部分统计结果如表7所示。结合表7的专利热点技术领域以及表6的VR产业链各环节技术主题的强度分布,可以分析出未来5-10年中国VR专利的发展趋势。具体体现在:①中国VR专利研发在产业链各个环节均会呈上升趋势,且上游研发与中、下游研发之间的增长幅度会渐渐趋于一致,三者之间的专利数量差距会缓慢减小。②热点研发环节仍会集中在上游的“工具/设备设计”,且以G06(计算;推算;计数)、G02(光学)、H04(电通信技术)等技术领域为主流。③产业链下游的“行业应用”研发环节将会呈迅猛增长态势,且以A63(运动;游戏;娱乐活动)、A61(医学或兽医学;卫生学)、E04(建筑物)等技术领域为主流。④产业链中游的“内容制作”作为薄弱研发环节会保持缓慢上升,且以B60(一般车辆)、F16(工程元件或部件;为产生和保持机器或设备的有效运行的一般措施)、B64(飞行器;航空;宇宙航行)等技术领域为主流。

6  结论与展望

6.1  研究结论

研究主要得出以下几个方面的结论:

(1)在产业链的构建与验证方面,结合IPC分类号、K-means聚类的定性和定量分析可知,中国VR专利的上游材料端为“工具/设备设计”,中游生产端为“内容制作”,下游应用端为“行业应用”;且上游材料端专利聚类数量>下游应用端专利聚类数量>中游生产端专利聚类数量。此外,不仅在专利数量方面,而且在专利文本挖掘方面,目前中国VR行业更加注重上游产业端专利,且上游专利和中、下游专利之间的差距较大,产业链各环节的专利比例不均衡。

(2)在研发主题分布方面,结合VR产业链语料库的TF-IDF关键词权重值、LDA概率权重值可知,“发明专利”类型在产业链上、中、下游的比重均较大。此外,上游研发主题包括输入设备、显示设备、拍摄设备、软件等工具/设备,其中“发明专利”类型占比较大;中游研发主题包括影视、声音、游戏等内容制作,其中“外观设计”类型占比较大;下游研发主题包括房地产、旅游、工业、军事、医疗、教育、娱乐等行业应用,其中“实用新型”类型占比较大。

(3)在主题强度与研发热点挖掘方面,结合产业链视角下各主题的研发强度可知:综合主题强度中,上游是当前最热门的研究链,其次是下游产业链,最薄弱的是中游产业链,这与IPC分类号、K-means聚类结果相一致,进一步验证了研究结果的科学性。此外,从各技术主题的强度分布来看,上游研发热点为输入设备和软件,诸如“信息输入设备”“数据输入设备”“客户端输入设备”等;中游研发热点为影视,诸如“VR高清立体影视柔性传输线”“用于虚拟现实影视制作的稳拍系统”“VR影视拍摄履带车”“用于播放3D影视的VR眼镜”等;下游研发热点为医疗、教育、娱乐,医疗诸如“基于VR技术的医疗手术模拟仿真系统”“基于虚拟现实的医疗设备操控系统”“基于虚拟现实的医疗设备演示系统”等,教育诸如“基于VR技術的小学生科技教育系统”“基于VR和动作捕捉的远程教育系统”“VR安全教育动感座椅”等,娱乐诸如“三自由度虚拟现实游乐设备”“基于真实球拍的协同式增强现实乒乓球系统”“虚拟与现实有机结合的开心农场及实现方法”等。

(4)在技术发展趋势方面,中国VR专利研发在产业链各个环节均会呈上升趋势,且上游研发与中、下游研发之间的专利差距会缓慢减小。通过进一步细分的IPC分类号可知,产业链上游“工具/设备设计”的具体技术研发趋势为G06F(计算;推算;计数——电数字数据处理)、G02B(光学——光学元件、系统或仪器)、H04N(电通信技术——图像通信,如电视)等领域;产业链下游“行业应用”的具体技术研发趋势为A63F(运动;游戏;娱乐活动——利用小型运动物体的室内游戏)、A61B(医学或兽医学;卫生学——诊断;外科;鉴定)、E04H(建筑物——专门用途的建筑物或类似的构筑物)等领域;产业链中游“内容制作”的具体技术研发趋势为B60R(一般车辆——不包含在其他类目中的车辆、车辆配件或车辆部件)、B64D(飞行器;航空;宇宙航行——用于与飞机配合或装到飞机上的设备;飞行衣;降落伞;动力装置或推进传动装置的配置或安装)、F16F(工程元件或部件——弹簧;减震器;减振装置)等领域。

(5)研究虽然是以VR专利领域为例进行实证分析,但相关研究思路、研究框架和研究方法可扩展到其他领域进行专利分析应用。在数据采集与清洗的基础上,基于IPC分类号构建专利产业链,并通过K-means聚类进行产业链验证,通过定性和定量研究方法的结合,而不仅仅是通过单一的定性方法,进行专利产业链的构建,为专利领域产业链研究提供新的研究视角。在产业链视角下,通过计算上、中、下游专利文本的关键词权重、主题词权重,进而结合二者衡量专利的综合强度,以此挖掘专利的技术主题强度与热点,预测专利的技术发展趋势,为专利文本挖掘和技术主题分析提供新的研究思路。

6.2  对策建议

中国VR正处于产业爆发的前夕,即将进入持续高速发展的窗口期。可以预见,在未来的五年内,VR消费市场将迅速爆发,行业应用有望全面展开,文化内容将日趋繁荣,技术体系和产业格局也将初步形成。为推动我国VR产业发展,建议从以下方面开展工作:①进一步加强虚拟现实技术的研发。政府应支持设立重大相关研发项目,为产业发展提供共性技术、关键技术甚至颠覆性技术的供给;围绕虚拟现实产业链的关键环节,加强产学研合作,积极引导企业与科研单位投入虚拟现实研究,在关键技术上开展深度合作。②大力促进虚拟现实技术的市场化和产业化。以虚拟现实技术在工业、文化、教育、娱乐和医疗等领域带来的广阔前景为契机,明确产业政策支持的方向。    ③尽快建立虚拟现实技术的行业标准。形成我国虚拟现实技术标准体系,巩固自主技术布局占位,提高产业自主话语权。

6.3  研究展望

研究的局限性在于选取的检索数据库为“中国专利数据库”,数据仅限于在华申请的专利,且数据库没有相应的引文数据,无法做到与引文指标的对比分析。因此,在下一阶段的研究中,可以选择德温特专利数据库(Derwent Innovation Index,DII)作为检索数据库,德温特数据库及其专利引文索引涵盖100多个国家、40多个专利机构,数据最早可追溯至1963年,为大规模的专利文献研究提供了规范可靠的数据来源,而它的及时更新又为专利技术前沿的研究提供了可能,是企业和相关研究人员分析专利情报必不可少的工具。

参考文献:

[1] 杨超, 朱东华, 汪雪锋, 等.专利技术主题分析:基于SAO结构的LDA主题模型方法[J].图书情报工作, 2017, 61(3): 86-96.

[2] 李姝影, 张鑫, 許轶, 等.核心专利集筛选及专利技术主题识别影响[J].情报学报, 2019, 38(1): 17-24.

[3] 陈伟, 林超然, 李金秋, 等.基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例[J].情报学报, 2018(7): 732-741.

[4] 张婷婷.网络综合布线实验室虚拟现实技术下的设计与研究[J].电子测试, 2019(3): 106-107.

[5] 孙柏林.区块链+虚拟技术:仿真技术的新动向[J].计算机仿真, 2019, 36(1): 8-13, 35.

[6] 周永伟.岩石工程虚拟现实系统的建立及应用[J].山西建筑, 2019, 45(2): 77-79.

[7] 谢敬伟.分布式虚拟现实交互仿真系统研究[D].杭州:浙江大学, 2017.

[8] PAN X, HAMILTON A F D C. Why and how to use virtual reality to study human social interaction: the challenges of exploring a new research landscape[J].British journal of psychology, 2018:395-417.

[9] 刘子腾.面向虚拟人体解剖模型的交互式立体显示方法研究[D].哈尔滨:哈尔滨工业大学, 2017.

[10] 李发达.基于多传感器的交通控制硬件在环仿真技术研究与应用[D].北京:北京工业大学, 2017.

[11] 周雪, 李飒.基于真实感图形生成技术的三维偶动画创作探索[J].中国教育技术装备, 2017(16): 43-44.

[12] 许兵.基于虚拟现实设备的典型飞机机翼装配仿真[D].沈阳:沈阳航空航天大学, 2017.

[13] 阎丽, 胡丹丹, 阎春元, 等.基于感知觉学习的儿童视觉及智能虚拟现实数据库系统对弱视治疗效果的研究[J].临床医学工程, 2006(2): 32-33.

[14] 周哲泓, 薛锦云, 黄捷文. 虚拟现实软件系统开发方法研究[J]. 计算机工程与科学, 2019, 41 (11): 1968-1975.

[15] 申闫春, 王锐, 郭富荣, 等.基于并行渲染的虚拟现实开发平台设计与实现[J].计算机仿真, 2012, 29(11): 24-27.

[16] 刘园.VR技术在教育领域的研究与应用[J].电脑知识与技术, 2016, 12(16): 207-208.

[17] BA?OS R M, GUILLEN V, QUERO S, et al. A virtual reality system for the treatment of stress-related disorders: a preliminary analysis of efficacy compared to a standard cognitive behavioral program[J]. International journal of human-computer studies, 2011, 69(9): 602-613.

[18] 陆颖隽, 程磊.基于虚拟现实技术的图书馆信息资源建设与服务创新研究——以CADAL为例[J].图书与情报, 2017(4): 8-12.

[19] 丁铮.增强现实和虚拟现实在博物馆的应用[J].信息与电脑(理论版), 2017(24): 47-50.

[20] 胡阿沛, 张静, 雷孝平, 等.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志, 2013(12): 88-92.

[21] 张彬, 陈永翀, 张艳萍, 等.锂浆料电池国际专利技术分析[J].储能科学与技术, 2017(5): 1000-1007.

[22] 隗玲, 许海云, 刘春江, 等.技术领域主题发现研究——以基因工程疫苗领域为例[J].数字图书馆论坛, 2017(1): 39-47.

[23] 张杰, 刘美佳, 翟东升.基于专利共词分析的RFID领域技术主题研究[J].科技管理研究, 2013, 33(10): 129- 132, 140.

[24] 林广杰.基于频繁项集的海量文本聚类研究[D].北京:北京邮电大学, 2015.

[25] 丁麒, 庄志画, 刘东丹.基于文本数据挖掘技术的95598业务工单主题分析应用[J].电力需求侧管理, 2016(A01): 55-57.

[26] 王镠富, 胡等金.基于产业链的专利丛林测量与对策研究[J].情报理论与实践, 2019, 42(4): 101-106.

[27] 张杰, 赵君博, 翟东升, 等.基于主题模型的微藻生物燃料产业链专利技术分析[J].数据分析与知识发现, 2019, 3(2): 52-64.

[28] 吴红, 伊惠芳, 马永新, 等.面向专利技术主题分析的WI—LDA模型研究[J].图书情报工作, 2018(17): 68-74.

[29] 张超.基于专利数据挖掘的技术趋势分析方法[D].大连:大连理工大学, 2014.

[30] 林志坚, 谌凯, 潘婷婷, 等.国内外虚拟现实技术专利分析研究[J].竞争情报, 2018:24-32.

[31] 黄立业, 赵辉, 王坚, 等.基于专利分析的产业竞争情报分析框架研究[J].情报科学, 2015(4): 59-63.

[32] 王静宇, 刘颖琦, KOKKO A .基于专利信息的中国新能源汽车产业技术创新研究[J].情报杂志, 2016, 35(1): 36-42.

[33] 于申, 杨振磊.全球人工智能产业链创新发展态势研究[J].天津经济, 2019(5): 13-18.

[34] 方思, 李国秋.全球无人驾驶汽车专利分析——从产业链和技术链的二维角度[J].竞争情报, 2016,12(5): 27-36.

作者贡献说明:

陈  玲:数据收集与分析,论文起草与修改,论文最终版本修订;

林  平:数据分析;

段堯清:提出整体研究思路与框架,修改论文。

Technology Topic Mining and Trend Analysis from the Perspective of Industrial Chain Combined with K-Means and LDA

——Taking Virtual Reality Technology as an Example

Chen Ling1   Lin Ping1   Duan Yaoqing1,2

1School of Information Management, Central China Normal University, Wuhan 430079

2Hubei Research Center of Data Governance and Intelligent Decision-making, Wuhan 430079

Abstract: [Purpose/significance] From the perspective of industry chain, this paper takes virtual reality technology as an example, constructs VR patent industry chain corpus, and explores the technical theme, research and development hotspot and future development trend of China VR patent. [Method/process] First of all, this paper used Python to crawl the patent text in VR field and got effective corpus through data cleaning. Secondly, combining IPC classification number and K-means clustering algorithm, this paper constructed and validates VR patent industry chain. In addition, based on TF-IDF algorithm and LDA theme model, we identified the core technology themes and their comprehensive strength, technology research and development hotspots and future trends of China VR patents from the perspective of production chain. [Result/conclusion] At present, the proportion of patents in each link of China VR industry chain is unbalanced. The upstream link is the most popular, followed by the downstream link, and the weakest link is the midstream link. In terms of theme mining, the upstream hot spot is software development, the midstream hot spot is film and television production, and the downstream hot spot is medical, educational and entertainment applications. In terms of future trends, the upstream of the industrial chain will be dominated by technologies such as electronic digital data processing, optical components, image communication, etc., the midstream will be dominated by technologies such as vehicle components, power devices, damping devices, etc., and the downstream will be dominated by technologies such as indoor games, medical diagnosis, identification, etc..

Keywords: K-means clustering algorithm    LDA theme model    technology theme evolution   text mining    VR

猜你喜欢
虚拟现实产业链专利
专利
“饸饹面”形成产业链
产业链条“链” 着增收链条
发明与专利
REALITY BITES
产业链春之奏鸣
风口上的虚拟现实
虚拟现实技术向科幻小说借灵感
骗保已成“地下产业链”
专利