AI时代的专利从业思考

2019-10-24 08:49李子阳
科技创新与应用 2019年26期
关键词:深度学习人工智能

李子阳

摘  要:文章主要结合现阶段的专利工作状态和人工智能发展水平,以及现有的人工智能专利系统的特点,简要剖析人工智能对专利工作带来的影响,同时对于其中的不足进行探讨。

关键词:人工智能;专利从业;深度学习;语义分析

中图分类号:TP391.3       文献标志码:A         文章编号:2095-2945(2019)26-0014-02

Abstract: According to the current state of patent work and the development level of artificial intelligence (AI), as well as the characteristics of the existing artificial intelligence patent system, this paper briefly analyzes the impact of artificial intelligence on patent work, and discusses the shortcomings of artificial intelligence.

Keywords: artificial intelligence (AI); patent practice; deep learning; semantic analysis

序言

新一代基于人工智能的专利分析系统,能够解决传统人工专利分析高成本、低频次问题,彻底告别检索式,可以高效、自动、智能地进行专利导航、预警布局等专利分析工作,类似的宣传开始不断涌现,标志着专利工作也搭上了人工智能的快车。那么人工智能对专利相关工作到底产生了哪些影响?本文试着从现阶段的人工智能和专利从业各自的特点以及现有的人工智能专利系统现状,进行简要剖析。

1 人工智能与专利从业

专利从业:专利是知识产权中的一种工业产权,是一项发明创造的首创者所拥有的受保护的独享权益。自1980年1月14日中国专利局的成立以及1985年4月1日《中华人民共和国专利法》正式实施以来,從第一件中国专利申请到2018年底已经达到了2766万件,并且围绕着这些专利逐渐形成了,专利代理、专利受理、专利分类、专利审查、专利复审、专利分析以及专利诉讼等多个专利从业领域。而围绕着《专利法》和《实施细则》,这些领域的工作者逐渐形成专业而熟练的工作方法和技能。如专利代理可以全权负责申请人专利的撰写、格式编辑、申请前资料的收集、申请和答复等。专利审查方向主要包括实用新型的初审和发明的初审、实审,其中实审主要对发明专利的新颖性、创造性和实用性等进行审查,同时还要负责专利通知书撰写等工作。专利分析可以围绕着专利著录项信息、法律状态和权利要求等经济、法律、技术、著录和战略信息[1]对政府、企业、个人等进行专利运营、专利布局、专利导航、专利预警、专利挖掘、专利监控和专利价值评估等工作。

人工智能:人工智能可以说是近几年最火爆的词条,其最早出现在1956年的Dartmouth学会上,而最新一次掀起人工智能浪潮、重新令世人所关注的当属Google的围棋人工智能系统AlphaGo以4:1的总分战胜围棋世界冠军、职业九段选手李世石,但对于人工智能不同的机构或学者均有不同的定义。基于这些定义逐渐拓展出机器学习、自然语言处理、自动推理、人工意识、规划能力、语音识别、计算机视觉、社交能力和运动控制等领域学科。由于专利工作主要涉及对专利数据库中文本和图像的检索与分析,因此本文主要讨论机器学习、自然语言处理、自动推理和图像识别等人工智能技术对专利工作所带来的积极的影响和不足。

2 AI真的理解语义么

现阶段的针对文本的自然语言处理主要可以实现对文本的词性分析、情感分析、文本相似度判断、翻译以及新闻摘要撰写,也可以进行小说或诗歌的创作。图1为2016年,上海玻森数据推出了智能作诗机器人“编诗姬“3秒内创作的五言绝句,其主要是对唐诗数据库中的素材进行训练、整理形成的诗作,但这种作品有诗感而无诗意,并不是真正的理解语义;而由斯坦福大学发起的认知智能行业内公认的机器阅读理解领域顶级水平测试SQuAD2.0(Stanford Question Answering Dataset 2.0),吸引了众多国内外知名研究机构和高校参与,参赛者提交的模型对十万多问题进行机器阅读理解,并回答一定的问题然后与人工标注的答案进行精确(EM)和模糊(F1)对比,由科大哈工大讯飞联合实验室(HFL)提交的“BERT+DAE+AoA“模型不仅使其再一次荣登榜首,而且也是测试以来首次成为两项指标均超过了人类的水平的参赛者(见图2),这种阅读理解是真的理解语义了么?

图片领域的人工智能主要可以通过机器批量训练实现对动物、植物和其他物体识别包括对物种和数量的识别,ImageNet大规模视觉识别挑战赛(ILSVRC),2017年,38个竞争团队中有29个错误率低于5%;车牌识别包括对运行中的车辆牌照的汉字、数字、字母和颜色等字符的识别,由于车辆存在高速行驶、颠簸、恶略天气和泥渍造成的模糊以及存在角度偏差造成的字符不完整等问题是快速准确识别车牌的难点,现阶段对于数字和字母的的识别率高达99.7%,汉字的识别率可达到99%。图片文字识别包括对机器文本、手写文本等字体以及书写工整潦草、简写、错别字的识别,比较常见的如验证码的识别;图片相似度计算更多的应用在论文、商标和外观专利等查重。

3 现阶段的人工智能专利系统

无论是审查员使用的S系统还是行业内较流行的Patentics、Incopat和Total Patent检索分析系统都主打语义分析。由于Patentics在国内各专利审查中心都有部署,同时开放试用版,在CNKI中的相关文献较多,因此主要讨论Patentics,其主要利用TF-IDF原理对数据库每篇文献提取关键词形成语义索引。在检索时,Patentics从输入的文本或专利号对应文本中提取关键词构建新的文档向量,与数据库中其他海量文档向量进行运算匹配,计算向量之间的夹角余弦值并以百分比的形式表示文档之间的语义相关度,对于完全相同或部分相似的专利会以相似度由大到小排序显示。2014年孙志飞提出通过引入用户的相关度评价反馈机制,来提高语义检索系统中检索模型的合理性[2]。不过没有利益驱动,此种机制的运行还是存在困难的。而采用对除专利数据库外,对检索报告中对比文件和审查意见通知书的学习训练,升级语义模型可以增加目标文献的相关度值。2017年郭嘉通过实践提出Patentics在语义分析时理论上能够避免技术用语不规范所带来的干扰[3],但在实践中对于模糊用语以及故意避开规范用语的词汇,仍需要转换为同义规范用语的人工干预关键词与语义分析系统相配合的方式,对此由于非规范化词汇的干扰带来的语义不精准问题,可以通过检索报告检索式中使用的检索词进行学习拓展。

图片检索方面,谷歌图片搜索,提供单纯图片或图片+关键词的方式进行图片检索;智慧芽用于商标、外观专利检索的以图搜图功能,对于申请和审查的效率大大提升,也避免漏检带来的侵权纠纷。而发明或实用新型专利附图的分析主要涉及到对图像中文字(汉字、字母和数字等字符的识别);图片相似度计算(以机械结构图为例,对于图片内容的翻转、尺寸、清晰度、底纹;机械制图与手工绘图;局部零件的增加与删除;示意图、三维视图、剖视图、不规范绘图等是图片语义检索的难点);而对于部分未在权利要求或说明书中出现的图片中隐含信息的理解则是更大的难点。

对于专利代理,可以利用Patentics等专利系统语义分析功能进行申请前的排查,可以更有效的避免对于已公开的技术进行专利重复申请造成的代理成本浪费和审查负担的增加;在专利审查方面,人工智能的语义分析适用于非正常及恶意申请的排查,以及常规检索前的预检索[4],同时可以利用其在海量文献中进行分类号及关键词的拓展,对于专利授权前的补充检索同样是非常可靠的工具。

专利分析涉及非常多的方向,人工智能专利分析系统主打一键出报告功能,主要是对大量的专利分析报告进行学习,形成特定的模板,根据不同客户需求生成相应分析报告,但實际操作中仍然需要人工对相关技术检索词拓、分类号的限定展以及重点申请人的指定,且生成的分析报告主要是对专利发展趋势、申请人类型、专利类型、法律状态和地域分布等宏观数据的展示。并不能做到根据企业或区域自身特点以及周边特点进行因地因时因政的具有靶向针对性的专利导航、布局;对于预警而言,可以对固定申请人专利数量和研发方向的监控。但受限于语义分析的发展现状,不实现对技术的理解、不能做到全面的排查。同时对于通过模糊专业词汇或他人代申请的方式均可避开现阶段的人工智能监控。高价值专利、核心专利的挖掘和专利价值评估具有同样的问题,其中常见的Innography、合享IncoPat以及智慧芽的PatSnap主要通过对专利权利要求数量、法律状态、引用/被引用情况以及转让/许可情况等多个维度的指标或因子通过特定的模型,计算出专利的价值或价值度,评估值进行相关性计算,但这些指标中均未涉及对权利要求所保护技术的水平,因此仅可作为实际专利交易、抵押或投融资的参考指标。

4 结论

趋势不可阻挡:人工智能为专利工作开辟了一个崭新的思路,不可否认,其实现了人工无法完成的任务,同时大大提升了专利工作的效率和质量,并降低成本和资源的浪费,人工智能可以作为专利工作助手、工具。

瓶颈依然存在:受限于语义的发展,对于专业性、欠规范性的专利文本和附图,对于全面性、准确性要求较高的领域仍然不能做到100%的替代,同时对于待分析对象的复杂性,人工智能还无法灵活地给出完全满足需求的、衡量定制的、专业化的分析报告,不过通过不断地语义模型训练和验证,瓶颈点正在逐个击破。

选择保持谨慎:乘着人工智能的东风,众多专利系统贴上了人工智能的标签。但由于系统的非公开性,使用系统时需要结合数据库的收录情况、实际使用效果以及专业人员的验证对其进行甄选,防止因为漏洞造成重大损失。

参考文献:

[1]杨馥瑜.利用专利信息分析做好企业专利预警的若干思考[J].科技资讯,2017(13):106-107.

[2]孙志飞.语义检索在专利文献检索中的应用及改进[J].信息技术,2014(05):127-129.

[3]郭嘉,等.浅析在PATENTICS检索系统中的专利检索应用[J].中国发明与专利,2017(8):123-127.

[4]洪兵,等.专利智能检索的有效性分析[J].中国发明与专利,2015(8):53-56.

猜你喜欢
深度学习人工智能
人工智能之父
2019:人工智能
人工智能与就业
数读人工智能
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现