利用互联网资源对生物交叉领域进行图文检索研究

2017-06-05 22:46陈云华
中国高新技术企业 2017年8期

摘要:文章以生物交叉领域(C12M)的领域特点为切入点,总结了该领域的检索、浏览的难点,结合三个具体的案例,描述了三个图文检索资源的特点、检索和浏览方法以及它们的优缺点,并且探讨了将图文检索的方法从生物交叉领域扩展到其他涉及装置的领域进行检索的可行性。

关键词:C12M装置;图文检索;生物交叉领域;互联网资源;生物装置 文献标识码:A

中图分类号:TP212 文章编号:1009-2374(2017)07-0020-03 DOI:10.13535/j.cnki.11-4406/n.2017.07.009

生物交叉领域是一个特殊的小类,是生物与机械、光电、电学等交叉领域领,主要涉及生物装置,与生物相关的装置基本都会划分到该分类号下,如光反应器、微流控芯片、发酵装置、其他如细胞分离装置、细胞电刺激器、培养皿等,可以看出该分类号下装置所涉及的装置类型很多、很杂,装置无论从结构上还是领域上跨度均很大,分类号不好用,关键词不易提取,也无专门数据库可供检索,因而检索起来一直很困难。而现有对装置的检索主要是基于S系统的专利数据库,然而仅依靠S系统是不够的,如对于微流控芯片,很多研究者通常都是发表论文,并不申请专利,由于论文标题和摘要通常都是对方法的描述,装置名称或结构一般不会出现在标题和摘要中,因此检索、浏览结果都很麻烦。此外,虽然已有检索人员利用CPC分类号对本领域进行检索,然而由于本领域中新的专利申请的CPC分类并没有全面覆盖,中文专利库中过档文献的CPC分类也没有全部完成,因而利用CPC分类进行检索时提取CPC分类号也并不是那么顺利。本文将讨论如何充分利用互联网检索资源快速、有效地检索以及直观、高效地进行结果浏览。

1 利用Patentics进行检索

Patentics智能化专利搜搜和分析系统(以下称“Patentics”)通过智能语义搜索,将检索结果通过相关度排序呈现给检索者。输入检索条件后,系统会自动抽取语义,只要涵义相同的专利就会自动图文并茂地呈现给检索者,而不必考慮文本中是否包含了该检索词,同时Patentics也提供传统的布尔检索、通配符、位置算符和截词符检索。由此可以看出,对于生物装置领域关键词难以提取、难以表达的问题,Patentics自动提取语义的功能避免了人工提取关键词带来的漏检;生物装置一般通过以部件和部件间的连接关系所体现的,而Patentics的语义检索时由于各词条之间具有词义上的关系,一定程度上可以体现人工难以表达的连接关系;再者,其图文检索界面可以便于检索者更直观地看到装置的结构和连接关系。

案例1:CN201410300855.6。

权利要求1:一种血液单核细胞分离的辅助部件,其特征在于,是一个起到半隔离作用,用于对加液进行速度限制,防止滴加液体时速度过快的缓冲块,该缓冲块由圆柱形缓冲底座,圆锥形操作结构及无菌吊绳孔组成,其中圆柱形缓冲底座、圆锥形操作结构为一个整体,所述圆柱形缓冲底座的直径比离心管内壁直径小1~3mm,保证血液能从圆柱形缓冲底座与离心管之间流到下面,圆锥形操作结构的母线与底面夹角为55°~65°,无菌吊绳孔上系一根用于移动缓冲块的无菌吊绳;所述的缓冲块和无菌吊绳的材料,是任何具有疏水性、无细胞毒性、密度小于淋巴细胞分离液、水及血液的材料。

可以看出权利要求1的结构较为简单,虽然较长,但多是功能性的描述,检索时关键词难以描述,分类号C12M1/00检索时并不好用,常规检索时利用辅助部件、圆锥、缓冲、密度梯度、隔离、速度、沉降等关键词进行检索得不到理想的结果。

在Patentics图文检索界面(www.patentics.com/scn.htm)中输入检索条件“R/CN201410300855 AND DI/CN201410300855”,在中国申请库中没有得到理想的对比文件。接下来在美国申请和美国专利库中检索,检索结果选择每页100条,在第2页发现可用对比文件1 US2002/042335A1,可作为X类文件用来评述本申请的创造性,发现其IPC分类号为B04B11/00,也就是将其分入了离心机项下。同时从该对比文件1中提取到关键词float。考虑到检索结果较为靠后,上述检索条件进一步与关键词“float*”做“与”的检索。检索如图2。浏览检索结果后发现,在结合关键词float*进行检索后,对比文件1的结果页面的位置大大提前,已经位于第1页。同时发现对比文件2 US2011266206A1,并提取到关键词buoy,其与float均为“浮”的意思,也就是辅助部件起到分离血液单核细胞作用的原理。对比文件2的IPC分类号为B01D35/05,即被分入了过滤装置项下。

小结:由上述检索过程可以发现,之所以常规检索时难以检索得到对比文件1和对比文件2,首先在于本申请的结构过于简单,难以用关键词表述;分类号不准确,同样作为分离血细胞用的辅助部件,对比文件1和对比文件2分别将其分离至离心机和过滤装置项下;而Patentics对于装置结构过于简单,关键词不好表述,分类号不太精确的案例具有较好的检索效果。同时Patentics在结果浏览时可以同时浏览摘要及多篇附图,便于检索者更直观地了解对比文件的装置,同时Patentics对于检索结果中的关键词的高亮功能、图片比对功能,摘要中译英等功能均有助于检索者的检索和浏览。

2 GOOGLE图片搜索

GOOGLE包括作为综合搜索引擎的网页搜索(Google Web Search)以及专利搜索引擎(Google Patents)、学术搜索引擎(Google Scholar)、图片搜索引擎(Google Images)等多个专门的搜索引擎。虽然前期笔者利用Google搜索取得了较好的检索结果,然而在浏览检索结果时却需要点击检索标题链接后,将期刊打开或下载后才能看到装置的图片,浏览起来不便。而Google图片库之巨大其他搜索引擎很难与之相比,且在完成搜索后,点击图片即可查看原始网页,便于检索者下载期刊类对比文件。Google图片搜索时可以进行相似搜索和关键词搜索,前者通过将待检索的图片上传后进行检索,后者通过检索者自己构建关键词等检索条件进行检索,以下也将通过案例2对关键词搜索进行举例说明。

案例2:CN201510281722.3。

权利要求1:基于肠细胞融合层用于监测钙转运的微流体控制芯片,其特征是由两个独立的模制/微图案化的PDMS层制成,称为“顶”和“基底”两层;这两层夹着一个孔径为0.4微米的聚对苯二甲酸乙酯PET膜,该芯片装配在两个聚甲基丙烯酸甲酯PMMA層之间,并用牢固的机械方式夹紧,以防止流体渗漏;聚甲基丙烯酸甲酯的嵌合还便于插入跨上皮电阻探针以及在芯片连接到外部流体装置用于细胞的装入和培养基的连续输注。

经过分析可以总结出相应的英文检索关键词为:ca(ca2+或calcium),transport,microfluidic。

为了更直观地浏览检索结果,选择Google Images进行检索,将检索词ca、transport以及microfluidic输入检索框后进行检索,在检索结果页第一行图片即可发现与本申请一模一样的图片,将鼠标放在图片上,单击左键,即可出现访问网页的选项,点击后即可跳转至下载页面,即可获得对比文件1:“Microfluidic chip for monitoring Ca2+ transport through a confluent layer of intestinal cells”, C.Huang等,RSC Adv.,第4期,第52887-52891页。其可作为X类文件用来评价本申请的新颖性。

小结:由上述检索过程可以发现,Google图片基于其强大的搜索引擎以及巨大的图片库,在构建后检索词后通常可以快速的命中检索结果,同时在浏览检索结果时,相对于谷歌学术和谷歌网页搜索更直观。虽然目前国内使用Google类产品很不稳定,搜索时较有难度,检索者通常会使用其他搜索引擎替代谷歌图片进行搜索,如必应图片搜索、百度图片搜索以及雅虎图片搜索等,然而笔者经过检索发现,利用相同的检索条件(ca、transport以及microfluidic)在上述三个图片库中进行检索时,均无法获得对比文件1。而且必应图片搜索在浏览检索结果时,也不能对原始网页进行链接,因而即使检索到了对比文件的图片,在获取对比文件的来源时仍然不是那么直接、顺畅;百度图片搜索在检索到的图片上进行鼠标悬停时仍可以进行“图片搜索”,这种检索模式有利于检索者获得与本申请相似的图片时,直接进行相似检索,省略了检索者自己上传图片的步骤,用户体验非常人性化。

3 CNKI学术图片搜索

CNKI学术图片库中的图片主要来源于中国学术期刊网络出版总库、中国优秀硕士学位论文全文库、中国博士学位论文全文库、中国重要会议论文全文库、中国工具书网络出版总库等,访问网址为image.cnki.net,具有图片搜索、相似搜索两种方式,图片搜索需要输入检索词在主题中进行检索,相似搜索需要上传图片进行检索,并提供检索结果与原图的比对功能,获得检索结果后可通过查看图片来源获取对比文件。如袁丽利用CNKI学术图片库针对检测分析领域的装置进行检索获得了理想的检索结果,说明CNKI学术图片库在检索装置、浏览检索结果时具有优势,然而检索者在利用其进行检索时仍然需要注意其在检索时的优缺点,以下将通过案例3说明。

案例3:CN201310702873.2。

权利要求1:一种PCR仪温度校准系统,包括PCR仪装置,其特征在于:还包括顺序相连的感温元件、数据采集卡电路、PC装置。

可以看出检索结构非常简单,总结出其检索关键词为:PCR,温度校准。

通过浏览检索结果发现,虽然检索结果较少,但是检索结果中的两张图均与本申请权利要求1相关。通过点击图片,获得图片来源为:“基因扩增仪(PCR仪)温度校准装置的研究,张丽萍,中国优秀硕士学位论文全文数据库基础科技辑,第8期,2014年8月15日。”虽然其公开日在本申请的申请日之后,不能用来评价本申请的新颖性和创造性,但是通过阅读该文献的参考文献部分,可发现多篇与PCR仪温度校准相关的期刊和操作规范,其中参考文献[5]“王宇松,张德伟.PCR温度控制系统设计[J].生命科学仪器,2009,(8):89-90”可以作为X类文件用来评述本申请的创造性。

小结:通过以上检索结果可知,CNKI图片库检索较为简单,浏览结果很直观,然而检索结果较少。如,利用相同的检索条件(PCR,温度校准)在CNKI数字出版物超市中,可直接检索到对比文件1:“薛生虎,等.基于多传感器融合技术的PCR仪温度校准系统[J].仪器仪表学报,2011,32(6):1232-1237”以及上述张丽萍的硕士学位论文,其中对比文件1可作为X类文件评述本申请的新颖性。由此也可以看出,CNKI图片库所收录的文献来源远远小于CNKI数字出版物超市,然而鉴于其浏览结果的直观性,可以作为初步检索手段,在检索结果不理想时进一步通过CNKI数字出版物超市进行检索。

4 结语

本文主要讨论了利用Patentics的图文界面检索进行专利检索以及Google图片、CNKI对于外文、中文期刊图片搜索。然而,可用于检索的搜索引擎越来越多,比如微软必应、百度、搜狗等,而不同的搜索引擎也各有其特点。目前来说,虽然Google检索功能强大,但是国内环境使用起来很不稳定,需要检索人员选择其他适合的搜索引擎。Bing与Google、百度同时作为三大综合搜索引擎,与其他两者主体功能上较为接近,然而Bing能检索的语言比Google少,高级检索时也不能进行时间的限定;百度搜索收录的大部分是中文网页,就中文网页的收录量而言,百度远大于Google和Bing,同时百度百科可以帮助检索人员快速了解现有技术,百度学术也同时链接了多种期刊数据库,百度文库则收录了一些非期刊类,因此在检索时应充分考虑这些资源,使检索更

全面。

在对于生物交叉领域进行检索时,笔者首先考虑的是检索要快捷、全面,结果浏览要直观,文献来源获取要便捷,因而根据自身的领域特点选择以上3种检索手段进行互联网图文检索。本文中主要讨论了生物交叉领域装置的图文检索方法,对于其他领域的装置,如食品领域的食品加工器械、酿酒装置,化工领域的化工装置,虽然领域不同,然而装置结构的表征多是通过部件的结构和部件间的连接关系,因而同样可以借鉴本文的检索方法以达到事半功倍的效果。

参考文献

[1] 吴漾,纪圆圆,朱晓乐,等.基于生物交叉领域初探CPC分类系统[J].中国发明与专利,2014,(12).

[2] 魏强,王芳.迁徙染整设备专利申请特点及其检索策略研究[J].广东化工,2015,42(10).

[3] 张占江,张建生,刘化然,等.提升检索能力,促进专利质量提升[A].2014年中华全国代理人协会年会第五届知识产权论坛论文集(第二部分)[C].2014.

[4] 刘宏磊.饮料制备装置领域CPC分类的应用[J].中国发明与专利,2015,(8).

[5] 陈云华,李友,刘东吉.从审查角度看生物装置领域的发明专利的检索查新[A].2014年中华全国代理人协会年会第五届知识产权论坛论文集(第三部分)[C].2014.

[6] 袁丽,赵景焕,皇锐,等.检测分析领域中非专利资源库图片检索研究[J].河南科技,2016,(4).

[7] 国家知识产权局专利审查协作中心.利用搜索引擎检索现有技术[M].北京:知识产权出版社,2011.

作者简介:陈云华(1985-),女,北京人,国家知识产权局专利审查协作北京中心研究实习员,硕士。

(责任编辑:黄银芳)