Python 的计算机软件应用技术分析

2021-04-04 16:02王栋
电子测试 2021年14期
关键词:爬虫数据挖掘软件

王栋

(辽宁轨道交通职业学院,辽宁沈阳,110023)

1 数据挖掘中的多语言比较

1.1 PHP 语言

在进行计算机编程是的数据挖掘过程当中,PHP 语言所主要展示出来的优势是现如今用于PHP 的开发时间非常少并且在进行数据挖掘的过程当中所需要的各项辅助资源也不是特别的多,而在对于计算机编程的支持性方面却能够体现出非常巨大的优势。但是在进行网络爬虫的计算机程序编写的时候使用PHP 也存在着一些缺点需要得到进一步改进。举个例子来说,在使用PHP 语言来进行编写网络爬虫程序的时候,会使得软件的运行速度十分缓慢,这种情况会使得用户在进行使用的过程当中时间花费较多,进而让使用用户有着非常不好的用户体验。

1.2 JAVA 语言

在进行计算机编程过程当中的数据挖掘过程当中,很多的程序员在进行编程的过程当中经常会通过进行网络爬虫的方式来进行开展,在进行使用网络爬虫的过程当中一些技术人员会使用JAVA 语言来进行编写。使用这种计算机编程语言和Python 语言相比较来说,程序员在进行实际编写的过程当中,使用JAVA 需要更多的程序语言来进行辅助,并且在进行编写的过程当中需要数量比较巨大的代码。因此使用JAVA语言来进行网络爬虫的编写相对来说相对比较复杂,这些复杂操作对于后续的使用过程当中也会造成非常严重的影响。比如说,在进行编写相关程序的过程当中,当客户的需求发生变化过后需要对程序进行修改的时候,就会使得对程序当中的内容进行较多的修改变动,对于计算机程序的调整重构会造成十分不良的影响。

1.3 C++语言

C++语言其实可以算作是C 语言的一个重要延伸,其在计算机软件的编写过程当中使用范围是十分广泛的,并且在编写的过程当中所具有的功能性方面也是也是具有着非常巨大的优势,但是在其他的方面也还存在着一些不足之处。而就是由于C++语言所具有的强大功能性使得在进行学习C++语言的时候的难度程度非常的巨大,使得需要花费很多的时间去进行相关的学习,并且使用C++语言进行网络爬虫的编写相对其他来说也会需要比较长时间的编写时间,对于编写的效率很难有一个大幅度的提高。所以一般情况下载进行数据挖掘的过程当中,通常都是不会去采用C++语言去进行编写网络爬虫的。

1.4 Python 语言

使用Python 语言进行数据挖掘,具有非常突出的应用优势,因为通过使用Python 语言去进行网络爬虫的编写时,其爬虫程序具有简洁的优势,并且在进行编写的过程当中所需要的代码量与前述语言相比较少,进而在进行编写的过程当中就会有着非常清晰的编写思路。并且由于Python 语言所具有的简洁特点,使得在进行编写的过程当中可以让其在最短的时间之内完成更多的语言操作。所以在进行网络爬虫的编写过程当中,更多的情况下都会使用Python 语言去进行编写。

2 Python 下的数据爬虫操作

2.1 工具配置

对于使用Python 语言的数据爬虫操作需要相应的工具配置,首先需要使用浏览器的插件将相关的设置进行打开,然后在找到127.0.0.1:8888 这个操作去进行作为编程计算机的代理,然后后续的网络爬虫程序编写就可以通过这个端口进行编写。

2.2 爬取TT 桔子网的流程

在进行数据爬虫的过程当中首先第一步就是需要打开Options 的对话框,然后在所点开的对话框当中去找到HTTTPS 进行勾选,然后找到所能够信任的信任证书。在完成了这些操作过后最后在点击Connections 后将网络爬虫软件进行重启。重启过后就可以直接在浏览器当中去打开桔子网的软件,打开过后直接使用所编写的代理端口去对桔子网进行访问,如果在进行访问的过程当中出现了错误的提示,那么问题就可能出在信任证书之上,需要对HTTTP 的协议进行进一步的了解和分析,找出其中代理协议当中有可能出现的错误,找到之所以访问失败的原因。

3 基于Python 的计算机软件应用技术

3.1 创建对应文件与获取软件

在进行Python 语言的编写过程当中首先第一步需要做的就是建立一个相应的文件夹,对于其所创建的文件夹主要可以分成三种的类型,首先第一种类型的文件夹是用于储存在进行编写过程 当中所设置的一些爬取的规则;第二个文件夹的主要作用就是为了用于去储存进行使用Python 语言所进行爬取的相关内容,最后一个文件夹则是为了能够将所爬取的内容进行存储和读取。在创建好相应的文件夹过后,紧接着所需要的就是进行获取软件。在进行获取软件的过程当中,首先第一步可以通过使用网络爬虫对数据进行搜索,然后在进行搜索过后将所搜索到的相关内容所所需要的目标内容进行一一的对比,以便能够将其中的有效URL 进行进一步的明确,再进行明确过后就可以将这些有效的URL 放入到对应的资源库当中去进行排队将有效的URL 进行取出,然后通过利用所得到的有效地址去进行思索相应的网站和网址,将其中相关的有用数据信息进行及时的获取,然后将这些数据信息储存到本地的资源当中。这样在进行获取的工作结束过后就仅仅只是需要将所使用之后的URL 存入到已经使用过的数据资源库当中去。在进行创建获取软件过后,如果相关的搜索引擎能够识别知道软件的URL,那么就需要在进行创建玩新软件过后自主的相关相应的搜索引擎去发送新软件的相应网址,这样当其他用户使用相应的搜索引擎进行搜索的过程当中就能够直接在搜索引擎当中搜索到相应的软件。并且一般情况下载很多的软件最下端都会有着一些友情链接,比如在学校的官网上就可以将很多其他高校的链接和知网等等的链接在其最下端,所以还可以和一些软件进行相互协商,将自己软件的网址通过使用链接的方式挂靠在其他的软件之上。

3.2 信息爬取过程分析

3.2.1 存储所获取的信息

在进行使用URL 进行获取数据过后,对于进行所搜索的网站过后,需要对其中所搜索的数据信息进行一个全面的分析,并将其中具有充分价值的信息进行有效的存储。但是计算机在进行使用的过程当中,一般情况下所使用的电脑的内存都是极其有限的,所以在进行存储相应的数据信息的过程当中需要对电脑的存储空间进行合理的应用,在进行存储的过程当中一定要秉承节约的原则去进行存储相应的有效数据信息,对于电脑的内存不能够进行肆意的占用。因此对于所获取到的相关信息一定要进行全面的分析和筛选,将那些不具备下载价值的相关信息进行剔除,避免让用户的电脑空间使用量大量增加,造成对资源的不必要浪费。除此之外,在进行获取到了相应的数据信息过后,在进行检索的过程当中如果哦发现其中有很多的内容都是雷同的,那么对于这些搜索界面就可以直接进行忽略处理,但是在进行获取存储信息的过程当中一定要在最大的范围去获取相关的有用信息。

3.2.2 预处理过程及分页检索能力

预处理指的是在进行网络爬虫的过程当中需要对所获取的信息进行一个简单的初步处理,通过进行处理的过程当中将其中信息当中的文字信息内容提取出来,将在网页当中所蕴含的各种广告和其他的无用信息进行处理,这样就可以将所获取的信息进行一个简单的处理。在进行实际的操作过程当中会有着一些用户有着request 的请求,那么就需要相关的程序员对所获取的相关信息进行及时的排序和去掉重复的部分操作,以便能够有效地满足相应用户的实际使用需求。

4 基于Python 的软件测试自动化平台的设计方案

4.1 软件测试

软件测试指的是需要对一个已经通过进行计算机编程完成过后的计算机软件完成过后需要对软件系统进行功能性的测试,通过进行相关的有效测试来充分检验所编写出来的软件在实际进行运行过程当中的质量。在进行实际检测的过程当中,主要可以分为手动检测和自动检测两种检测方式。手动测试主要是采用鼠标测试软件来对软件的运行有效性进行测试,自动测试则是主要对软件进行深度的测试。在进行软件测试的过程当中手动测试和自动测试都是具有着非常巨大的作用,但是在实际进行检测的过程当中在进行手动测试的过程当中依然还是存在着很多的问题,并且在加上在进行检测的过程当中还需要非常大量的检测内容,所以在进行手动检测的过程当中难免会出现各种各样的问题。但是进行手动测试依然还是具有着一些巨大的优势,因为其在进行软件检测的过程当中最为主要的还是去检测软件的业务逻辑,这种检测更多的还是由手动检测才会具有着更多的优势。

4.2 对于C#模块的设计

在进行软件测试自动化平台的构建过程当中,需要对C#模块进行相应的设计。其中在进行设计的过程当中,C#模块主要是包括四个部分,分别是文件、执行、脚本和实时信息。在这其中文件板块主要是进行创建并对各种类型的文件进行有效的读取,以便能够为用户在显示界面提供更加方便的服务,让用户更加容易对相关的文件进行储存。但是在进行控件的使用过程当中需要特别注意对于其中的文件格式进行及时的修改,将其调整为TXT 的文件格式,因为这样的文件格式更加的具有通用性,并且能够对文件进行及时快速的选择。在打开文件过后,需要采用逐行进行数据读取的方式来对文件当中的字符进行添加,这种方法能够使得在进行构建文件模块的过程当中尽可能地降低在进行字符串连接的损耗。而第二模块是执行模块在这其中主要的作用就是对系统的运行进行有效的控制。可以将能够满足其中需要使用的文件直接转换为TXT 的格式。

4.3 工作流的具体设计分析

4.3.1 重启工作流及编译工作流

进行基于Python 的软件测试自动化平台设计的过程当中所主要包含的工作流失重启工作流、编译工作流、编译工作流、执行工作流以及输出工作流这几个重要的组成部分。首先重启工作流的主要工作流程为首先进入到临时的文件当中,然后在临时文件当中进行重启操作。当然在进行重启操作的过程当中需要操作者自己进行做出相应的选择,如果在进行重启的过程当中选择否的话,那么整个重启工作流将会直接立即结束,相反如果选择是就会让重启工作流立即执行下去,直到重启工作流结束过后。第二个是编译工作流其主要的过程是对相应的参数去进行赋值和变化,然后对每一个例文去进行测试,将所进行测试过后的结果直接储存到模板当中然后再将相应的格式进行直接输出。

4.3.2 执行工作流和结果工作流

对于Python 的自动化平台构建当中,最为重要的两个工作流就是执行工作流和输出工作流。执行工作流首先需要对参数和赋值的相关变化进行接收,然后发出相应的命令对编译器进行控制将文件格式是.PY 的格式进行有效的识别,进行识别过后还需要对这些进行有效的测试看看是否会存在着异常的情况出现。在进行测试的过程当中需要将仿真系统所采集到的数据进行有效的导入和分析,进行分析过后将结果文件进行输出同时在需要使用相关的文件的时候再进行发送相应的命令去进行将相关的文件进行及时的调用。

结果工作流主要的作用就是对执行工作流所输出的结果文件去进行有效的读取,然后通过使用.xml 的格式将结果文件当中的相应信息进行编译,进行编译过后在将这些节点添加到前面进行操作失败的字符当中去,进行读取编译完毕过后再以.xml 的格式进行有效的输出。

4.3.3 输出工作流

输出工作流首先需要对结果工作流所输出的.xml 文件当中相应的数据信息进行读取,并且需要将其中没有有效输出成功的数据进行及时的反馈和展示,最后将所有的数据实时地传输到信息的显示模块当中去。

猜你喜欢
爬虫数据挖掘软件
利用网络爬虫技术验证房地产灰犀牛之说
禅宗软件
基于Python的网络爬虫和反爬虫技术研究
探讨人工智能与数据挖掘发展趋势
软件对对碰
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于python的网络爬虫技术
一种基于Hadoop的大数据挖掘云服务及应用
即时通讯软件WhatsApp
基于Heritrix的主题爬虫在互联网舆情系统中应用