大数据环境中多维数据去重的聚类算法研究

2021-03-07 04:23

网络安全技术与应用 2021年4期

（厦门市美亚柏科信息股份有限公司福建 361008）

1 引言

社交网络、物联网等的出现带领人们进入到全新的世界，同时也给人们的生活注入了新鲜的血液，满足了人们对高品质生活的追求，让人们的生活上升到了新的高度。但大量信息出现的同时也让数据不断地增加，如何有效地得到更加精确的数据呢？这是一个值得我们去认真思考的问题。

2 分析大数据的聚类划分与多维聚类算法的应用

2.1 大数据的聚类划分与多维聚类的目的

大数据中所具有的数据是复杂多变的，面对这种情况就需要采用合理的方式将数据进行有效区分，让收集到的数据能够快速地被辨别。在实践证明下发现传统的方式不能够将数据进行有效区分，还会让所收集到的数据出现不完整的情况，这是由于传统方式主要以数据采样为切入口，从而以缩小数据范围的形式对数据库进行高效地管理，虽然这种方式在一定程度上减少了对数据进行分析的时间，但会导致所掌握的数据有误差并出现无用的数据，不能够让数据发挥最大的价值，还会让数据在被收集后不能够进行二次使用。传统方式还会将数据进行强制性的聚类，但这种方式会对数据的多维结构造成影响，让数据的多维结构出现不完整的情况，使得计算的结果出现误差。

而数据聚类分析在对数据进行处理的过程中将数据原有的特征与数据具有的多维关系进行保留，根据不同数据所具有的不同特征采取相应的方式对数据进行分析，能够让同类数据与异类数据被有效地分析。

2.2 多维聚类分析算法的应用

采用多维分析是推动聚类区分的重要内容，要想开启多维分析的按钮，就需要采取相应的方式让维度能够被改变，充分借助数据非结构的特征能够对数据维度的改变产生一定的效果，在事实表中将所收集到的数据维度融合到其中，能够有效地应对复杂多变的问题，让数据维度有所变化，这也说明了数据中的维度无论上升多少，都不会让数据分析的性能产生改变。

多维聚类分析算法主要是一个决策树的模式，在整个过程中能够通过命令将内容环环执行并得出最终的结果。这种算法能够通过分析数据项的形式，在所有检测规则产生的结果分布中，对数据项打上各种维度的标签，依据标签动态地对该类数据类型的质量检测流程进行调整，让检测的数据质量能够得到保证。

3 非结构化数据的类型、多维聚类分析的函数模型的搭建

3.1 非结构化数据的类型

所谓非结构化数据就是没有完整结构的数据，它能够对数字、符号等具有明显结构的数据进行处理，还能够对声音、图像文本等非结构性数据进行处理。全部字段的记录对字段并未做过多的要求。但不能够利用数据库二维逻辑表对数据进行表示。多维去重聚类分析算法主要是借助贝叶斯网络的特殊模型结构对隐形结构进行分析，并让显变量能够与隐变量具有关联性，所有的隐变量能够与数据聚类相互对应，能够接纳多个隐变量的存在。

多维去重聚类算法在对非结构数据进行有效分析的过程中会采用相应的方式进行，在很大程度上能够提升去重效果，让去重的效果能够上升到新的高度，以下是对数据去重的具体步骤：①为了让数据能够有效地被清理，可以以数据预处理为突破口找到打开去重数据的钥匙，有效地对数据进行保护，在对数据进行处理的过程中对数据进行转换主要是通过属性内连续值来区分。②使用统计学中的概率模式能够让数据预处理的效果更高，可以将数据集划分成清晰易懂的形式，能够在一定程度上使得结果准确率更高。在借助分类器进行评估的过程中，若能够让分类器正常使用，就说明评估的结果准确率高；若分类器不能够被使用，就应该采取相应的措施让分类器能够达到理想中的状态。③为了让文本通过计算机的识别环节，就需要借助向量空间模型，在将文本进行转换的过程中应该利用文本中词的表现形式进行量化处理。④为了对维数进行有效控制，使得结果更加精确，就需要采取合理且有效的方式进行，使得分类的速度有所提升并让分类的结果更加精确。

3.2 多维数据聚类分析函数模型的概念

依据非结构化数据的特征能够对多维数据聚类分析函数模型的概念有所了解。以下是多维数据聚类分析函数模型的含义：①利用数据集的形式对数据进行分析，例如给定数据集E=｛E1，E2，E3，…，En｝，类别集合F=｛F1，F2，F3，…，Fn｝，主要是为了让集合D 中的D1、D2等能够与其中的类别进行对应并得到反映。②若给定大数据变量集合为O=｛O1，O2，O3，…On｝，变量Oi主要依赖于节点集合O，那么每一个变量都可以表示一个节点，每个节点都能够从集合O 中的所有向节点引导一条有向边到达Oi。③若W 与N 是贝叶斯网S 中的两个变量，P 是O 中与W 与N 集合无关的节点集合。若Pd对W、N 进行分割，就会让W、N 在条件P 出现时独立，进一步说明了贝叶斯网络图论侧面与概率论侧面所具有的联系。④为了对样本空间进行区分，将贝叶斯公式设定为｛l1，l2，l3，…，ln｝，若Q（Ii）能够反映Ii所出现的概率，同时Q（Ii）＞0，且i 是自然数。任意时间出现时都会使得Q（x）＞0。⑤如果依据特征矢量x 提供的证据对某个物体进行分类，，p（wj/x）>p（wi/x）（i≠j）。应用贝叶斯公式展开后可以得到：p（x/wj）p（wj）>p（x/wi）p（wi），决策规则具有一定的似然率测试规则。⑥借助概率的形式让推理的过程难度得到快速地降低，以消元过程为突破口，能够找到数据被有效处理的过程，从而计算出概率很小的样本。

4 多维数据去重的聚类算法优势

4.1 按下加速优化数据去重算法的按钮

在对数据进行筛选的过程中传统的数据去重算法已经不能够满足去重的要求了，会使得去重的结果产生误差并将有用的数据筛选出去，让结果达不到预期的效果。所以对数据去重算法进行大力的升级是十分重要的内容。在通过多种算法对数据去重后发现聚类算法具有明显的筛选优势，数据去重的精确率比其他同类算法的精确率提高了30%，同时对数据检测的速度十分快速且准确率很高，能够推动多维数据去重。

4.2 多维数据检测的准确性很高

多维数据在对所收集到的数据进行检测的过程中能够提升数据检测的准确率，传统的检测数据的方式已经不能够满足数据准确率高的要求了，主要是由于传统算法在面对突发情况的时候，会出现对数据进行检测的误差，让数据的质量下降到最低点，使得检测的结果达不到理想中的状态，同时对数据进行去重需要很长的时间来进行，加大了数据去重的时间成本，让数据去重的整个过程变得十分复杂，不利于提升数据去重的效率。而多维数据去重能够对数据进行及时且有效地分析，大力提升了数据去重的速度。在对数据进行有效分析后能够主动地对检测的结果反馈，让所收集到的数据质量能够提升，从而使得整个数据库是有用的且重复率很低，切实地帮助了使用者。

4.3 多维数据检测具有很强的及时性

充分借助多维数据对数据库进行筛选，能够及时地将所要的数据进行精确定位，同时保留了价值很高的数据。充分利用规则相似性评估算法与多维标签，能够及时地将类型不明确的数据项的质量直观地展现出来，使得不明确类型的数据项能够主动地对检测相关的规定进行有效反映，对数据的准确性及时地进行了筛选，能够在一定程度上推动多维数据检测的速率，使得数据检测的工作压力得到了缓解。

4.4 多维数据检测具有简便性

多维数据检测能够使得检测的整个过程逐渐简单化，在对传统算法进行优化的过程中，运用这种算法对数据进行去重能够缩减去重的时间，在很大程度上使得时间成本得到了降低，在执行某个命令的过程中，能够按照命令的要求执行，透过每一环的执行最终将结果快速地得出，相比于传统的方式，能够让整个过程具有简便性特征。

4.5 不同算法的运用应该结合不同领域

在大数据环境中对多维数据去重具有多种方式，但在实际去重的过程中能够知道聚类算法的效果更佳，并且聚类算法所花费的成本更低。例如，模糊信息粒化方式对数据分析的效果很差，并且不能够有效地分析数据与数据之间的明显区别，这使得最终筛选的数据并不是理想中的状态；粗糙集近似法在对多维数据去重的过程中不仅拥有较强的表达方式，而且对数据分析的能力要求很高。在对不同去重方式进行对比后能够知道不同算法拥有自己独特的优势，在大数据环境下应该依据不同领域进行有效运用，才能够让不同算法发挥最大的价值。

5 结束语

随着信息化时代的不断推进，在大数据环境中多维数据去重成了十分艰巨且重大的内容，人们开始大力注重对多维数据的去重，让所收集到的数据能够降低重复率并且让所得到的数据能够更加精确化。而聚类算法的运用能够在很大程度上提升对多维数据去重的效率，在与其他算法进行对比后能够明显看到聚类算法比同类算法的精确度更高，按动了去重质量优化的加速键。