KY开元

首页 - 新闻中心 - 公司动态

公司动态行业新闻

首页 - 新闻中心 - 公司动态

27日 2023年12月

上一篇返回列表下一篇

创新加快，KY开元推动AI模型在非结构化数据分类分级中深刻利用

更新功夫：2023-12-27 起源：编纂：治理员浏览：3381

在数据的；ず桶踩蚕砉讨，分类分级是所有工作的前提。KY开元一向于数据分类分级领域不休索求实际，沉淀出针对非结构化数据分类分级的AI模型。近期，技术团队突破创新，开创性地以数据安全底座为支持、以AI算法模型为驱动，推出全新基于NLP的无监督分类分级模型，并于数据安全项目中成功落地利用，守住数据安全防护最前列。

01

常见分类分级方式利用局限

当前各企业内部均堆集了大量的非结构化文档，其中大部门为无标签数据。目前常见的无标签文档分类分级选取的是正则表白式匹配方式，其处置流程是先通过人为查看部门非结构化文档，并总结出正则模式，而后对数据进行匹配，匹配成功则划分到对应分类分级，匹配不成功文档归类缺失。

但是这种处置方式有很多局限性：

??首先，企业堆集的非结构化文档数量巨大，正则匹配只利用了少部门无标签数据资源，更多的正则模式没有被提取出来，覆盖率低；

??其次，随着非结构化文档的不休堆集，数据散布可能会出现变动，初期开发的正则表白式不实时批改就会导致数据漏判和误判；

??此表，非结构化文档往往是拥有多页、字符数量多的长文本，使用正则表白式对全文进行匹配效能低下。

正则表白式匹配方式，对于非结构化文档的分类分级不够精准，既不能齐全切合合规要求，也难以对所有无标签数据设置分歧类型的；ご胧，使数据置于泄露风险之中。

02

非结构化数据自动分类分级技术规划

为破解传统正则表白式匹配方式的缺点，为行业内提供更高精准度、更高效的非结构化文档分类分级方式，更火速地驱动数据防护，KY开元技术研发团队深刻解构天生式人为智能、UEBA等各项前沿技术，将AI大模型与数据分类分级场景深度融合，沉淀出多个技术模型。

在历经多轮尝试、多番能力验证后，KY开元在原有模型基础上拓展升级，迭代出更智能的非结构化数据自动分类分级步骤，擘画数据安全与AI技术融合发展新蓝图。

该方法的主题是利用NLP技术有效结合无监督进建和监督进建模型，分阶段来实现对非结构化数据的分类分级。在初期阶段使用无监督进建模型，通过对比进建+聚类的方式对大量的无标签样本进行分类分级，来累积初始的标签样本；之后通过监督进建模型来进一步提升整体分类分级的正确性。

在无监督进建环节，KY开元技术团队开发了“文本对比进建+KMeans聚类“的方式进行建模。

无监督对比进建模型自界说伪标签“文本类似”和“文本不类似”来构建正负样本，把自己界说的伪标签当作分类信号来实现建模和训练。提取模型中央层的了局作为文本向量。接下来通过对文本向量进行聚类，从而实现无监督分类分级。

NLP作为一种天然说话处置技术，是AI技术的一个沉要子领域，KY开元将其深刻融入至非结构化数据分类分级模型的成立傍边；而跑通无监督对比进建模型，意味着表征能力更强，类似句的类似度更高，非类似句的类似度更低。KY开元以AI技术领跑数据安全赛路，持续为客户打造当先的数据分类分级出产力。

03

基于NLP的无监督分类分级模型技术优势

基于NLP的无监督分类分级模型，是数据分类分级领域的一次沉大创新，目前已经在数据安全具体项目中落地利用，其前瞻性和实用性也获得了客户和权威机构的认可。凭据现实运行的数据，无监督进建模型已经被验证在覆盖领域、正确率、效能和扩大机能上实现了新突破，有效破除了正则表白式匹配方式的缺点。

01

高覆盖率

该步骤提取非结构化文档的短文本特点，并开发出分歧类型文档解析器，解析文档多领域特点，有效利用大量的无标签数据作为训练资源，可能对更大领域的非结构化文档进行特点提取。经过对比，该步骤预测数据的覆盖率能达到90%+，比正则匹配步骤覆盖率提升50%。

02

高匹配效能

该步骤设计了通用的文档解析器，能够急剧对长文档抽取出主题概括。同时该步骤搭载的基于NLP的无监督对比进建模型，是一种融合AI技术的无监督式文本向量抽取方式，实现的成效是在不监督数据的情况下天生高质量的句子向量。凭据现实运行数据，在GPU加快下，该步骤可能在1秒以内实现对长文档分类分级。而正则表白式匹配方式则需10秒以上，效能提升90%.

03

高正确率

该步骤中的文本对比进建模型参考了SimCSE结构，建模过程中使用Dropout层赋予神经元随机失活能力，实现统一数据得到2个分歧的文档特点向量职能。之后使用softmax分类器对特点向量进行2分类，即可实现“文档类似”和“文档不类似”的判定。模型自身先进性优越，因而匹配的正确率可能一向维持高水准。

04

高扩大性

该模型结构能够直接迁徙到其他业务上：文档解析职能能够扩大到其他文德粪型；模型在设计上各环节解耦，获取到文档向量后能够选取多种方式进行分类分级，并不限于KMeans聚类；对比进建+聚类的结构能够利用在多个业务场景，使用对应的训练数据源即可。

未来，基于NLP的非结构化数据分类分级模型这类全新工具和新模型会不休涌现，推动AI技术和数据安全的融合创新，赋能数据分级分类利用技术进入一个新时期，为各行业带来更高效、更创新的数据安全解决规划。KY开元将在技术落地性方面做出更多致力，推进AI+非结构化数据分类分级步骤更大领域利用实际，精准鉴别数据价值、深度防护沉点数据，护航数据安全。

创造更安全的数字未来 身份与接见安全 · 数据安全 · 安全治理与运营 · 安全服务

211217064502498

【网站地图】