摘 要
随着信息技术的快速发展,档案开放智能审核工作面临越来越多的挑战。敏感词的识别与控制在防止敏感信息泄露中起着关键作用。通过分析敏感词识别技术与方法,构建基于大模型与多模态训练的敏感词库,包括敏感词库的构建、敏感词库的动态更新机制,选择合适的开发工具和技术平台,进行系统架构设计、数据库设计、界面设计等,实现档案开放智能审核中敏感词的自动化、智能化处理,以增强档案信息的安全性和可靠性。
档案开放智能审核中的敏感词识别与控制技术研究
2020年,新修订的《中华人民共和国档案法》将县级以上各级档案馆的档案的封闭年限从30年缩短为25年[1],加快了档案开放的进程,同时也将各级档案馆的开放审核工作提上了重要的议事日程[2]。档案开放审核是档案工作中的重要环节,涉及到档案信息的公开、利用和保护等多个方面。在档案开放过程中,敏感词的识别与控制是确保档案信息安全的重要措施。传统的敏感词识别方法往往依赖于人工定义和手动更新,这种方式不仅效率低下,而且难以满足档案开放审核的复杂需求。现有的人工智能辅助档案开放审核系统中,2016年,福建省档案馆引入敏感词辅助开展档案开放审核工作,在开放审核的质量和效率方面取得一定突破。并于2022年研发基于数字档案的人工智能档案开放审核系统,将目录及全文运用“敏感词”过滤进行智能分级分库,并按初审、复审、终审流程进行逐级审核[3]。2019年,潍坊市档案馆主导开发了综合档案管理系统中的档案审核程序,将敏感词全文比对技术应用到审核工作中,实现了档案开放审核工作在技术上质的提升[4]。2021年, 四川省档案馆围绕档案开放审核中的各个维度和要素,利用关键词提取、敏感词标注等辅助技术,对其原理、设计及应用实践进行研究,以达到提高档案开放审核速度和精准度、赋能档案开放审核工作的目的[5]。随着大模型技术和多模态的兴起,如何构建一个高效、准确的敏感词库,成为当前档案开放审核工作中亟待解决的问题。
斗指西南,维为立秋
1 敏感词识别技术与方法
1.1 敏感词识别技术
敏感词是一类被定义为敏感信息的关键词,如IP地址、身份证号、手机号、密钥、数据库连接密码等[6]。敏感词识别技术是一种用于检测文本、语音、图片等媒体中是否包含敏感词汇或内容的技术手段,主要依赖于自然语言处理、机器学习、深度学习等人工智能技术,通过训练大量的文本数据,机器可以学习到哪些词汇或短语是敏感的,哪些是不敏感的,当新的文本输入时,机器会将其与已知的敏感词汇或短语进行比对,判断是否包含违规内容。
技术实现上通常需要维护一个包含敏感词的字典[7],用于快速匹配用户输入的文本内容,利用字符串匹配算法,能够高效地在主串中一次性查找多个模式串(即敏感词)是否存在,结合自然语言处理技术和机器学习算法,对文本进行深度分析,提高敏感词识别的准确率,利用深度学习模型,如循环神经网络(RNN)、长短期记忆网络(LSTM)或Transformer等[8],对文本进行建模和预测,进一步提高敏感词识别的效果。
敏感词识别技术广泛应用于内容审核、信息安全、舆论监控等领域。例如,在档案开放审核中,通过引入敏感词识别技术,设定特定的敏感词库,并利用技术手段自动扫描档案内容,快速定位到可能包含敏感信息的部分。这大大提高了审核效率,减少了人力成本。敏感词识别技术基于自然语言处理和机器学习算法,能够更准确地识别出文本中的敏感信息,通过训练模型,系统可以学习到复杂的语义关系,从而更准确地判断某些词汇或短语是否属于敏感词,相比人工审核,敏感词识别技术减少了主观判断带来的误差,提高了审核的准确性[9]。在档案开放审核中,不同机构或部门可能对敏感信息的定义有所不同,敏感词识别技术允许用户根据实际需求定制敏感词库,从而实现对不同类型敏感信息的有效监控。
1.2 基于规则的敏感词识别方法
利用预设规则进行敏感词识别的方法是一种在信息安全领域中常见的技术手段,从相关法律法规、行业标准、历史案例及用户反馈等多个渠道收集敏感词汇,并进行整理分类,定义完全匹配、部分匹配、模糊匹配等多种匹配方式,以适应不同档案内容的审核需求,通过编程语言的文本处理功能,去除档案文本中的标点符号、特殊符号等无关字符[10],对于中文档案,进行分词处理,将文本切分成单词或短语,以便更准确地识别敏感词。利用编程语言的字符串处理功能或专门的文本处理库,遍历经过预处理的档案文本,将文本中的每个单词、短语或句子与敏感词库进行比对,识别出敏感词并记录其相关信息[11],如位置、出现次数等,在识别出敏感词后,对档案文本进行标记,并提示审核人员注意该部分内容,采用高效的字符串匹配算法和数据结构,提高敏感词识别的速度和准确性,对于实时更新的档案数据,进行实时监控和敏感词识别,确保新增内容符合安全、合规要求。
1.3 基于统计的敏感词识别方法
基于统计的敏感词识别方法是一种利用统计学原理进行敏感词检测的技术[12]。与基于规则的敏感词识别方法不同,它更多地依赖于大量文本数据的统计特性和机器学习算法来识别敏感词。从各种档案数据源(如历史档案、数字化档案等)中收集文本数据,对收集到的文本数据进行清洗,包括去除无关字符、特殊符号、HTML标签等,并进行分词处理[13]。将预处理后的文本转换为数值向量,基于行业标准和历史经验,构建一个初始的敏感词库,根据数据特点和业务需求,选择合适的机器学习算法,如朴素贝叶斯、支持向量机(SVM)或深度学习模型,将训练好的模型应用于实际档案开放审核中,对档案文本进行敏感词识别。通过大量的数据训练和机器学习的自动学习,模型能够更准确地识别敏感词。
2 基于大模型与多模态训练的敏感词库构建
2.1 大模型训练
2022 年底,由 OpenAI 发布的语言大模型 ChatGPT 引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT 能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力[14]。在构建敏感词库的过程中,大模型训练发挥着至关重要的作用,利用先进的深度学习技术,通过训练大规模语料库,得到一个具有强大语义理解能力的模型,该模型不仅能够准确地识别出文本中的敏感词,还能够深入理解文本内容,提高识别的准确性和效率[15]。
大模型经过大量的数据训练,能够学习到丰富的语义信息,模型在识别敏感词时,不仅依赖于简单的关键词匹配,还能理解文本的上下文和深层含义[16]。由于大模型训练使用的是大规模的语料库,它包含了各种领域和类型的文本数据。因此,训练得到的模型具有广泛的适用性,能够应对不同领域和类型的敏感词识别任务。大模型训练通常采用先进的深度学习算法和优化技术,这使得模型在训练过程中能够不断优化自身性能,提高识别的准确性[17]。
构建敏感词库的过程:需要准备一个包含大量文本数据的语料库,语料库应该具有广泛的领域和类型,以便训练得到的模型能够适应不同的应用场景。在语料库中,对包含敏感词的文本进行标注,通过人工标注或自动标注的方式实现,标注的结果将作为模型训练的输入数据[18]。利用深度学习技术,训练一个大规模的神经网络模型,该模型将学习语料库中的文本数据和标注信息,逐渐提高识别敏感词的能力。在模型训练过程中,需要不断评估模型的性能,并根据评估结果进行优化,包括调整模型的参数、结构或算法等,以提高识别的准确性和效率,当模型训练完成后,利用该模型对新的文本数据进行敏感词识别,识别出的敏感词将被添加到敏感词库中,以便后续的应用和更新。
2.2 多模态训练
2023年3月,最新发布的超大规模多模态预训练大模型--GPT-4,具备了多模态理解与多类型内容生成能力[19]。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。采用多模态训练的方式来构建敏感词库是一个前沿且高效的策略,该方法利用了传统的文本数据,引入了图像、音频等多媒体数据,通过多模态数据的融合训练,旨在提高模型对敏感词的识别能力[20]。
多模态训练涉及将不同类型的数据(如文本、图像、音频)整合到一个统一的模型中进行训练,这种融合可以提供更丰富的上下文信息,有助于模型更准确地理解和识别敏感内容[21]。通过设计一个能够处理多种数据类型的深度学习模型,结合卷积神经网络(CNN)和循环神经网络(RNN)的混合模型,在训练过程中,模型需要学习如何从不同模态的数据中提取和整合特征,以进行有效的敏感词识别。
多模态训练有助于增强模型对于细微差异的敏感性,通过分析图像内容与相关文本描述之间的关联来识别敏感信息[22]。在档案审核中,多模态模型可以同时分析档案的文本内容、相关图片和音频记录,以全面检测敏感信息。随着多模态学习技术的不断发展,未来的敏感词识别模型将更加智能和准确。采用多模态训练的方式来构建敏感词库,是适应档案信息多样性和复杂性的有效途径[23]。这种方法通过融合不同模态的数据,提高了模型对敏感词的识别能力,为档案开放审核提供了更加全面和准确的技术支持,如图1所示。
图1 多模态训练档案开放流程图
在大模型和多模态训练的基础上,构建档案开放审核敏感词库,词库包含了各种敏感词汇和短语,并且可以根据实际需要进行动态更新和扩展。同时,敏感词库设计了相应的查询和检索机制,方便审核人员快速定位和查找敏感词。
2.3 敏感词的定义与分类
在档案开放审核中,根据词汇的敏感性程度,可以将其分为不同的级别,如低敏感、中敏感和高敏感,以便于采取不同程度的处理措施。敏感词的分类应基于国家法律法规的相关规定,确保识别工作符合法律要求,考虑社会文化的多样性和变迁,敏感词的分类应具有一定的适应性和灵活性。档案开放审核涉及的领域广泛,不同行业和领域对敏感词的定义和分类可能有所不同,需要结合具体情境进行细化。通过文本分析、专家评审和用户反馈等多种方式收集潜在的敏感词汇,这包括历史档案、政府文件、公开出版物等来源,对收集到的敏感词汇进行分类标注,明确其所属的类别和敏感性级别[24]。
识别策略的实施:根据敏感词的分类和级别,制定相应的识别和处理规则,如屏蔽、替换或标记等。采用自然语言处理、机器学习等技术手段,实现自动化的敏感词识别和处理,包括关键词匹配、语义分析等方法[25]。对识别结果进行人工审核,确保处理的准确性和合理性。这有助于避免误判和漏判。
档案开放审核中敏感词的概念和分类标准的确立是构建有效识别系统的关键基础。通过明确敏感词的定义、制定分类准则和实施识别策略,可以有效地识别和处理敏感词汇,为档案开放审核和其他内容管理系统提供支持[26]。同时,这一过程也需要应对语境依赖性、多义词问题等挑战,并严格遵守合规性和伦理原则。
2.4 基于大模型与多模态训练的敏感词库构建
结合大模型和多模态训练技术,以提高敏感词库的全面性和准确性。首先,利用大数据预训练模型,如BERT或它的变体,来捕捉词汇的丰富语义表示。通过这种方式,模型能够理解和预测词汇在不同上下文中的语义。
其次,引入多模态训练,将文本内容与图片、音视频等非文本数据相结合。例如,档案资料中常见的手写注释、历史照片和相关文档的图像,都可以作为额外的训练数据。这种方法可以增强模型对于档案特定内容的理解和敏感词的辨识能力。
为了适应档案数据的多样性和历史性,引入了领域适应性训练,使模型更好地适应档案语境中的特定表达方式。此外,考虑到档案的敏感性和历史性,采用了半监督学习或弱监督学习方法,以利用有限的标注数据进行有效训练。
2.5 敏感词库的动态更新机制
在档案开放审核中,动态更新机制是确保敏感词库能够适应不断变化的信息环境的关键,这一机制涉及到对敏感词库的持续监控、定期更新和适时调整,以保持其时效性和准确性。
通过设定监控系统,实时跟踪网络环境和社会动态,及时发现新出现的敏感词汇和表达方式,制定明确的更新计划,如每季度或每半年对敏感词库进行全面的审查和更新。针对特定事件(如政治事件、社会事件等),灵活调整更新频率,确保敏感词库能够及时反映当前的敏感话题。利用自然语言处理和机器学习技术,自动识别和提取潜在的敏感词汇,提高更新效率[27]。通过对大量文本数据的统计分析,发现敏感性词汇的出现频率和分布规律,为更新提供数据支持。邀请法律、社会学、信息安全等领域的专家参与敏感词库的更新过程,提供专业意见,通过跨学科的合作,综合考虑不同领域的知识和需求,确保敏感词库的全面性和准确性[28]。
随着社会文化的快速变化,某些词汇的敏感性可能会随时间而变化,需要及时调整其分类和处理规则,对于具有多重含义的词汇,需要结合上下文进行细致判断,避免误判,通过持续的监控、专家参与和技术创新,灵活应对这些挑战,确保敏感词库的准确性和适应性[29],在全球化的背景下,敏感词库的更新可能需要考虑到跨国文化和法律的差异,国际合作将成为重要的趋势。
档案开放审核中的动态更新机制是确保敏感词库能够适应不断变化的信息环境的关键。通过实时监控、定期更新、技术手段的应用、专家参与等措施,可以有效地保持敏感词库的时效性和准确性。同时,这一机制也需要应对语境变化、多义词处理等挑战,并严格遵守透明性与可追溯性的原则。
3 系统实现
基于档案开放智能审核对敏感词的识别与控制技术需求,通过选择合适的开发工具和技术平台,进行系统架构设计、数据库设计、界面设计等,实现档案开放智能审核中敏感词的自动化、智能化处理。
3.1 开发工具和技术平台选择
前端选择Vue3框架,该Javascript框架提供了响应式用户界面和较好的用户体验,后端使用.NET Core,该技术均支持快速开发与高效的系统性能,根据数据类型和查询需求,选用MsSQL结合缓存数据库Redis,可以大大提升数据访问效率,采用云计算技术,如腾讯云或阿里云等,提供弹性的计算资源,满足系统在不同负载下的性能需求[30]。同时,利用微服务架构,将系统拆分为多个独立的服务,提高系统的可维护性和可扩展性。
3.2 系统的架构设计
前端架构采用采用响应式设计,确保系统在不同设备上的良好显示和用户体验。同时,利用Vue.js、React等前端框架,实现快速、高效的界面渲染和交互。后端架构采用微服务架构,将系统拆分为档案信息管理、审核流程管理、权限控制等独立的服务[31]。每个服务负责处理特定的业务逻辑,并通过API网关进行通信。此外,利用消息队列(如RabbitMQ、Kafka)实现服务的异步通信和解耦。数据库选择关系型数据库MsSQL存储档案信息、审核记录等结构化数据[32]。同时,结合Redis作为缓存数据库提升数据的查询和存储效率。
3.3 数据库设计
数据模型设计,定义清晰的数据模型,符合档案数据的特点和审核需求。例如,档案数据模型应包括索引信息、内容摘要、敏感标识等字段。考虑数据的一致性和完整性,设计合理的数据约束和索引策略,提高查询效率和数据准确性,实施严格的数据访问控制,确保只有授权用户可以访问敏感数据[33],定期进行数据备份,制定灾难恢复计划,保障数据的安全性和可靠性。
3.4 原型设计
策略配置提供一站式管控策略配置,将词库与业务巧妙融合,灵活控制影响方式、持续时间及状态,精准掌握策略召回数量,并可对策略召回内容进行深度处理。词库管理实现便捷添加敏感词,明确所属词库,添加时即可预览召回量,抽样评估后准确掌握拦截准确率。初步划分所属词库,随后评估召回量与随机样本,决定是否生效及确认词库归属。随机样本抽取数量与方式可在“样本设置”中调整,命中准确率评估则在“敏感词评估”中进行[34]。用户配置将用户与敏感词、业务、地域三维紧密关联,敏命中策略对应“策略配置”页相关策略,清晰展示受该策略影响的用户数,点击“处理”即可跳转至“内容处理”页面进行相应操作。内容处理方面,针对命中策略的业务或用户,实施精准处理。数据统计实现从策略、词库、用户及处理等多维度进行详尽数据统计,并以报表形式直观呈现各类数据,方便分析与决策,如图2所示。
图2 新建敏感词原型图
3.5 测试评估
在系统实现完成后,对档案开放审核敏感词库进行测试评估。这包括对系统的功能、性能、安全性等方面进行测试,确保系统能够满足实际需求并达到预期效果[35]。同时,根据测试结果对系统进行优化和改进。
档案开放审核作为一项为社会提供档案服务的前期工作,对文化遗产的保护、社会治理的规范和公共利益的实现具有重要意义[36]。人工智能的介入大大优化了档案开放审核的能力。基于深度学习的人工智能技术,从早期的“标注数据监督学习”的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到“大规模无标注数据预训练+指令微调+人类对齐”的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。使用大模型与多模态训练构建敏感词库,在档案开放审核中能够准确识别出敏感词,确保档案开放审核过程的一致性和稳定性,减少人工干预和错误率,增强档案信息的安全性和可靠性,推进档案开放的进程,提升档案为社会公共服务的力度。
作者/卞咸杰
《档案管理》2024年5期
《档案管理》|杂志社编辑部
《档案管理》|杂志社官方公众号