国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210323975.2 (22)申请日 2022.03.29 (71)申请人 马上消费金融股份有限公司 地址 404100 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人 李长林 王洪斌 蒋宁 权佳成 曹磊 (74)专利代理 机构 深圳市智圈知识产权代理事 务所(普通 合伙) 44351 专利代理师 苗燕 (51)Int.Cl. G06F 40/221(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06N 3/08(2006.01) (54)发明名称 标注数据集获取方法、 装置、 电子设备及存 储介质 (57)摘要 本申请公开一种标注数据集获取方法、 装 置、 电子设备及存储介质, 该方法包括: 获取 兼类 词; 获取兼类词在不同词性下的第一文本; 针对 兼类词在每个词性下的第一文本进行多次词语 替换操作, 得到兼类词在每个词性下的第一文本 对应的多个第二文本; 基于目标文本生成标注数 据集。 本申请实施例提供的技术方案, 通过获取 兼类词在不同词性下的第一文本后, 通过第一文 本中的词语的同义词对第一文本进行多次词语 替换操作, 在不改变第一文本的语义的基础上实 现自动语料扩充, 使 得用于生 成标注数据集的第 二文本更为丰富、 更 具有多样性。 权利要求书2页 说明书12页 附图6页 CN 114707489 A 2022.07.05 CN 114707489 A 1.一种标注数据集获取 方法, 其特 征在于, 所述方法包括: 获取兼类词, 所述兼类词是指具有 多个词性的词语; 获取所述兼类词在不同词性下的第一文本; 针对所述兼类词在每个所述词性下的第 一文本进行多次词语替换操作, 得到所述兼类 词在每个所述词性下的第一文本对应的多个第二文本, 所述词语替换操作是指通过第一目 标词语替换所述第一文本中的第二目标词语的操作, 对所述第一文本的一次词语替换操作 得到一个所述第二文本, 所述第一 目标词语与所述第二 目标词语具有相同词性, 所述第一 目标词语是 所述第二目标词语的同义词; 基于目标文本生成标注数据集, 所述目标文本包括所述兼类词在不同词性下的第 一文 本, 以及所述兼类词在每 个所述词性下的第一文本对应的所述第二文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述针对所述兼类词在每个所述词性下的 第一文本进行多次词语替换操作, 得到所述兼类词在每个所述词性下的第一文本对应的多 个第二文本, 每次词语替换操作包括: 确定当前次待替换的所述第二目标词语; 基于所述第 二目标词语在非兼类词词典中获取所述第 一目标词语, 所述非兼类词词典 包括非兼类词, 所述非兼类词是指具有一个词性的词语; 将所述第一文本中的所述第二目标词语替换成所述第一目标词语, 得到所述第二文 本。 3.根据权利要求2所述的方法, 其特征在于, 所述确定待替换的所述第二目标词语, 包 括: 将所述第一文本中的兼类词确定为待替换的所述第二目标词语; 或者, 将所述第一文本 中的兼类词的相邻词语确定为待替换的所述第 二目标词语, 所述兼类 词的相邻词语包括: 与所述兼类词的语序相邻且在所述兼类词之后的词语; 和/或, 与所述 兼类词的语序相邻且在所述兼类词之前的词语。 4.根据权利要求1所述的方法, 其特 征在于, 基于所述目标文本生成标注数据集, 包括: 获取所述目标文本中词语的词性; 获取所述目标文本对应的词性先验意图, 所述目标文本对应的词性先验意图表征以下 至少一项: 所述目标文本是否包括所述兼类词、 在所述 目标文本包括所述兼类词的情况下 所述目标文本中的兼类词的最大概 率词性; 根据所述目标文本中词语的词性和所述目标文本对应的词性先验意图确定所述目标 文本的标注数据; 根据所述目标文本的标注数据生成所述标注数据集。 5.根据权利要求4所述的方法, 其特征在于, 所述获取所述目标文本对应的词性先验意 图, 包括: 在所述目标文本 中不包括所述兼类词的情况下, 确定所述目标文本对应的词性先验意 图为指定 字符, 所述指定 字符表征 所述目标文本不包括所述兼类词。 6.根据权利要求4所述的方法, 其特征在于, 所述获取所述目标文本对应的词性先验意 图, 包括:权 利 要 求 书 1/2 页 2 CN 114707489 A 2在一个所述目标文本包括n个兼类词的情况下, 获取所述目标文本n个兼类词的n个词 性先验意图, n 为大于1的自然数。 7.一种模型训练方法, 其特 征在于, 包括: 将所述标注数据集输入初始模型进行模型训练, 得到词性标注模型; 其中, 所述标注数 据集如权利要求1至 权利要求6任一项所述的标注数据集获取 方法得到 。 8.一种数据标注方法, 其特 征在于, 包括: 将待标注数据输入词性标注模型, 得到所述待标注数据的目标标注; 其中, 所述词性标 注模型根据如权利要求7 所述的模型训练方法训练得到 。 9.一种标注数据集获取装置, 其特 征在于, 所述装置包括: 兼类词获取模块, 用于获取兼类词, 所述兼类词是指具有 多个词性的词语; 文本获取模块, 用于获取 所述兼类词在不同词性下的第一文本; 词语替换模块, 用于针对所述兼类词在每个所述词性下的第 一文本进行多次词语替换 操作, 得到所述兼类词在每个所述词性下 的第一文本对应的多个第二文本, 所述词语替换 操作是指通过第一目标词语替换所述第一文本中的第二目标词语的操作, 对所述第一文本 的一次词语替换操作得到一个所述第二文本, 所述第一目标词语与所述第二目标词语具有 相同词性, 所述第一目标词语是 所述第二目标词语的同义词; 标注数据集生成模块, 用于基于目标文本生成标注数据集, 所述目标文本包括所述兼 类词在每个所述词性下的第一文本, 以及所述兼类词在每个所述词性下的第一文本对应的 多个所述第二文本 。 10.一种电子设备, 其特征在于, 所述电子设备包括处理器以及存储器, 所述存储器存 储有计算机程序指令, 所述计算机程序指令被所述处理器调用执行如权利要求1 ‑6任一项 所述的标注数据集获取 方法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有程序代 码, 所述程序代码被处 理器调用执 行如权利要求1 ‑6任一项所述的标注数据集获取 方法。权 利 要 求 书 2/2 页 3 CN 114707489 A 3
专利 标注数据集获取方法、装置、电子设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:28
上传分享
举报
下载
原文档
(833.0 KB)
分享
友情链接
GB-T 34587-2017 钢质冷藏集装箱修理技术要求.pdf
NB-T 10929-2022 风力发电机组 变流器 可靠性技术规范.pdf
DPO 非个人数据自由流动框架条例 中文版.pdf
极盾科技 数据安全内控产品 觅踪.pdf
DB32-T 4264-2022 金属冶炼企业中频炉使用安全技术规范 江苏省.pdf
GB-T 31538-2015 混凝土接缝防水用预埋注浆管.pdf
GB-T 33840-2017 水套加热炉通用技术要求.pdf
GB-T 35003-2018 非易失性存储器耐久和数据保持试验方法.pdf
T-CSTM 01094—2023 材料基因工程 合金扩散偶制备元数据.pdf
T-CESA 1120—2020 人工智能芯片 面向边缘侧的深度学习芯片测试指标与测试方法.pdf
GB-T 5624-2019 汽车维修术语.pdf
DB22-T 1060-2019 梅花鹿饲养常用表格规范 吉林省.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
GB-T 42606-2023 固定式压力容器修理导则.pdf
GB-T 39529-2020 系统门窗通用技术条件.pdf
GB-T 8168-2008 包装用缓冲材料静态压缩试验方法.pdf
华为 数据治理之旅.pdf
SN-T 3005-2011 有机化学品中碳、氢、氮、硫含量的元素分析仪测定方法.pdf
GM-T 0003.2-2012 SM2椭圆曲线公钥密码算法第2部分:数字签名算法.pdf
GB-T 30240.10-2017 公共服务领域英文译写规范 第10部分:商业金融.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(833.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。