(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210312822.8
(22)申请日 2022.03.28
(71)申请人 北京信息科技大 学
地址 100101 北京市朝阳区北四环中路3 5
号
(72)发明人 田英爱 李宁 范博珩
(74)专利代理 机构 北京唯智勤实知识产权代理
事务所(普通 合伙) 11557
专利代理师 孙姣
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/166(2020.01)
G06F 40/151(2020.01)
(54)发明名称
语义文档存 储方法、 装置
(57)摘要
本公开的实施例公开了语义文档存储 方法、
装置。 该方法的一具体实施方式包括: 响应于接
收到针对已嵌入语义标记的语义文档的语义标
记转换指令, 对已嵌入语义标记的语义文档进行
语义标记预处理, 得到预处理后的流式文档; 对
预处理后的流式文档进行文本编辑, 得到编辑后
流式文档; 响应于接收到针对编辑后流式文档的
语义批注 转换指令, 对编辑后流式文档进行语义
批注后处理, 得到处理后的语义文档; 对处理后
的语义文档进行存储。 该实施方式可以使得文字
处理软件正 常打开、 编辑且保存嵌入语义标记的
语义文档, 同时使得嵌入语义标记的语义文档便
于文档的高效检索、 信息提取及机器理解等智能
化处理。
权利要求书2页 说明书9页 附图7页
CN 114707514 A
2022.07.05
CN 114707514 A
1.一种语义文档存 储方法, 包括:
响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令, 对所述已嵌入语
义标记的语义文档进 行语义标记预处理, 得到预 处理后的流式文档, 其中, 所述预处理后的
流式文档中存在各个语义批注, 所述各个语义批注是基于所述已嵌入语义标记的语义文档
中的各个 语义标记转换生成的;
响应于接收到针对所述预处理后的流式文档的文档编 辑指令, 对所述预处理后的流式
文档进行文本编辑, 得到编辑后流式文档;
响应于接收到针对所述编 辑后流式文档的语义批注转换指令, 对所述编 辑后流式文档
进行语义批注后处理, 得到处理后的语义文档, 其中, 所述处理后的语义文档中存在已嵌入
的各个语义标记, 所述处理后的语义文档中的各个语义标记是基于所述编辑后流式文档中
各个语义批注转换生成的;
对所述处 理后的语义文档进行存 储。
2.根据权利要求1所述的方法, 其中, 所述对所述已嵌入语义标记的语义文档进行语义
标记预处 理, 得到预处 理后的流式文档, 包括:
调整所述已嵌入语义标记的语义文档的格式结构, 得到调整后的语义文档;
对所述调整后的语义文档所包括的各个语义标记进行语义范围批注, 得到批注后的流
式文档;
对于所述批注后的流式文档中的每个语义范围批注, 根据 所述语义范围批注对应的语
义内容, 生成语义批注, 其中, 所述语义内容包括: 词汇表命名空间标识、 类别、 属性名称、 属
性值、 特定位置或区域位置的语义信息, 所述语义信息包括: 文档作者名称、 文档撰写日期、
撰写时间、 关键词、 词频信息;
根据所述批注后的流式文档中的各个语义范围批注和所得到的各个语义批注, 生成所
述预处理后的流式文档。
3.根据权利要求2所述的方法, 其中, 所述调整所述已嵌入语义标记的语义文档的格式
结构, 得到调整后的语义文档, 包括:
响应于确定所述已嵌入语义标记的语义文档中存在多个第 一目标语义标记, 且所述多
个第一目标语义标记位于同一 目标标签下, 依据预定分割方式, 对所述多个第一 目标语义
标记进行语义标记分割处理, 其中, 所述多个第一 目标语义标记对应的语义内容类型为命
名实体;
响应于确定所述已嵌入语义标记的语义文档中存在第 二目标语义标记, 且所述第 二目
标语义标记位于文档可见范围之外, 将所述第二目标语义标记的语义内容移动至所述文档
可见范围内, 其中, 所述第二目标语义标记对应 语义内容的类型为描述文档的元 数据类型。
4.根据权利要求2所述的方法, 其中, 所述对所述调整后的语义文档所包括的各个语义
标记进行语义范围批注, 得到 批注后的流式文档, 包括:
对于所述各个语义标记中的每个语义标记, 确定所述语义标记对应标签的标签起始位
置和标签结束位置;
删去所述各个 语义标记对应的命名空间描述和所述各个 语义标记所对应的目标 标记;
将所述各个语义标记中语义标记对应标签的标签起始位置和标签结束位置, 确定为语
义标记的语义范围;权 利 要 求 书 1/2 页
2
CN 114707514 A
2依据预定格式, 对所述各个 语义标记的语义范围进行 范围批注。
5.根据权利要求2所述的方法, 其中, 所述根据所述语义范围批注对应的语义内容, 生
成语义批注, 包括:
依据语义批注范围的起始标记和结束标记, 生成与所述语义批注范围相对应的语义批
注标记;
将所述语义批注标记中的语义内容确定为语义批注的内容信息;
生成与语义批注相对应的用户标识;
根据所述语义批注的内容信息和用户标识, 生成所述语义批注。
6.根据权利要求5所述的方法, 其中, 所述将所述语义批注标记中的语义内容确定为语
义批注的内容信息, 还 包括:
响应于确定语义内容类型为命名实体的语义标记对应多段文本的内容, 根据语义标记
的多段标识和顺序编号, 将语义标记的语义内容确定为至少一个 语义批注的内容信息 。
7.根据权利要求1所述的方法, 其中, 所述对所述编辑后流式文档进行语义批注后处
理, 得到处 理后的语义文档, 包括:
根据语义用户标识, 将对应的语义批注对应的语义批注范围作为语义标记的范围;
根据所述语义用户标识, 将对应的语义批注的内容信息提取出来, 得到语义标记的内
容信息;
根据所述语义批注的内容信 息, 将具有多段标识的语义批注按编 号顺序还原多段文本
或语义标记;
响应于所述语义批注的内容信 息的内容类型为描述文档的元数据类型, 将语义标记连
同内容信息还原至原来 位置;
添加或还原命名空间描述, 以将文档作为处 理后的语义文档。
8.根据权利要求2所述的方法, 其中, 在所述调 整所述已嵌入语义标记的语义文档的格
式结构, 得到调整后的语义文档之前, 所述方法还 包括:
存储所述已嵌入语义标记的语义文档中各个 语义标记的语义标记属性信息 。
9.一种语义文档存 储装置, 包括:
语义标记预处理单元, 被配置成响应于接收到针对已嵌入语义标记的语义文档的语义
标记转换指令, 对所述已嵌入语义标记的语义文档进行语义标记预处理, 得到预处理后的
流式文档, 其中, 所述预 处理后的流式文档中存在各个语义批注, 所述各个语义批注是基于
所述已嵌入语义标记的语义文档中的各个 语义标记转换生成的;
文本编辑单元, 被配置成响应于接收到针对所述预处理后的流式文档的文档编辑指
令, 对所述预处 理后的流式文档进行文本编辑, 得到编辑后流式文档;
语义批注后处理单元, 被配置成响应于接收到针对所述编 辑后流式文档的语义批注转
换指令, 对所述编辑后流式文档进行语义批注后处理, 得到处理后的语义文档, 其中, 所述
处理后的语义文档中存在已嵌入的各个语义标记, 所述处理后的语义文档中的各个语义标
记是基于所述编辑后流式文档中各个 语义批注转换生成的;
存储单元, 被配置成对所述处 理后的语义文档进行存 储。权 利 要 求 书 2/2 页
3
CN 114707514 A
3
专利 语义文档存储方法、装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:27上传分享