(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211251387.9
(22)申请日 2022.10.13
(71)申请人 深圳市大 数据研究院
地址 518000 广东省深圳市龙岗区龙城街
道龙翔大道 2001号道远楼 225室
(72)发明人 舒涛 曾诗培 刘晗 代山 张凯
张淑娟 吴书涵
(74)专利代理 机构 深圳市恒和大知识产权代理
有限公司 4 4479
专利代理师 邹航
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 16/31(2019.01)
G06F 16/34(2019.01)
G06F 16/33(2019.01)G06Q 10/06(2012.01)
G06Q 10/10(2012.01)
(54)发明名称
基于文本分析的科研项目产出评价验收方
法及系统
(57)摘要
本发明公开了基于文本分析的科研项目产
出评价验收方法、 系统、 计算机设备及存储介质,
其方法实现, 包括: 采集科研项目的项目文本数
据以及项目产出文本数据, 并生成项目数据表以
及项目产出数据表; 对所述项目产出数据表与所
述项目数据表进行预处理; 计算所述项目产出信
息中属于其所属项目信息的重点词个数、 所述项
目产出信息与所述项目信息的词频分布相似度,
以及词频加权后的项目产出信息与所述项目信
息的词向量相似度; 对所述重点词个数、 词频分
布相似度以及词向量分布相似度进行加权平均,
以获取每个项目产出与其所属项目的相似度, 并
进行归一化后, 作为最终项目产出与其所属项目
的匹配度得分。 提高了准确度, 实现了科研项目
产出的智能化验收。
权利要求书2页 说明书13页 附图10页
CN 115329742 A
2022.11.11
CN 115329742 A
1.一种基于文本分析的科研项目产出评价验收方法, 其特 征在于, 所述方法包括:
采集科研项目的项目文本数据以及项目产 出文本数据, 并生成项目数据表以及项目产
出数据表;
对所述项目产出数据表与所述项目数据表进行预处理, 以合并成新的数据表, 所述新
的数据表包括项目信息以及项目产出信息;
计算所述项目产 出信息中属于其所属项目信 息的重点词个数、 所述项目产出信 息与所
述项目信息的词频分布相似度, 以及词频加权后的项目产出信息与所述项目信息的词向量
相似度;
对所述重点词个数、 词频分布相似度以及词向量分布相似度进行加权平均, 以获取每
个项目产出与其所属项目的相似度, 并进行归一化后, 作为最终项目产出与其所属项目的
匹配度得分。
2.如权利要求1所述的基于文本分析的科研项目产 出评价验收方法, 其特征在于, 所述
计算所述项目产出信息中属于其所属项目信息的重点词个数、 所述项目产出信息与所述项
目信息的词频分布相似度, 以及词频加权后的项目产出信息与所述项目信息的词向量相似
度之前, 包括:
将所述项目信息作为语料库, 并计算所述项目信息中每个词的词频及词频逆文档频
率, 以生成每 个项目的词列表、 词频列表以及词频逆文档频率列表。
3.如权利要求1所述的基于文本分析的科研项目产 出评价验收方法, 其特征在于, 所述
计算所述项目产出信息中属于其所属项目信息的重点词个数, 包括:
提取所述项目产出信息对应的词频逆文档频率列表中数值 最大的前N个词;
计算所述项目产出信息中出现所述前N个词的数量, 以作为所述重点词个数。
4.如权利要求1所述的基于文本分析的科研项目产 出评价验收方法, 其特征在于, 所述
计算所述项目产出信息与所述项目信息的词频分布相似度, 包括:
计算所述项目产出信息的段落词频逆文档频率与所述项目信息的段落词频逆文档频
率之间的相似度, 以作为词频第一相似度;
计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的每句话词频逆
文档频率之间的相似度, 以作为词频第二相似度;
计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的主旨句词频逆
文档频率之间的相似度, 以作为词频第三相似度。
5.如权利要求1所述的基于文本分析的科研项目产 出评价验收方法, 其特征在于, 所述
计算词频加权后的项目产出信息与项目信息的词向量相似度, 包括:
根据所述项目信息以及所述项目产出信息, 计算词向量, 以生成词向量单词表;
计算所述项目产 出信息的段落词向量与 所述项目信 息的段落词向量之间的相似度, 以
作为词向量第一相似度;
计算所述项目产出信息中的每句话词向量与所述项目信息的每句话词向量之间的相
似度, 以作为词向量第二相似度;
计算所述项目产出信息中的每句话词向量与所述项目信息的主旨句词向量之间的相
似度, 以作为词向量第三相似度。
6.如权利要求1所述的基于文本分析的科研项目产 出评价验收方法, 其特征在于, 所述权 利 要 求 书 1/2 页
2
CN 115329742 A
2对所述重点词个数、 词 频分布相似度以及词向量分布相似度进行加权平均, 以获取每个项
目产出与其所属项目的相似度, 并进行归一化后, 作为最终项目产出与其所属项目的匹配
度得分, 包括:
将所述重点词个数、 所述词频第一相似度、 所述词向量第一相似度归一化处理后求最
大值, 以作为 最大相似度;
将所述最大相似度、 所述词频第 二相似度、 所述词频第 三相似度、 所述词向量第 二相似
度、 所述词向量第三相似度, 进 行加权平均后归一化处理, 以获取每个项目产出与其所属项
目的相似度。
7.如权利要求1 ‑6任意一项所述的基于文本分析的科研项目产出评价验收方法, 其特
征在于, 所述项目产出信息包括论文, 所述对所述项目产出数据表与所述项目数据表进行
预处理, 以合并成新的数据表, 所述 新的数据表包括项目信息以及项目产出信息, 包括:
分别提取所述项目数据表以及项目产出数据表关键列进行合并, 以生成所述新的表
格, 所述新的表格包括项目编号、 项目名称、 项目研究内容、 论文标题、 论文摘要;
将所述项目编号、 项目名称、 项目研究内容、 论文标题、 论文摘要翻译为英文, 并去除所
述论文标题中为空的行;
将所述项目名称、 项目内容以及项目研究内容合并为项目信 息, 将所述论文标题、 论文
摘要合并为 论文信息 。
8.一种基于文本分析的科研项目产出评价验收系统, 其特 征在于, 所述系统包括:
采集单元, 用于采集多个科研项目的项目文本数据以及项目产出文本数据, 并生成项
目数据表以及项目产出 数据表;
预处理单元, 用于对所述项目产出数据表与所述项目数据表进行预处理, 以合并成新
的数据表, 所述 新的数据表包括项目信息以及项目产出信息;
第一计算单元, 用于计算所述项目产出信息中属于其所属项目信息的重点词个数、 所
述项目产出信息与所述项目信息的词频分布相似度, 以及词频加权后的项目产出信息与所
述项目信息的词向量相似度;
匹配度得分获取单元, 用于对所述重点词个数、 词频分布相似度以及词向量分布相似
度进行加权平均, 以获取每个项目产出与其所属项目的相似度, 并进 行归一化后, 作为最 终
项目产出与其所属项目的匹配度得分。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器
上运行的计算机可读指令, 其特征在于, 所述处理器执行所述计算机可读指令时实现如权
利要求1至7任意 一项所述基于文本分析的科研项目产出评价验收方法的步骤。
10.一个或多个可读存储介质, 所述可读存储介质存储有计算机可读指令, 其特征在
于, 所述计算机可读指令被处理器执行时实现如权利要求 1至7任意一项 所述基于文本 分析
的科研项目产出评价验收方法的步骤。权 利 要 求 书 2/2 页
3
CN 115329742 A
3
专利 基于文本分析的科研项目产出评价验收方法及系统
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:13上传分享