(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210441352.5
(22)申请日 2022.04.25
(71)申请人 南京信息 工程大学
地址 224002 江苏省盐城市 盐南高新区新
河街道文港南路10 5号
(72)发明人 刘文杰 葛业波 顾雨晨
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 王慧
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 40/04(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于TrellisNet和注意力机制的新闻
驱动股票指数 预测方法
(57)摘要
本发明公开了一种基于TrellisNet和注意
力机制的新闻驱动股票指数预测方法,包括步骤
如下: 获取相关股票指数的历史新闻数据和交易
数据; 将非结构化新闻数据转换为结构化的情感
指数数据; 将结构化的新闻情感指数数据与股票
指数交易数据按照交易日期进行数据融合, 并进
行归一化处理, 构造数据集; 构建TrellisNet和
注意力机制神经网络预测模型, 并利用测试数据
集对预测模 型进行测试修正; 将待预测日的新闻
情感指数数据和待预测日前一日的股票指数数
据作为输入, 用训练好的预测模型进行预测, 得
到待预测股 票指数的涨跌情况。 本发 明通过对相
关指数新闻的情感进行量化分析, 能提高股票指
数的预测准确度, 预测股票指数的未来趋势。
权利要求书3页 说明书8页 附图3页
CN 114819343 A
2022.07.29
CN 114819343 A
1.一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于, 包
括步骤如下:
S1, 获取相关股票指数的历史新闻数据和交易数据;
S2, 通过LSTM ‑CNN文本情感分析模型, 将非结构化新闻数据转换为结构化的情感指数
数据;
S3, 将获取的结构化的情 感指数数据与股票指数交易数据按照交易日期进行相对应的
数据融合, 并进行归一 化处理, 构造数据集, 并将数据集分为训练数据集和 测试数据集;
S4, 构建TrellisNet和注意力机制神经网络预测模型, 将训练数据按照时间序列输入
到预测模型中进行训练, 并利用测试 数据集对预测模型进行测试修 正;
S5, 将待预测日的新闻情感指数数据和待预测日前一日的股票指数数据作为输入, 用
步骤S4中训练好的预测模型进行 预测, 得到待预测股票指数的涨跌情况。
2.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方
法,其特征在于, 所述步骤S1中, 获取的新闻数据特征包括: 新闻日期、 新闻标题和新闻主要
内容; 获取的交易数据特 征包括: 交易日期、 最低价、 最高价、 收盘价、 开盘价和交易 量。
3.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方
法,其特征在于, 所述 步骤S2中, 对获取的新闻数据进行情感分析, 具体过程如下:
S21, 使用word2vec将文本中每个词映射成词向量, 这些词向量组成了一个词向量矩阵
M∈Rd, 词向量矩阵的计算公式如下:
M={w1,w2,w3,…,wn}∈Rn*d
其中, wt表示文本的第t个词, wt∈Rd, t=1,2,3, …,n;
S22, 采用基于负采样的CBOW模型为基础训练词向量, 通过词wt的上下文content(wt)来
预测wt, 其中wt是一个正样本, 其余词为负样本; 利用输入上下文词向量的平均与输入层到
隐藏层权 重的积作为输入, 上 下文词向量的平均 作为输出; 输入层计算公式如下:
其中, X1,…,XC是一个用one ‑hot方式编码的单词向量, 其中只有一个Xi为1, 其余均为
0; C是上下文的单词个数; w1,…,wc是上下文中的单词; Vw是单词w的输入向量;
对应的损失函数计算公式如下:
其中, wo是实际观察词,
来自w'的第j列, 是隐含层到 输出层的权 重。
S23, 基于LSTM ‑CNN的情感分析模型包括文本词汇向量化、 特征提取和情感分类: 文本
词汇的向量化通过word2vec方法进行预处理; 特征提取部分, 利用LSTM的强大序列处理能
力对词向量进 行重新编码, 编码后的词向量拥有 更为丰富的上下文表达, 再利用CNN来进一
步提取局部语义特 征; 情感分类通过使用softmax分类 器得到不同新闻情感倾向的分类;
S24, 通过LSTM ‑CNN模型对选取的新 闻文本进行情感分析, 分别得到文本对应的正向情
感值P、 负向情感值 N和中性情感值M, 则得到每一条文本的正向情感指数V=P ‑N。权 利 要 求 书 1/3 页
2
CN 114819343 A
24.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方
法,其特征在于, 所述步骤S 3中, 对交易数据全部使用归一化操作,把取值范围限定在[ 0,1]
区间, 交易数据x 归一化处理的公式为:
其中, y为 转换后的交易数据, xmin为样本的最小值, xmax为样本的最大值。
5.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方
法,其特征在于, 所述步骤S4中, 将获取到的结构化的新闻情感指数和归一化后的股票交易
值进行融合, 形成的数据样 本分为训练样本和测试样本, 训练样本用于训练预测模型, 测试
样本用于检验预测模型;
使用LSTM作为TrellisNet的激活函数, 同时加入注意力机制; 当神经网络预测模型训
练至预设的Epoc h次数或损失函数小于预设值时, 预测模型停止训练;
构建Trel lisNet和注意力机制神经网络预测模型的实现过程如下:
输入经过前馈线性变换后和前一层t时刻的隐藏状态一 起传给非线性激活函数f:
其中, 输入经 过前馈线性变换的计算公式如下:
其中, t表示时刻, i表示网络层, W1、 W2分别表示权重, xt表示t时刻的序列 输入、 xt+1表示
t+1时刻的序列输入, z表示隐藏状态;
输入序列的线性变换:
将TrellisNet的每一层, 都视为对隐藏状态序列进行一维卷积运算, 然后将卷积输出
传给激活函数, 则Trel lisNet的网络层i的运 算为:
每个时间步长的计算公式如下:
ct=ft⊙ct‑1+it⊙si
ht=ot⊙tanh(ct)
其中, ct和ct‑1是LSTM在t时刻、 t ‑1时刻的传递状态; σ 表示Sigmoid函数; ft表示遗忘门,
ft∈[0,1]; it表示输入门, ot表示输出门; si是根据输入门添加的新的记忆单元, ht表示隐藏
节点在t时刻的输出; ⊙表示矩阵乘法;
将LSTM内核作为Trel lisNet的非线性激活函数的数 学实现:权 利 要 求 书 2/3 页
3
CN 114819343 A
3
专利 一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:48上传分享