专利一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210441352.5 (22)申请日 2022.04.25 (71)申请人南京信息工程大学地址 224002 江苏省盐城市盐南高新区新河街道文港南路10 5号 (72)发明人刘文杰　葛业波　顾雨晨　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师王慧 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 40/04(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法 (57)摘要本发明公开了一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,包括步骤如下：获取相关股票指数的历史新闻数据和交易数据；将非结构化新闻数据转换为结构化的情感指数数据；将结构化的新闻情感指数数据与股票指数交易数据按照交易日期进行数据融合，并进行归一化处理，构造数据集；构建TrellisNet和注意力机制神经网络预测模型，并利用测试数据集对预测模型进行测试修正；将待预测日的新闻情感指数数据和待预测日前一日的股票指数数据作为输入，用训练好的预测模型进行预测，得到待预测股票指数的涨跌情况。本发明通过对相关指数新闻的情感进行量化分析，能提高股票指数的预测准确度，预测股票指数的未来趋势。权利要求书3页说明书8页附图3页 CN 114819343 A 2022.07.29 CN 114819343 A 1.一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于，包括步骤如下： S1，获取相关股票指数的历史新闻数据和交易数据； S2，通过LSTM ‑CNN文本情感分析模型，将非结构化新闻数据转换为结构化的情感指数数据； S3，将获取的结构化的情感指数数据与股票指数交易数据按照交易日期进行相对应的数据融合，并进行归一化处理，构造数据集，并将数据集分为训练数据集和测试数据集； S4，构建TrellisNet和注意力机制神经网络预测模型，将训练数据按照时间序列输入到预测模型中进行训练，并利用测试数据集对预测模型进行测试修正； S5，将待预测日的新闻情感指数数据和待预测日前一日的股票指数数据作为输入，用步骤S4中训练好的预测模型进行预测，得到待预测股票指数的涨跌情况。 2.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于，所述步骤S1中，获取的新闻数据特征包括：新闻日期、新闻标题和新闻主要内容；获取的交易数据特征包括：交易日期、最低价、最高价、收盘价、开盘价和交易量。 3.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于，所述步骤S2中，对获取的新闻数据进行情感分析，具体过程如下： S21，使用word2vec将文本中每个词映射成词向量，这些词向量组成了一个词向量矩阵 M∈Rd，词向量矩阵的计算公式如下： M＝{w1,w2,w3,…,wn}∈Rn*d 其中， wt表示文本的第t个词， wt∈Rd， t＝1,2,3, …,n； S22，采用基于负采样的CBOW模型为基础训练词向量，通过词wt的上下文content(wt)来预测wt，其中wt是一个正样本，其余词为负样本；利用输入上下文词向量的平均与输入层到隐藏层权重的积作为输入，上下文词向量的平均作为输出；输入层计算公式如下：其中， X1,…,XC是一个用one ‑hot方式编码的单词向量，其中只有一个Xi为1，其余均为 0； C是上下文的单词个数； w1,…,wc是上下文中的单词； Vw是单词w的输入向量；对应的损失函数计算公式如下: 其中， wo是实际观察词，来自w'的第j列，是隐含层到输出层的权重。 S23，基于LSTM ‑CNN的情感分析模型包括文本词汇向量化、特征提取和情感分类：文本词汇的向量化通过word2vec方法进行预处理；特征提取部分，利用LSTM的强大序列处理能力对词向量进行重新编码，编码后的词向量拥有更为丰富的上下文表达，再利用CNN来进一步提取局部语义特征；情感分类通过使用softmax分类器得到不同新闻情感倾向的分类； S24，通过LSTM ‑CNN模型对选取的新闻文本进行情感分析，分别得到文本对应的正向情感值P、负向情感值 N和中性情感值M，则得到每一条文本的正向情感指数V＝P ‑N。权　利　要　求　书 1/3 页 2 CN 114819343 A 24.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于，所述步骤S 3中，对交易数据全部使用归一化操作,把取值范围限定在[ 0,1] 区间，交易数据x 归一化处理的公式为：其中， y为转换后的交易数据， xmin为样本的最小值， xmax为样本的最大值。 5.根据权利要求1所述的基于TrellisNet和注意力机制的新闻驱动股票指数预测方法,其特征在于，所述步骤S4中，将获取到的结构化的新闻情感指数和归一化后的股票交易值进行融合，形成的数据样本分为训练样本和测试样本，训练样本用于训练预测模型，测试样本用于检验预测模型；使用LSTM作为TrellisNet的激活函数，同时加入注意力机制；当神经网络预测模型训练至预设的Epoc h次数或损失函数小于预设值时，预测模型停止训练；构建Trel lisNet和注意力机制神经网络预测模型的实现过程如下：输入经过前馈线性变换后和前一层t时刻的隐藏状态一起传给非线性激活函数f：其中，输入经过前馈线性变换的计算公式如下：其中， t表示时刻， i表示网络层， W1、 W2分别表示权重， xt表示t时刻的序列输入、 xt+1表示 t+1时刻的序列输入， z表示隐藏状态；输入序列的线性变换：将TrellisNet的每一层，都视为对隐藏状态序列进行一维卷积运算，然后将卷积输出传给激活函数，则Trel lisNet的网络层i的运算为：每个时间步长的计算公式如下： ct＝ft⊙ct‑1+it⊙si ht＝ot⊙tanh(ct) 其中， ct和ct‑1是LSTM在t时刻、 t ‑1时刻的传递状态； σ 表示Sigmoid函数； ft表示遗忘门， ft∈[0,1]； it表示输入门， ot表示输出门； si是根据输入门添加的新的记忆单元， ht表示隐藏节点在t时刻的输出； ⊙表示矩阵乘法；将LSTM内核作为Trel lisNet的非线性激活函数的数学实现：权　利　要　求　书 2/3 页 3 CN 114819343 A 3

专利 一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法

专利一种基于TrellisNet和注意力机制的新闻驱动股票指数预测方法