打字猴:1.70053893e+09
1700538930
1700538931
1700538932 此外,在一些对计算能力有限制的设备,诸如可穿戴设备中,由于Sigmoid函数求指数需要一定的计算量,此时会使用0/1门(hard gate)让门控输出为0或1的离散值,即当输入小于阈值时,门控输出为0;当输入大于阈值时,输出为1。从而在性能下降不显著的情况下,减小计算量。经典的LSTM在计算各门控时,通常使用输入xt和隐层输出ht−1参与门控计算,例如对于输入门的更新:。其最常见的变种是加入了窥孔机制[27],让记忆ct−1也参与到了门控的计算中,此时输入门的更新方式变为
1700538933
1700538934
1700538935
1700538936
1700538937 (10.19)
1700538938
1700538939 总而言之,LSTM经历了20年的发展,其核心思想一脉相承,但各个组件都发生了很多演化。了解其发展历程和常见变种,可以让我们在实际工作和研究中,结合问题选择最佳的LSTM模块,灵活地思考,并知其所以然,而不是死背各种网络的结构和公式。
1700538940
1700538941
1700538942
1700538943
1700538944 百面机器学习:算法工程师带你去面试 [:1700532231]
1700538945 百面机器学习:算法工程师带你去面试 05 Seq2Seq模型
1700538946
1700538947
1700538948
1700538949 场景描述
1700538950
1700538951 Seq2Seq,全称Sequence to Sequence模型,目前还没有一个很好的中文翻译,我们暂且称之为序列到序列模型。大致意思是将一个序列信号,通过编码和解码生成一个新的序列信号,通常用于机器翻译、语音识别、自动对话等任务。在Seq2Seq模型提出之前,深度神经网络在图像分类等问题上取得了非常好的效果。在深度学习擅长的问题中,输入和输出通常都可以表示为固定长度的向量,如果长度稍有变化,会使用补零等操作。然而像前面提到的几个问题,其序列长度事先并不知道。因此如何突破先前深度神经网络的局限,使其适应于更多的场景,成了2013年以来的研究热点,Seq2Seq模型也应运而生。
1700538952
1700538953 知识点
1700538954
1700538955 Seq2Seq,机器翻译,集束搜索(Beam Search)
1700538956
1700538957 问题1 什么是Seq2Seq模型?Seq2Seq模型有哪些优点?
1700538958
1700538959 难度:★★☆☆☆
1700538960
1700538961 分析与解答
1700538962
1700538963 Seq2Seq模型的核心思想是,通过深度神经网络将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入与解码输出两个环节构成。在经典的实现中,编码器和解码器各由一个循环神经网络构成,既可以选择传统循环神经网络结构,也可以使用长短期记忆模型、门控循环单元等。在Seq2Seq模型中,两个循环神经网络是共同训练的。
1700538964
1700538965 假想一个复习和考试的场景,如图10.3所示。我们将学到的历史信息经过了一系列加工整理,形成了所谓的知识体系,这便是编码过程。然后在考试的时候,将高度抽象的知识应用到系列问题中进行求解,这便是解码过程。譬如对于学霸,他们的网络很强大,可以对很长的信息进行抽象理解,加工内化成编码向量,再在考试的时候从容应答一系列问题。而对于大多数普通人,很难记忆长距离、长时间的信息。在考前只好临时抱佛脚,编码很短期的序列信号,考试时也是听天由命,能答多少写多少,解码出很短时效的信息。
1700538966
1700538967
1700538968
1700538969
1700538970 图10.3 循环神经网络编解码结构图
1700538971
1700538972 对应于机器翻译过程,如图10.4所示。输入的序列是一个源语言的句子,有三个单词A、B、C,编码器依次读入A、B、C和结尾符。 在解码的第一步,解码器读入编码器的最终状态,生成第一个目标语言的词W;第二步读入第一步的输出W,生成第二个词X;如此循环,直至输出结尾符。输出的序列W、X、Y、Z就是翻译后目标语言的句子。
1700538973
1700538974 在文本摘要任务中,输入的序列是长句子或段落,输出的序列是摘要短句。在图像描述文本生成任务中,输入是图像经过视觉网络的特征,输出的序列是图像的描述短句。进行语音识别时,输入的序列是音频信号,输出的序列是识别出的文本。不同场景中,编码器和解码器有不同的设计,但对应Seq2Seq的底层结构却如出一辙。
1700538975
1700538976
1700538977
1700538978
1700538979 图10.4 机器翻译模型结构示意图
[ 上一页 ]  [ :1.70053893e+09 ]  [ 下一页 ]