Manifold

where strings viberate


  • 首页

  • 归档

  • 标签

确定性策略梯度公式推导

发表于 2018-02-10
确定性策略梯度公式推导 David Silver 在文章 Deterministic Policy Gradient Algorithms 中提出了著名的确定性策略梯度公式 \[ \nabla_{\theta}J(\mu_\theta)=\int_{\mathcal{S}}\rho^{\mu}( ...
阅读全文 »

DQN注意事项

发表于 2018-01-04
DQN注意事项 本文的内容主要来自论文 Implementing the Deep Q-Network(arxiv:1711.10748)。 DQN比较难训练,为了得到较好的实验结果,可能需要用到许多技巧。这篇文章复现了Mnih et al. 的实验,并总结了需要注意的关键细节。 Q-Lear ...
阅读全文 »

强化学习中的策略优化方法3 - DPG&DDPG

发表于 2017-10-31
强化学习中的策略优化方法3 - DPG&DDPG Deterministic Policy Gradient Algorithms(DPG) 首先回顾一下随机策略梯度。 在这里我们把策略\(\pi\)下的累积奖赏记为\(J(\pi)=\mathbb{E}[r^\gamma_1|\pi] ...
阅读全文 »

CNN Receptive Field Calculator -- CNN感受野计算器

发表于 2017-10-28
CNN感受野计算器 一个自己写的js脚本,给定输入图片的某个维度大小,以及各个层的kernel_size, stride 和 padding,计算各个层输出的大小、感受野大小和stride。
阅读全文 »

强化学习中的策略优化方法1

发表于 2017-09-09
强化学习中的策略梯度 Notation 先约定一些记号。用\((\mathcal{S},\mathcal{A},P)\)表示Markov Decision Process。其中\(\mathcal{S}\)是状态空间,包含了所有环境的状态;\(\mathcal{A}\)是动作空间,包含了所有可以 ...
阅读全文 »

聚类算法——Clustering by Fast Search and Find of Density Peaks

发表于 2017-09-02
聚类算法——Clustering by fast search and find of density peaks 这是14年发表在Science上的一篇文章,论文中提出了一种基于密度的聚类算法,这种算法不需要指定类别的个数。聚类中心基于数据的局域密度峰给出,并且聚类中心一旦确定后就不会再迭代。 ...
阅读全文 »

SqueezeNet与模型压缩

发表于 2017-09-01
SqueezeNet与模型压缩 基础模块是fire,由(\(s_1\)个1x1卷积)接上( \(e_1\)个1x1卷积+\(e_3\)个3x3卷积)。 第一层是卷积层,输出Channel=96,之后接fire模块。在1、4、8层插入max pooling以减小图像尺寸。 最后接个输出chann ...
阅读全文 »

Attention 中的Query, Keys, Values

发表于 2017-09-01
Attention 中的query, keys, values 计算attention的过程可以看成在(key,value) pairs中查询query: 在Seq2Seq模型中,query是decoder当前的状态,所有的key是encoder每一步的hidden state。计算align ...
阅读全文 »

L1的稀疏性与L2

发表于 2017-09-01
L1的稀疏性与L2 问题:我们知道在线性回归模型中,可以使用L1正则项产生稀疏模型。那么如果使用L2正则项,可不可以通过令系数较小的参数为零来获得稀疏性? 回答:特征都正交的情况下是可以的,否则一般情况下这么做可能会出问题。 原因 符号约定 先规定一下符号。假设目标变量\(t\)是由关于\ ...
阅读全文 »

理解CTC

发表于 2017-08-26
CTC Connectionist temporal classification, 直译为连接主义时序分类,简称CTC。用于端到端的语音识别中。设一段音频有T帧,而对应的音素一般来说只有U个(\(T\ge U\)),CTC要解决的问题就是从\(T\)帧的预测概率映射到长度\(U\)的音素,而这里 ...
阅读全文 »
12
airaria

airaria

17 日志
9 标签
知乎 github
© 2018 airaria
由 Hexo 强力驱动
主题 - NexT.Mist