确定性策略梯度公式推导

发表于 2018-02-10

确定性策略梯度公式推导 David Silver 在文章 Deterministic Policy Gradient Algorithms 中提出了著名的确定性策略梯度公式 \[ \nabla_{\theta}J(\mu_\theta)=\int_{\mathcal{S}}\rho^{\mu}( ...

阅读全文 »

DQN注意事项

发表于 2018-01-04

DQN注意事项本文的内容主要来自论文 Implementing the Deep Q-Network(arxiv:1711.10748)。 DQN比较难训练，为了得到较好的实验结果，可能需要用到许多技巧。这篇文章复现了Mnih et al. 的实验，并总结了需要注意的关键细节。 Q-Lear ...

阅读全文 »

强化学习中的策略优化方法3 - DPG&DDPG

发表于 2017-10-31

强化学习中的策略优化方法3 - DPG&DDPG Deterministic Policy Gradient Algorithms(DPG) 首先回顾一下随机策略梯度。在这里我们把策略\(\pi\)下的累积奖赏记为\(J(\pi)=\mathbb{E}[r^\gamma_1|\pi] ...

阅读全文 »

CNN Receptive Field Calculator -- CNN感受野计算器

发表于 2017-10-28

CNN感受野计算器一个自己写的js脚本，给定输入图片的某个维度大小，以及各个层的kernel_size, stride 和 padding，计算各个层输出的大小、感受野大小和stride。

阅读全文 »

强化学习中的策略优化方法1

发表于 2017-09-09

强化学习中的策略梯度 Notation 先约定一些记号。用\((\mathcal{S},\mathcal{A},P)\)表示Markov Decision Process。其中\(\mathcal{S}\)是状态空间，包含了所有环境的状态；\(\mathcal{A}\)是动作空间，包含了所有可以 ...

阅读全文 »

聚类算法——Clustering by Fast Search and Find of Density Peaks

发表于 2017-09-02

聚类算法——Clustering by fast search and find of density peaks 这是14年发表在Science上的一篇文章，论文中提出了一种基于密度的聚类算法，这种算法不需要指定类别的个数。聚类中心基于数据的局域密度峰给出，并且聚类中心一旦确定后就不会再迭代。 ...

阅读全文 »

SqueezeNet与模型压缩

发表于 2017-09-01

SqueezeNet与模型压缩基础模块是fire，由（\(s_1\)个1x1卷积）接上（ \(e_1\)个1x1卷积+\(e_3\)个3x3卷积）。第一层是卷积层，输出Channel=96，之后接fire模块。在1、4、8层插入max pooling以减小图像尺寸。最后接个输出chann ...

阅读全文 »

Attention 中的Query, Keys, Values

发表于 2017-09-01

Attention 中的query, keys, values 计算attention的过程可以看成在(key,value) pairs中查询query：在Seq2Seq模型中，query是decoder当前的状态，所有的key是encoder每一步的hidden state。计算align ...

阅读全文 »

L1的稀疏性与L2

发表于 2017-09-01

L1的稀疏性与L2 问题：我们知道在线性回归模型中，可以使用L1正则项产生稀疏模型。那么如果使用L2正则项，可不可以通过令系数较小的参数为零来获得稀疏性？回答：特征都正交的情况下是可以的，否则一般情况下这么做可能会出问题。原因符号约定先规定一下符号。假设目标变量\(t\)是由关于\ ...

阅读全文 »

理解CTC

发表于 2017-08-26

CTC Connectionist temporal classification, 直译为连接主义时序分类，简称CTC。用于端到端的语音识别中。设一段音频有T帧，而对应的音素一般来说只有U个(\(T\ge U\))，CTC要解决的问题就是从\(T\)帧的预测概率映射到长度\(U\)的音素，而这里 ...

阅读全文 »