说明(Announcement)

说明(Annoumcement)

该博客已经迁移到这里
This blog has been shifted to here

阅读全文

NAF:将DQN用于连续任务

面对动作连续的任务,传统的DQN方法因为在计算Qmax值的时候存在困难使得其只能应用于离散动作的任务上面,本论文提出了使用V代替Qmax值使得DQN成功应用于连续的任务上的方法,该方法在部分MUJOCO任务上表现优于DDPG。

阅读全文

CTeX安装和卸载

最近在学习和使用Latex,我选择的是使用CTeX,毕竟对中文的支持比较好。但是第一步安装CTeX就遇到了不少坑。因为CTeX是一个工具集合,里面的工具软件的版本可能不是最新,会出现各种问题,所以自己感觉还是很有必要记录一下自己的避坑路程。

阅读全文

tmux介绍和使用

本文章是自己对tmux简单使用的一个总结,注意这里只是简单使用,没有关于tmux配置的高级使用方法,因为现在自己用不着高级技能,仅仅使用tmux使得在服务器上面跑一些实验时可以随时查看结果。

阅读全文

python面向对象编程

面向对象编程是编程思维的一大跳跃,面向对象编程能够使得代码的结构更加清晰,更加易于阅读。 python当今流行的编程语言,当然不会少了面向对象的特性,本文是对python面向对象编程的一个梳理,假设了读者知道什么是面向对象编程,如果不知道可以百度相关知识.

阅读全文

ssh隧道代理

本次要记录的技巧,是使用ssh作为代理来转发我们的上网流量,这个很有用,因为有时候局域网里面的A连接了互联网,但是B没有连接互联网,A和B是互通的,我们能不能让B通过A上网呢?本次我们就讲讲使用ssh来转发我们的流量。

阅读全文

python基础语法扫盲(python2.0+)

本文章是自己对python基础语法的一些整理,方便自己以后的快速查阅和大家的快速入门,遵循基础、简洁、快速上手的原则进行整理,希望对大家的学习有帮助。

阅读全文

Collaborative Evolutionary Reinforcement Learning

本文章是对ICML2019论文《Collaborative Evolutionary Reinforcement Learning》的阅读笔记,该论文主要讲解了使用ES进化策略来生成样本对模型进行训练的新思路,其实也就是对off-policy的创新改进,然后作者还使用了多个Learners同时学习来避免参数选择的困难。

阅读全文

PPO算法

本文章是自己对PPO算法相关论文研读的一个整理和总结。PPO算法是对TRPO算法的一种改进和提升算法,提出了两种目标函数,其中的clipping方法效果卓越。

阅读全文

Sample Efficient Actor-Critic With Experience Replay

本文是对ACER算法学习研究笔记的一个整理,主要是自己对ACER算法论文的研读和思考。

阅读全文