An Automatic Pencil Blog

Thinking will not overcome fear but action will.

强化学习(二)

最优值函数和最优值函数贝尔曼方程

最优策略由上一节我们已经知道，在确定环境后，一个给定的策略$\pi$确定值函数$v$和$q$，所以我们将贝尔曼方程表示为记$\Pi$为所有策略的集合，下面先定义$\Pi$和$v$值函数上的偏序。 $\pi \geq \pi^{‘}$当且仅当对$\forall s \in S$,有$v_{\pi}(s) \ge v_{\pi^{‘}}(s)$ 同理$\Pi$和$q$值函数上的偏序...

Posted by An automatic pencil on December 5, 2018

HackerRank Problem minm-loss

STL set和binary search的使用

题目看题目戳我题解思路考虑在第$i$天卖出，只需要找到前面不小于该房价最小的那个。初次想法是用堆，但是这是不太可行的。因为维护这个堆花的时间不确定。若想保证$log$级别的查询和维护，平衡树是很棒的呀。这时候就要用到C++ STL set，它是基于红黑树实现的，自动排序。排好序用二分查找简直不要太舒服。代码 #include <bits/stdc++.h> ...

Posted by An automatic pencil on December 5, 2018

强化学习（一）

初识强化学习及概念理解

初步了解强化学习初识强化学习的人一般都会见到下面这张图：强化学习的基本设想是一个智能体(agent)与环境(environment)交互，当智能体采取一个动作(action)后，环境的状态(state)会发生一个改变，并且会对智能体反馈一个奖励(reward)来评价这个动作。举个例子：相信这款类似的游戏大家都玩过，智能体就是小鸟...

Posted by An automatic pencil on December 5, 2018

HackerRank Problem Ants

题目看题目戳我注意事项蚂蚁初始位置都是整数最终统计的是每个蚂蚁的次数，不是相遇次数每个蚂蚁初始位置不同题解思路到手这个题目，一头雾水。但是仔细一看，每个蚂蚁除了初始位置不同，剩余所有的东西都是相同的。而这个题目最烦的地方就是两个蚂蚁相遇后互相掉头，其实这个和两个蚂蚁不掉头穿过对方是相同的。因为这个操作就相当于换了一下两个蚂蚁的名字，而这个对于最终结果...

Posted by An automatic pencil on December 3, 2018

初识计算机网络

整体理解互联网

导言前两天看到一篇讲的不错的计算机网络文章，今天打算自己整理下来加深印象！互联网的整体架构每个学过计网的人一开始都会接触到一张计算机网络的分层图。对于一个小白来讲,上来就看这张图根本不知道在讲什么意思，所以我们应该先摒弃这张图凭借直觉揣测互联网。一个很自然的想法当然是电脑之间要想通信就是先用物理方式连接。单纯的连接肯定是不行的，会有很多问题。传输速率和可靠性的问题。计...

Posted by An automatic pencil on November 28, 2018

FEATURED TAGS

HackerRank ReinforcementLearning ML

ABOUT ME

One small step forward everyday!

✉️ dada10106711@gmail.com