An Automatic Pencil Blog

Thinking will not overcome fear but action will.

强化学习(二)

最优值函数和最优值函数贝尔曼方程

最优策略 由上一节我们已经知道,在确定环境后,一个给定的策略$\pi$确定值函数$v$和$q$,所以我们将贝尔曼方程表示为 记$\Pi$为所有策略的集合,下面先定义$\Pi$和$v$值函数上的偏序。 $\pi \geq \pi^{‘}$当且仅当对$\forall s \in S$,有$v_{\pi}(s) \ge v_{\pi^{‘}}(s)$ 同理$\Pi$和$q$值函数上的偏序...

HackerRank Problem minm-loss

STL set和binary search的使用

题目 看题目戳我 题解思路 考虑在第$i$天卖出,只需要找到前面不小于该房价最小的那个。初次想法是用堆,但是这是不太可行的。因为维护这个堆花的时间不确定。若想保证$log$级别的查询和维护,平衡树是很棒的呀。这时候就要用到C++ STL set,它是基于红黑树实现的,自动排序。排好序用二分查找简直不要太舒服。 代码 #include <bits/stdc++.h> ...

强化学习(一)

初识强化学习及概念理解

初步了解强化学习 初识强化学习的人一般都会见到下面这张图: 强化学习的基本设想是一个智能体(agent)与环境(environment)交互,当智能体采取一个动作(action)后,环境的状态(state)会发生一个改变,并且会对智能体反馈一个奖励(reward)来评价这个动作。 举个例子: 相信这款类似的游戏大家都玩过,智能体就是小鸟...

HackerRank Problem Ants

题目 看题目戳我 注意事项 蚂蚁初始位置都是整数 最终统计的是每个蚂蚁的次数, 不是相遇次数 每个蚂蚁初始位置不同 题解思路 到手这个题目,一头雾水。但是仔细一看,每个蚂蚁除了初始位置不同,剩余所有的东西都是相同的。而这个题目最烦的地方就是两个蚂蚁相遇后互相掉头,其实这个和两个蚂蚁不掉头穿过对方是相同的。因为这个操作就相当于换了一下两个蚂蚁的名字,而这个对于最终结果...

初识计算机网络

整体理解互联网

导言   前两天看到一篇讲的不错的计算机网络文章,今天打算自己整理下来加深印象! 互联网的整体架构   每个学过计网的人一开始都会接触到一张计算机网络的分层图。对于一个小白来讲,上来就看这张图根本不知道在讲什么意思,所以我们应该先摒弃这张图凭借直觉揣测互联网。一个很自然的想法当然是电脑之间要想通信就是先用物理方式连接。单纯的连接肯定是不行的,会有很多问题。 传输速率和可靠性的问题。计...