加载中...

DQN学习

发表于2025-04-29|更新于2026-01-21|AI算法DQN

|总字数:78|阅读时长:1分钟|浏览量:|评论数:

DQN学习

Q表更新公式

$Q(state,action)=R(state,action)+\gamma*Max[Q(next_state,all_actions)]$

其中Replay Memory D是历史记录队列，是针对每次决策后的的状态值和当前值的一个记录

文章作者: 长白崎

文章链接: http://blogs.changbaiqi.top/2025/04/29/learnnote/ren-gong-zhi-neng/dqn-xue-xi/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源长白崎の个人博客！

赞助

wechat
alipay

相关推荐

什么是Vibe Coding

什么是VibeCoding 📘 什么是 Vibe Coding？ 👉 Vibe Coding （中文常译为 “氛围编码” 或 “沉浸式 AI 编程”）是：用自然语言来驱动 AI 生成完整软件，而不是自己逐行写代码的编程方式。 📌 它的核心不是你敲多少代码，而是怎么和 AI 对话，让 AI 按计划帮你生成代码。 🧠 图解：Vibe Coding 与传统编程的区别传统编程 Vibe Coding 人写代码人说需求 → AI 写代码关注语法关注目标与功能人自己实现逻辑 AI 自动实现逻辑练习语言细节练习想法表达 🧠 Vibecoding 的核心理念 Vibe Coding 并不只是让 AI 写代码，它是一套完整的 AI + 人协作开发流程： 1️⃣ 先让 AI 写文档（规划） 2️⃣ 再确认技术栈与执行计划 3️⃣ 按计划逐步让 AI 写代码也就是说，不再是 “抛需求 → AI 乱写 → 你修复”，而是： 📌 抛需求 → AI 生成项目设计文档 → 确认方案 → AI 按计划写代码 →...

常见激活函数

常见激活函数 > sigmoid: $$\sigma (x) = {1 \over 1+ e^{-x}}$$ > $$Softmax(z_i) = {e^{z_j} \over {\sum_{j}e^{z_j}} }$$ > tanh: $$tanh(x)={sinh x \over cosh x} = {{e^x-e^{-x}} \over {e^x + e^{-x}}}$$ > > ![image-20250312185116260](./常见激活函数/images/image-20250312185116260.png) > ReLu: $$max(0,x)$$ > > ![image-20250312183640674](./常见激活函数/images/image-20250312183640674.png) > Leaky ReLu: $$max(0.1x,x)$$ > Maxout: $$max(w^T_1 x + b1, w^T _2 x +...

BFS算法模板

BFS 介绍： BFS中文叫做广度优先搜索，BFS算是暴力搜索的其中一种算法，这个算法主要还是可以解决一些最小路径的问题，以及搜索问题，比如迷宫问题等等，其主要思想就是通过穷举所有可能走的路并找到答案或者试出最优答案，不过他相对于DFS说其有点就在于广撒网，时间复杂度要比DFS低。 Java代码模板： 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778/** * @description: TODO * @author 长白崎 * @date 2023/3/25 17:42 * @version 1.0 */import java.util.LinkedList;import java.util.Queue;/** * BFS算法模板，BFS算法的模板写法主要分为这几步骤： *...

BinarySearch 说明： BinarySearch中文又叫做二分查找，这是一种查找类的算法，但是其使用是有一定的限制的，那就是必须要区间类必须要满足相应的单调性，不然的话是无法使用的。 Java代码模板：整形二分（左闭右闭）： 123456789101112131415161718192021//这是一个Java整数二分模板public static void binarySearch(){ //l为二分的左值，r为二分的右值，mid为二分的中间值 int l=0,r=100,mid; //这里的l<=r为二分的结束条件 while(l<=r){ //计算二分的mid mid = (l+r)>>1; //这里的check函数主要的作用就是通过已知的必要条件传入check进行综合分析然后判断应该之后的二分是右移还是左移 if(check(Object c)) l = mid+1; //这里是右移 else r...

DFS算法模板

DFS 介绍： DFS中文叫做深度优先搜索，DFS算是暴力搜索的其中一种算法，这个算法主要还是可以解决一些最小路径的问题，以及搜索问题，比如迷宫问题等等，其主要思想就是通过穷举所有可能走的路并找到答案或者试出最优答案。 Java代码模板： 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657/** * @description: TODO * @author 长白崎 * @date 2023/3/25 16:34 * @version 1.0 *//** * DFS算法模板，DFS算法的模板写法主要分为这几步骤： * 1、判断是否到达要求条件 * 2、穷举所有可能走的方向 * 3、通过第2步穷举的方向然后去走，当然走之前还要过滤那些不合格的方向，比如这这个方向的下一步走过了，不能再走了，或者这个方向的下一步有墙也不能走等， * 实际的拦截条件根据题目要求添加。 */public class Main { ...

Java大数字运算使用技巧

Java大数字运算使用技巧说明： Java大数字使用技巧,这里只演示BigInteger了，BigDecimal高精度大数字就不演示了(用法基本一样)。 Java代码模板 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101import java.math.BigInteger;public class BigNumber { public static void main(String[] args) { } /** * 进制转换 */ public void testScale() { ...

评论

数据加载中

昼夜切换阅读模式