潮虫生活在阴暗处,见不得光。有一天被晒在阳光下,它不会感激可以沐浴阳光,而是四处逃窜
04
16
经验回放原理 经验回放原理
时序差分学习(Temporal Difference Learning)强化学习中常用时序差分学习来更新模型,时序差分学习的一般流程是: 1.模型根据获取到的状态 st 决定采取动作 at 。 2.环境在执行动作 at 后会给出对应的奖励
2021-04-16
16
深层学习方法总结 深层学习方法总结
深层学习方法https://zhuanlan.zhihu.com/p/25913410 蒙特卡罗方法(英语:Monte Carlo method)也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统
2021-04-16
14
八股文 八股文
C++面试常见问题 1 C和C++的区别C程序的设计首要考虑的如何设计一个过程,对输入进行运算处理得到输出。而对于C++而言我们在c的基础上增加了类,这就是面向对象这一个思想,我们在设计程序的时候首先要考录如何构造一个对象模型,让这个对象契
2021-04-14
04
算法面试4-栈 算法面试4-栈
算法4栈和队列的使用 栈的基础使用例题20:Valid Parentheses给定一个字符串,只包含(,{,[,],},),判定字符串中的括号匹配是否合法如(}不合法 #include<stack> #include<st
2021-04-04
04
03
30
深层学习疑难知识点 深层学习疑难知识点
有关深层学习的疑难知识点self含义init 方法的第一个参数永远是 self ,表示创建的实例本身,因此,在 init 方法的内部,就可以把各种属性绑定到 self,因为 self 就指向创建的实例本身。使用了 init 方法,在创建实例
2021-03-30
26
DQN DQN
import numpy as np import matplotlib.pyplot as plt %matplotlib inline import gym from JSAnimation.IPython_display impo
2021-03-26
21
算法面试2-表格 算法面试2-表格
算法2 查找问题查找有无-元素”a”是否存在?set 集合查找对应关系(键值对应)-元素”a”出现了几次?map 字典 set和map通常语言的标准库都内置set和map-容器类-屏蔽实现细节-了解语言中标准库常见容器类的使用 常见操作-i
2021-03-21
15
算法面试1-数组 算法面试1-数组
算法 什么是大On表示数据规模O(f(n))表示运行算法所需要执行的指令数,和f(n)成正比二分查找法O(logn) 所需执行指令数:alogn寻找数组中的最大/最小值 所需执行指令数:bn归并排序算法O(nlogn)
2021-03-15
12
损失函数 损失函数
损失函数nn.CrossEntropyLoss()这个损失函数用于多分类问题虽然说的是交叉熵,但是和我理解的交叉熵不一样。nn.CrossEntropyLoss()是nn.logSoftmax()和nn.NLLLoss()的整合,可以直接使
2021-03-12
3 / 5