王木头学科学

01:45:12

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

41:03

一个天文摄影的极简入门

38:11

哥德尔不完备视角下的自然数为什么如此特殊？这个问题隐藏着数学和世界真实性的线索

02:08:00

真随机存在吗？量子力学如何超越概率论？经典概率和量子概率的联系与区别

53:57

2. 如何用概率论解决真实问题？用随机变量去建模，最大的难题是相关关系

55:54

1. 从头开始，把概率、统计、信息论中零散的知识统一起来

29:47

7. 程序员的性格为什么那么轴，那都是有原因的

38:27

卷积神经网络的底层是傅里叶变换，傅里叶变换的底层是希尔伯特空间坐标变换

43:18

学习分享一年，对神经网络的理解全都在这40分钟里了

47:32

6. 软件工程背后的思想是如何影响编程的

23:54

教科书为什么反人性？我们还可以如何学？

47:48

5. 深度学习和元胞自动机有什么关系？会给编程带来什么样的颠覆性改变？

37:09

4. 用“λ演算法”去理解，为什么函数式编程会有更少的bug

22:20

3. 编程是如何用数学解决现实问题的？

18:48

2. 为什么所有编程语言都是数据+指令？

06:15

1. 非计算机专业学编程难在哪？

47:23

直观解释：为什么噪声不是过拟合的原因?又什么只要没有过拟合就一定有噪声?

26:18

分享自己考研成功上岸的独门绝技，也是自己度过各种人生危机的心法

01:13:30

VC维是如何推导出来的？为什么说它是机器学习理论最重要的发明？

30:14

如果大数定律失效，机器学习还能学吗？幂律分布可以告诉你答案

30:28

用VC维度理解SVM的结构风险最小化 & VC维是理解正则化的第4个角度

36:38

什么是SVM，如何理解软间隔？什么是合叶损失函数、铰链损失函数？SVM与感知机横向对比，挖掘机器学习本质

35:55

贝叶斯解释“L1和L2正则化”，本质上是最大后验估计。如何深入理解贝叶斯公式？

35:03

“L1和L2正则化”直观理解(之二)，为什么又叫权重衰减？到底哪里衰减了？

28:00

“L1和L2正则化”直观理解(之一)，从拉格朗日乘数法角度进行理解

49:00

“拉格朗日对偶问题”如何直观理解？“KKT条件” “Slater条件” “凸优化”打包理解

26:56

从无穷小来看，芝诺悖论错哪了？1=0.999...吗？ε-δ描述极限到底严谨在哪？微分就是无穷小吗？

34:28

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”，打包理解对梯度下降法的优化

59:47

softmax是为了解决归一问题凑出来的吗？和最大熵是什么关系？最大熵对机器学习为什么非常重要？

49:48

如何理解“梯度下降法”？什么是“反向传播”？通过一个视频，一步一步全部搞明白

30:17

“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

22:07

“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”

25:50

“神经网络”是什么？如何直观理解它的能力极限？它是如何无限逼近真理的？

25:48

什么是“感知机”，它的缺陷为什么让“神经网络”陷入低潮

26:58

从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变