【基本无害】时间倒转《信条》与金融资产定价原理（微信文章未删减版）

《信条》（TENET）正在热映中。不同于克里斯托弗 · 诺兰此前的另外两部科幻大作《盗梦空间》（Inception）和《星际穿越》（Interstellar），TENET大量的情节让常人难以理解，该剧的宇宙观、哲学观极度的挑战着常人的认知。

那么，这部电影是不是真的是瞎扯呢？

它的整个“宇宙法则”是否是完全架空、无现实指导意义呢？

答案是，还真不是！

也就是说，这个电影，还真值得你不止“一刷”，值得你去把大脑好好烧一烧，

因为我们认为，它会帮助你理解金融资产定价问题，它会帮助你理解金融数学问题。

因为，时间逆转（或者说“倒向时间”）的概念，真的大量的出现在金融数学（尤其是资产定价）的知识当中啊！！！！

从未来的时间开始，然后逆时间而行进，这是《信条》给观众最大的视觉挑战，同时也挑战着观影者的世界观、哲学观，不少人看完之后彻底怀疑人生。

但是需要注意的是，我们面对的金融数学问题，尤其是资产定价问题，难道不是如此吗？

在金融资产定价领域，我们如果要求得初始时刻衍生品的价格，我们利用的是终点时间T的标的物的价格信息，然后从时间的终点开始了我们所有的“冒险”。

回忆一下，我们最熟悉的布莱斯-斯科尔斯-莫顿公式（BSM）,该公式又被称为欧式看涨期权定价公式。各位回忆一下，教科书里的论述，我们说这个公式是一个偏微分方程，但是却没有人告诉你，其实这个偏微分方程问题，不是常见的时间顺序问题，而是时间倒序（逆序）问题。

我们回忆一下BSM公式的偏微分问题描述，请各位一定注意，其中的TC表示termial condition（终值）条件，也就是说我们是利用T时刻的标的物信息S_T，从时间的结尾处（即时间的终点），逆时间轴而行，逆向的往回求任意时刻的欧式期权的价格C_t

这和常见的物理学中的偏微分方程的应用有极大的差别。物理学中的偏微分方程都是用来描述正常世界的物质运行规律的，自然，时间的流向也是一个方向，从前往后，而逆时间轴而行的问题，违反自然规律。

但是，偏偏有例外，这个例外就是我们金融资产定价的问题。

金融数学（尤其是资产定价）的问题，我们面临的都是倒向时间轴问题，如同电影《信条》中的带氧气罩的男主一样，逆时间轴而行，进行冒险！！！！！！

男主角逆时间而行在拯救世界，也在拯救他心爱的女人。

而我们，逆时间轴而行，在疯狂的数学世界推导里，找寻着衍生品在任意时刻的公允价格.......

我们的金融数学（衍生品定价问题），就是先看到了终点的标的物的价格（如同下图中我们看到了弹孔这个结果），然后才开始思考起点的衍生品价格是什么？

弹孔已经在这里了，弹孔是如何来的？子弹来自哪里？诺兰告诉我们：“不要试图理解，要去感受它”。当然，金融资产定价理论不是玄学，如果学习得当，我们绝对可以理解它！

让我们回忆一下，最常见的热传导方程是怎么定义和描述相关物理场景吧。

我们考虑的问题是：假设有一根无限（或者有限）长的铁棍（在下例中，我们考虑的是铁棍无限长），在0的位置，有一热源，在0时刻开始观测，热随时间的传导过程，也就是，物理学研究的问题都是认为时间是不断向前流逝的，我们从零时刻出发，去到未来某个时刻........

也就是说，在物理学中，我们利用偏微分方程解决的问题，一般而言，都是时间顺序问题（也就是正常的世界的时间线），但是，请一定注意，反复强调，这确并非金融数学（尤其是资产定价）的逻辑！！！

下图是热传导方程的时间-空间可视化结果图，注意，时间是正向（顺序）的！！！

也就是说，导演诺兰，说不定也许学过金融数学也不一定哦！否则，他怎么有时间逆转（倒向时间轴）的概念呢？，如果没有时间逆转的思想体系，怎么会有《信条》这部电影呢？

此外，还需要说一下，强化学习理论和最优控制问题，也是时间倒向问题，希望引起读者的注意。

不管是强化学习理论（reinforcement learning）还是最优控制问题（或者是动态规则、贝尔曼方程问题）都可以归纳为下图的形式。

我们仍然是从时间的终止处，往前（逆向时间方向）寻找最优的行动（actions），而最优的行动和状态变量之间的关系是由策略函数（policy function）所连接的，一旦找到最优策略，再从正向的时间轴从零开始出发一次，每个时刻你的行为都严格按照你所观测到的状态变量和策略函数执行，这也就是《信条》中，第二男主罗伯特·帕丁森（Robert Pattinson）反复说的“该发生的，一定会发生”（What's happened happened）。

策略函数往往有无数多条，就如同有无数多种可能，但是进有一条时间路线最优，最优的标准是根据我们构建的奖励函数（reward function）所决定的，最优的策略函数能保障我们在整个时间区间内，奖励函数的值最大化。

最优策略函数如同一个仪器，能保障我们在每个时刻只要获得状态变量的信息，即可根据最优策略函数的输出，即行动变量，然后去完成相应的动作行动即可。

好处是，我们无需再动脑子了，我们可以把我们后面的“人生”彻底的交给“最优策略函数”，只要听最优策略函数的指挥即可，但是这也引出了一个值得思考的哲学问题。具体见下面的讨论。

在这种最优策略的选择中，一旦我们找到了最优策略，身处于[0,T]时刻的“我们”而言，便再也不是未来时间的主人，我们反而是未来时间牵线的木偶！

在这种“时间逆向”的策略下，当下的我们，其实不再是自己命运的主人，我们甚至不需要自我意识，只要严格遵循最优策略函数的指引，按部就班的完成相应的动作，就一定可以达到我们最终预期的目的（或者直接认为这就是未来已经发生的、必须发生的事情）。也就是说，在这种情况下，我们其实完全是未来时间的牵线木偶而已。这就是为何罗伯特·帕丁森所说：“该发生的，一定会发生“。为了达到我们最终的目的，我们放弃的就是当下每一刻的自由意识，对命运的自主的权力，当然换来的将是最终目的的实现。天下当真没有免费的午餐，也许”没有免费的午餐“才是宇宙最终极奥义！

（完）