《信号与噪声》初读

《信号与噪声》[1]是关于预测学而不是信号处理的。当前“大数据”概念异常火爆,但是数据中反映出来的,既有信号,也有噪声。这里,信号一词指的是客观真相,而噪声指的是掩盖客观真相的信息。信息爆炸的年代,人类处理数据的能力与数据增长的速度并不匹配,海量的数据所表现出的往往是噪声,而真实的信号则被淹没了。而基于统计学做出的预测,也往往将噪声误作信号,或将统计上的相关性误作因果关系。

好的预测有两个前提,一是相信客观真理的存在,二是认识到任何预测者永远无法穷尽对客观真理的认知。还必须要承认,所有数据处理过程中都存在主观因素,这因素存在于数据相关的所有过程,包括数据收集、数据筛选、模型建立、数据拟合等。计算机的使用是有局限的,并不会有助于增强预测的客观性。

作者认为,2007 年的美国金融危机,应视为决策失败和预测严重失准的结果。信用评级机构(如标准普尔公司)对担保债务凭证违约率作出远远小于实际情况的评级,对潜在的违约风险视而不见,尽管他们事先已经掌握了更多的有效信息。更广泛的意义上讲,评级公司的问题在于,它们无法区分风险和不确定性的不同。“风险”一词指的是可以度量和定价的概率,不确定性则是难以度量的风险。风险是自由市场发展的助力,不确定性则是阻力。

2007 年金融危机的预测是失败的。人们没有意识到走高的房价中蕴含着泡沫破裂的可能性。评级公司盲目乐观,对房价暴跌的风险估计不足。人们也没有预料到房地产泡沫引发的是一场波及全球的金融危机。失败的预测是“非样本事件”,金融危机没有更多的事先例证,而这一事实带来的不确定性被忽视了。

借用以赛亚·伯林的文章对作家和思想家的分类,预测者也可以分为两类:刺猬型和狐狸型。刺猬型专家通常固执己见,期望世界遵守固定的模式;狐狸型专家则适应力强,不拘泥于固定的方法,承认宇宙的复杂性,利用新的信息不断修正预测。狐狸型专家通常遵循三大原则:用概率的方法思考问题,承认对真实世界的预测存在不确定性;今天的预测是以后人生的第一个预测,成功的预测总是不断修正自身的;寻求共识,群体预测往往好于个人预测,但也不能盲从群体的判断,后面我们会看到股市的非理性繁荣往往就是群体非理性、羊群效应的后果。

动态系统具有典型的混沌特性。例如全球的天气系统,为人熟知的一句话是巴西的蝴蝶扇动翅膀,可能引起美国得克萨斯的飓风。今天,在计算机和人力的通力协作下,天气预测已经相当成功。美国国家气象局的预测人员既能充分利用计算机提供的大量信息,同时也能进行视觉化和抽象化思考,提高预测的准确性。

经济也是一个动态系统,对经济的预测也常常会偏离实际的运行数据。并且经济的预测中往往存在偏见,通常经济学家做出的预测会夸大经济上行的可能性。克服偏见的两种选择,一是减小对不准确且过度自信的预测的需求,二是从供给端改善,即创造一个预测市场。

然而作者认为预测市场并不是灵丹妙药,所谓的有效市场假说遭到了质疑。综合不同的预测结果,利用群体智慧能让人受益匪浅,但在此之前需要明白三件事:群体预测往往优于个体预测,但并不意味着群体预测是准确的;各种预测在被综合到一起之前应当是独立做出的,股市的羊群效应便是一个例证,许多投资者的投资决策有严重的从众心理,市场就会失灵;群体预测并不一定会优于最佳的个体预测,所有综合的时候最好给予适当的权重,权威的个体预测者应该被予以采信。

股票市场中,有效市场假说并不成立。人们无法战胜市场,但这也就意味着一个矛盾,在所有人都是理性决策者的情况下,人们无法获利,交易就不会进行,也就没有了市场。由于非理性交易的存在,价格不总是正确的,这就提供了获利的途径。而正是一点蝇头小利(斯蒂格利茨)维持了市场的存在。羊群效应催生了泡沫。信息爆炸的年代,共享信息丰富,反而削弱了独立性。而一般来说,泡沫需要很长时间才能被挤出,做空获利只有理论上的可行性。

公认的看法是,地震不可被预言,即无法具体的做出“某年某月某日某地会发生一场大地震”的表述;但可被预测,即在期限较长的时间内对发生地震的概率做一个描述。地震预测领域有一个古登堡-里克特法则,将历史数据中显示的大于某震级的地震发生的频率与震级之间存在对数线性关系。这可被用来估计某地区大地震发生的频次。2011 年日本福岛大地震,部分原因就是低估了 9.1 级地震发生的可能性。福岛核电站并没有按 9.1 级地震的抗震级别来设计建造。除此之外,地震几乎没有固定的规律可循,这给预测带来相当大的难度,可以说目前还没有成功预测地震的先例。许多地震预测模型的努力,都在实际中被证明不可靠,原因是过度拟合,误将噪声视为有用信号。在统计中,更复杂的模型会更加符合已有的数据,将噪声也拟合进来,却离真实的规律更加遥远。

对传染病的预测也说明模型不是越复杂越好。简单高明才是好的预测模型的优点。模型是帮助我们理解某一领域复杂性的工具,而不是取代整个领域。人脑处理信息的方式是通过一系列近似值获得的,这提示我们在预测时要形成正确的自我认识,正确解读所收到的信号。贝叶斯定理是一个重要的工具。它有一个很简单的公式形式:

$$P(B\vert A)=\frac{P(A\vert B)P(B)}{P(A)}$$

称 $P(A)$ 为先验概率。贝叶斯公式的意义就是利用新出现的信息,去修正先验概率,得到后验概率,使它越来越接近真实的预测。书中用一个简单的计算展示了贝叶斯公式的应用,40 岁女性的乳腺癌发病率很低,即先验概率很低,即使 X 光片检查为阳性,其实际患病的概率也是很低的。

贝叶斯定理要求我们在权衡各种迹象之前,就要指出这一事件发生的可能性有多大。人们应该有初始观点,承认自己有偏见,才能减少偏见。任何时候获得新信息,都应该更新自己的预测,不断犯错,不断尝试。我们也许永远做不到完全客观、合理或是准确,不过我们可以尽量减少一些主观,少一些不合理,少一些错误。

德州扑克是贝叶斯定理的一个典型应用过程。扑克发牌虽然是随机的,但人们可以通过场上牌的分布,以及分析对手的策略,来判断对手手中可能的牌型,进而决定自己出牌的方法。一旦获得对手出牌的信息,就能马上修正对对手牌型的后验概率预测。[2]


  1. 纳特·西尔弗. 信号与噪声. 胡晓姣, 张新, 朱辰辰, 译. 中信出版社, 2013.

  2. 最后吐个槽,翻译太烂了,中信图书真是质次价高的典范,白拿了这么多的好版权,偏偏管理类的书籍他们出的最多。