2008年2月2日星期六

从一则健康新闻谈起(Correlation does NOT mean causation)

最近有则新闻,有个25岁的年轻人,在近一年内参与多达十几次的药物试验,之后罹患肝癌。请要参与药物试验的人三思。

这则新闻它想说什么?它想说药物试验会造成肝癌。这是一个完全错误的推论,但是一个很好的新闻题材。

为什么要在理财部落格谈这个,因为很多人在投资时,犯了一模一样的错误。

中国股市某次大跌之后,全球股市下跌。所以中国股市造成全球下跌。错误推论。

股市和债券相关性很低。所以股市现在大跌,我的债券应该会上涨,帮我弥补一些损失。错误推论。

这些推论都错在一样的地方,错在他们不知道”相关不代表因果”。

一个事情发生,结果另一个事情就会跟着发生。我们会说,这两件事很有相关性。但不可以马上跳到,事件A造成事件B这种结论。

这个世界上数据繁多,多到你可以把两个不相关的事情扯上关系。曾有人发现,孟加拉国奶酪的产量可以完美的解释过去美国股市的走势。你要不要用奶酪产量来评估是要进场还是出场?任何人都知道这是单纯的巧合。

那么某国股市下跌后,晚一点开盘的国家股市也下跌,所以这就是前者造成的吗?这个结论跳得太快。

首先,要证明这不是单一事件。也就是要有很多次,两国的股市呈现相关,我们才能说,这两个股市有很高的相关性。

即便有很高的相关性,也绝不等于因果。你绝不会说,因为奶酪增产,所以美股上涨。就算这两者有0.99的相关性,这还是无稽之谈。你要找到确切的成因,才能说因为…所以..这句话。譬如乙国规定,假如甲国股市收盘下跌,则本国股市收盘价不得超过前一日收盘价之90%。有这种规定的话,你就可以说因为甲下跌所以乙下跌。

在现实世界,说因果不是那么简单的事。很多事,都只研究到相关这一步。

回到新闻中的年轻人。假如你要证明药物试验和肝癌相关,你要有两组人,一组接受药物试验,一组不接受药物试验,然后追踪,看接受药物试验这组人的肝癌发生率,是否比不接受那组高。假如真的比较高,你才能说,药物试验和肝癌相关。做了那么多,才只是相关,不是因果。因为有太多可能,可能不是药物引起肝癌,可能是这些接受药物试验的人,把拿到的营养费都拿去买酒喝,造成肝病变。也可能是药物试验用的针不干净,让这些人都得到了肝炎。要说因果,你要确切找到药物引起肝癌的机制,这是艰困的工程。

不要混淆相关和因果,很多投资数据呈现的都是相关的概念。

不要以为股市和债券相关性低,所以它们应该走相反的方向。它们可以大大方方的齐涨齐跌,因为它们的走势之间不是因果关系。更不要看单一事件或是短期内的事情,就以为趋势已经形成。事实是,长期数据比短期数据的可性度更高。

某个年轻人得肝癌,是个医药新闻,不代表相关,更不是因果。

某次XX下跌后,YY也下跌,是个财经故事,不代表相关,更不是因果。

回到首页:请按这里

初来乍到:请看”如何使用本部落格

相关文章:
说故事的人(The Storyteller)

共變異數與相關係數(Covariance and Correlation Coefficient of Financial Assets)

没有评论: