超级数据分析革命来临

大数据
后台-插件-广告管理-内容页头部广告(手机)

对于技术和方法发展历程的梳理有助于解释为什么超级数据分析革命之前没有发生。不过,我们也应该提出相反的问题:为什么一些行业迟迟没有赶上潮流?为什么一些决策者抵触数据驱动型思维?

有时,超级数据分析的缺失不是源于拖延或毫无理由的抵制。许多决策根本没有足够多的历史数据,无法进行任何统计检验,更不要说超级数据分析了。谷歌是否应该收购YouTube?这种之前没有出现过的问题不太适合数据驱动型思维。超级数据分析需要分析重复决策的结果。即使有重复案例,我们有时也很难量化成功。法学院必须每年决定录取哪些申请者。我们拥有申请人的许多信息,还有关于往届学生及其后来职业生涯的大量数据。不过,这对于毕业后的成功有何意义?最显而易见的指标是收入,但它并不是一项很好的指标。政府或公共利益法律的领导者收入可能相对较低,但是他们仍然令我们自豪。如果你不能对目标进行量化,那么你就无法依赖数据驱动型决策。

不过,在许多领域,成功指标和许多历史数据正在等待挖掘。虽然数据驱动型决策正在社会各个领域兴起,但是仍然存在许多抵制的堡垒。对于许多堡垒来说,改变的时机已经成熟。

人们更愿意接受超级数据分析在其个人专业领域之外的应用,这几乎是一条铁律。传统非实证评估者甚至很难考虑到量化预测在其个人领域比他们更加出色的可能性。我想,这主要不是源于试图保住个人饭碗的赤裸裸的自私。作为人类,我们只是高估了自己做出良好预测的能力,不相信忽略大量信息的公式会比我们表现得更好。

那么,让我们把目光转向图书出版领域。超级数据分析能否帮助矮脚鸡(Bantam)及其母公司兰登书屋确定应该出版什么书?当然不能。图书出版是一项很高深的艺术,无法进行超级数据分析。不过,让我们从小处着手。还记得吗?我已经展示了随机化试验是怎样帮助我测试本书书名的。为什么回归不能帮助我们选择书名呢?实际上,Lulu.com已经进行了这种回归。他们对于回归方程进行了估计,以帮助人们根据书名预测他们的书能否成为畅销书。

英国统计学家阿泰·温克勒(Atai Winkler)为《纽约时报》1955年到2004年畅销书榜单榜首的每一部小说创建了数据集。他还添加了每位相同作者不太受欢迎的图书。接着,他用700多个书名进行了回归估计,以预测成为畅销书的可能性。这种回归可以检测11种不同属性的影响(书名是否具有“The—of—”的形式?书名是否包含人名或地名?是否始于动词?)

事实证明,形象的书名比平实的书名更容易畅销。书名的第一个词语是动词、代词还是感叹词也很重要。而且,和传统出版观点相反,较短的书名不一定更好:书名的长度不会对图书销量产生显著影响。总体来看,回归预测比随机猜测要好得多。“它的猜测正确率几乎达到了70%,”温克勒说,“考虑到数据的性质和读者品味的变化,这已经很好了。”不过,温克勒并不想夸大其辞。“一本书能否登上畅销书榜单,在很大程度上取决于刚好出现在那个星期的其他图书,”温克勒说,“只有一本书能够成为畅销书。”

预测结果并不完美。在温克勒分析的所有书名中,阿加莎·克里斯蒂(Agatha Christie)的《沉睡的谋杀案》排在首位,但是根据模型的预测,《达芬奇密码》成为畅销书的概率只有36%。

虽然这款网页应用程序存在缺陷,但它很有趣,而且有点令人欲罢不能。只要在Lulu.com/titlescorer上输入书名,这个小程序就会为你能够想到的任意书名给出成功率预测值。你甚至可以用“书名对决”功能让两个备选书名进行竞争。当然,这并不是在测试你的书能否成为畅销书。它是在根据书名测试简·斯迈利(Jane Smiley)那种人的书能否取得成功。不过,就算你的书从未在畅销书榜单上名列前茅,你难道不想知道你的书名会得多少分吗?(我做了测试。虽然《魔鬼统计学》是非虚构类图书,但它的成功概率预测值仍然达到了56.8%。从Lulu之口,入上帝之耳。)

不过,为什么要止步于书名呢?为什么不能分析内容呢?

我的第一反应是,不,这永远行不通。你无法用程序判断一本书的内容好坏。不过,这也许只是抵制铁律的另一个案例而已。当某人说“你永远无法对我的工作进行量化”时,你就要当心了。

如果埃帕戈吉克斯的剧情分析可以预测电影票房,那么情节分析为什么不能帮助我们预测小说销量呢?实际上,小说应该更容易判断,因为它不会受到演员性格这一复合因素的影响,而且不存在拍摄技术问题。你所面对的仅仅是文本而已。你甚至可以将埃帕戈吉克斯分析电影剧本的标准作为出发点。成功的经济标准同样大量存在。尼尔森图书调查公司为用户提供大部分大型图书零售商的每周销售点数据。所以,大量销售数据正在等待分析。你可以试着根据书名以外的其他许多信息预测总销量,而不是仅仅根据书名粗糙地预测某本书在畅销榜单排名前列的概率。

不过,出版界没有人急于成为第一个公开通过数字分析选择图书或改进图书的人。我在很大程度上不相信非虚构图书可以用程序来判断,或者超级数据分析可以改进这本书的内容。不过,我已经对非虚构类出版领域的成功因素进行了一些数据挖掘。

作为法律教授,我的主要出版工作是撰写法律评论文章。衡量文章成功与否的核心标准是文章被其他教授引用的次数,尽管我不会因此而获得报酬。所以,在全职数字分析助理弗雷德·瓦尔(Fred Vars)的帮助下,我开始分析法律评论文章引用次数的影响因素。弗雷德和我收集了3家顶级法律评论期刊15年间发表的所有文章的引用信息。我们的核心统计公式有50多个变量。和埃帕戈吉克斯类似,我和弗雷德发现,一些看似无关紧要的事情其实非常重要。标题较短、脚注较少的文章被引用的次数明显更多,而包含方程或附录的文章被引用的次数则要少得多。较长的文章被引用的次数较多,但在回归公式的预测中,长达53页的文章平均每页的引用次数达到了峰值。(我们这些法律教授喜欢就法律问题长篇大论。)

希望提高引用率的法律评论编辑还应该回避犯罪和劳动方面的法律文章,关注宪法法律。他们应该考虑更多地发表女性作者的文章。白人女性被引用的次数比白人男性多57%,少数族裔女性被引用的次数则是白人男性的两倍多。一篇文章的终极价值与作者的种族和性别无关。不过,回归结果显示,法律评论编辑应该考虑自己是否在无意中为女性和少数族裔作者设置了过高的门槛。这类作者的文章在发表后被引用的频率普遍高于平均水平。

法律评论编辑当然可能抵触上述许多建议。这不是因为他们傲慢(不过,请相信我,一些人的确很傲慢),而是因为他们是人类。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。