2013年,“大数据”的概念风靡全球,成为互联网、研究机构、学界乃至政府企业管理人口中的热门词汇。当然,在“大数据”火爆的同时,对“大数据”的争议也从未间断。
“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。近10年来,大数据相关技术、产品、应用和标准快速发展,逐渐形成了覆盖数据基础设施、数据分析、数据应用、数据资源、开源平台与工具等板块的大数据产业格局,历经从基础技术和基础设施、分析方法与技术、行业领域应用、大数据治理到数据生态体系的变迁。
针对特定领域的数据集越庞大、越真实、越准确、越可追溯、维度越丰富、越协同共享,越能得出最佳算法并带来竞争优势。
认识”大数据“
我们使用网络进行在线购物,我们使用公交卡、银行卡、电卡等各种卡支付公共服务,我们的电话、机票、信用卡记录把我们日常的行为以数据的形式记录下来。一旦掌握了这些数据,我们每个人都几乎变得“透明”。
“大数据”正是在这样的背景下热起来——过去,人类的行为难以用数据进行量化描述,网络技术尤其是社交网络出现后,网络上的交往活动基本上与现实社会交往趋向一致,网上的数据也就更能反映现实世界的情况。
有人认为,所谓“大数据”就是海量数据处理,实际上两者并不等同。研究者认为,海量数据是商业自动化导致海量数据存储(以交易销售数据为代表),“大数据”则是伴随社会化数据(以社交网络为代表)出现的大量的在线文本、图片、流媒体数据等,主要为了应对非结构化和半结构化的数据。简而言之,大数据与海量数据区别就在于前者是以非结构化和半结构化数据为主,后者偏向结构化的交易数据为主。
”大数据”的“大”并不在于数据量的多少,而是一种“以数据为大”的方法论。我们的生活中会产生海量的数据,但海量数据本身并没有太大价值。“大数据”通过对个体行为的数据挖掘,使用关系分析、文本挖掘、社会计算、情感分析、时间线预测以及社会网络分析等方法来寻找有价值的信息,帮助人们更好地认识用户需求,寻找市场。
”大数据“与”小数据“
无论大数据或小数据,有价值的就是好数据;其次,“大数据”这个词,更多是一种思维方式和一个时代标志。
实际的场景中使用的数据往往是有限的,真正有用的是“小数据”。兵法上讲,“伤其十指不如断其一指”,大数据是一样的道理,要用力在关键的“一指”上,不必追求“十指”面面俱到。
用户源源不断地产生数据,目前对于企业来说,数据的收集和存储能力并不构成障碍。症结在于,90%的数据没有被真正利用起来,成了“废数据”。
主观上,这与机构的数据思维文化有关,客观上,则与数据的相关度有关。
比如一名用户10年前的互联网数据,对于分析当下或预测未来并没有太多的作用,时间序列上的弱相关度,大大减弱了数据的效力。
相关数据,特别要强调与特定场景的相关度。现在,人工智能的应用针对的是某个具体任务或具体目标,需要的数据类型不尽相同。比如,传媒、金融、医疗等各行业需要的细分数据不同,具体到同一行业的子领域也不同。比如,在医疗领域,心血管疾病和癌症诊断所要的细分数据就不一样。
大部分人工智能的应用场景,都是针对一个具体的任务。比如,个人信贷鉴别申请者的信用风险,餐饮外卖确定最优的派送路线,资讯信息流做精准的个性化推荐……具体的场景中,起作用的主要是相关度高的数据。
相对大数据来说,能直接用起来的相关数据,往往是一种特定的小数据。这里的小数据,指的是使用场景单一、对应算法简单、及时性较高、数量规模较少的数据。可以说,大数据是宏观、全面的分析,小数据则是针对特定任务的具体分析,当然,在大数据时代,小数据的内涵也会发生延展。比如,围绕个体的全方位数据更加重要。
这里的“个体”不只是自然人的个体,也包括社会组织,如商店、企业、社会团体等。掌握全方位的个体数据,一个直接的好处就是可以精准推送个性化服务。
数据科学在统计学层面的问题挑战
大数据时代创造了一个新的科学范式,就是先收集数据,后问问题,利用“捡来”的数据做事。当不考虑被检验的假设时,推论很可能是错误的,也许会导致后续的研究无法重现先前的发现。统计学以往已经证明了它在各类研究中的重要作用,在大数据时代它将继续通过新发展来实现它新的价值。然而数据科学在统计学层面也面临很多挑战,这些挑战来自数据本身。
1.人类行为数据
现在许多大数据在某种程度上都与人类的行为有关,如移动通讯数据、出行数据、社交网络数据。传统统计学通常不涉及人类行为的细枝末节。然而,处在一个数据富集的世界里,我们的技术发展不可避免要收集和分析多种类型的数据集。我们需要存储有关人类行为的大数据,并且找到分析方法。虽然隐私会受到影响,但我们仍然希望利用这些数据做更多事情,不仅要研究如何存储这些信息,而且还要研究能够允许做些什么以及能够做些什么。
2.分析方法的复杂度控制
这是一个关键的问题。一方面,算法复杂性导致其背后的逻辑概念很难用普通人都明白的通俗语言解释。另一方面,复杂的算法与庞大的数据相结合导致结果更加难于理解,特别是难理解背后的原理。显然,做一项重要的决定时,我们特别需要能够控制算法的复杂度,使得可以在可解释性与可预测性中间加以平衡。
3.数据形式多样性
随着算法复杂度的不断增长,数据的多样性和复杂性也在不断增加。数据集有多种形式,可以是高度非结构化的,包括图像、文本、声音和其它各种新的形式。这些不同类型的观测数据可能一起描述同一个对象,从而产生多模态数据。还可以记录更加复杂的对象。可能是一个三维的形状,例如功能磁共振图像和神经科学的现时脑电图。因此,数据科学要求我们描述这些更形式多样性的数据,并根据它们的内在模式对它们进行建模分析。
4.偏倚和缺失
偏倚和缺失是一个特别重要的情况,这将要求我们为数据科学发展一个新的理论。在传统统计中,我们通过指定采样机制和抽样方法来绘制样本。尽管有人声称,“全部”数据的可用性排除了对统计模型或抽样方法的需要,但事实正好相反。
我们努力从再利用或“捡来”的数据中获得信息,在那里我们可以获取关于抽样设计或群体组成的有限信息,更重要的是数据中需要考虑偏倚和缺失。如二战中飞机弹孔分析的精彩例子。但是,当我们放弃精心设计的实验,并开始解决不平衡随机设计的性质时,许多统计理论都不成熟。
5.数据科学需要坚实的基础
异构、非结构化的数据的复杂性对统计者建模来说是具有挑战性的,并且需要对理论概念和方法发展新的现代统计方法,以及将这些转化为可以实际运用的严格方法。在大数据时代发展的统计理论和方法必须适应现实世界所遇到的数据类型,否则我们将被时代淘汰。鉴于现在能够收集的大量的和多类型的数据,必须产生新的统计思维来帮助我们理解一个非理想抽样模式,得到合理的结论。数据将不仅通过技术,而且还通过政策、商业、隐私和信任影响每个人的日常生活。数据科学需要发展出一个坚实的推理基础,迫切需要为这些场景设计新的建模思想和推理过程,这需要统计思想和理论的创新发展。
责编:宋玉
监制:李红梅
参考资料:
1.《<互联网信息服务算法推荐管理规定>系列专家解读(二)》网信中国
2.《AI3.0:人工智能落地的商业逻辑》书籍摘要
3.《中国统计》2021年第5期文章
评论留言