大数据为什么要用Python?其优点在哪?

大数据
后台-插件-广告管理-内容页头部广告(手机)

首先我们要知道大数据的数据从哪里来?一般除了部分企业有能力自己产生大量的数据,大部分时候,是需要靠爬虫来抓取互联网数据来做分析。

 

网络爬虫是Python的传统强势领域,最流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的类库。

不过,网络爬虫并不仅仅是打开网页,解析HTML这么简单。高效的爬虫要能够支持大量灵活的并发操作,常常要能够同时几千甚至上万个网页同时抓取,传统的线程池方式资源浪费比较大,线程数上千之后系统资源基本上就全浪费在线程调度上了。

Python由于能够很好的支持协程(Coroutine)操作,基于此发展起来很多并发库,如Gevent,Eventlet,还有Celery之类的分布式任务框架。被认为是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了对高并发的支持,网络爬虫才真正可以达到大数据规模。

抓取下来的数据,需要做分词处理,Python在这方面也不逊色,著名的自然语言处理程序包NLTK,还有专门做中文分词的Jieba,都是做分词的利器。

数据的处理最为优秀!Python的数据处理算法,从统计理论,到数据挖掘,机器学习,再到最近几年提出来的深度学习理论,数据科学百花齐放。那些“高大上”的数据科学家们都用什么编程?

如果单单实在理论研究领域,或许R语言才是最受数据科学家欢迎的,可R语言的问题也很明显,原因是创建R语言的是统计学家,跟其他语言相比语法略微怪异。况且R语言要想实现大规模分布式系统,需要做很大的工程才能完成。所以大,部分公司在使用R语言做完实验原型、算法确定之后,会再将其翻译为工程语言,与之相比Python成为了数据科学家最喜欢的语言之一。

原因是与R语言不同,Python自身就是一门工程性语言,数据科学家用Python实现的算法,可以直接用在产品中,这对于大数据初创公司节省成本是非常有帮助的。正式因为数据科学家对Python和R的热爱,Spark为了讨好数据科学家,对这两种语言提供了非常好的支持。

以上便是小编对“大数据为什么要用Python?其优点在哪?”的大致介绍,希望能有所帮助!

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。