大数据，why python

ps, 2015-12-4 20:47:46

python" title="大数据，why python">http://www.open-open.com/news/view/fbffc4

《机器学习编程语言之争，Python夺魁》，又是一只黑天鹅

--------

在《zwPython 3.0
初步规划》blog中，我们极大地强化了大数据功能，并作为首个All-in-one大数据分析平台。参见：http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html

zwPython
3.0目标：目前最强的集成式Python开发平台，大数据分析平台，没有之一：

比pythonXY更加强大，内置全中文用户手册；
苹果“开箱即用”模式，绿色软件，解压即可，零配置。
首个All-in-one大数据分析平台：内置pandas、Scala、R语言、Q语言、Quant、matlab、hadoop、spark模块库和API接口支持。（仅限V3.0版本）
超强功能:图像处理、AI人工智能、机器学习、openCV人像识别、gpu、openCL并行超算开发、pygame游戏设计......

为什么是python，而不是r语言、Julia、matlab、Scala、Hadoop、Spark，等目前热门的解决方案。

这个，主要是因为python发展太快，太猛，尤其是在AI人工智能、机器学习领域，已经超越lisp，成为行业标准。

而国内，因为中英语言、区域分隔等种种原因，通常要落后欧美2-3年。

像大数据架构，目前欧美IT行业：“强烈推崇Spark技术，宣称Spark是大数据的未来，同时宣布了Hadoop的死刑”

无他，因为Spark比Hadoop快一百倍。

而国内，今天百度了一下大数据人才需求，90%还是：Hadoop

大数据的核心是数据分析，数据分析的核心是模式匹配、机器学习方面的算法模型。

简单但说，就是一个类似字符串匹配的算法，不过这个字符串是一个超长的字符串，可能超过1000T字节。

算法、模型，向来是AI人工智能理论方面的范畴，这个类似于量子理论物理学，和理论天文学。

目前人工智能尚处于0.1版本阶段，大体上相当于哥白尼以前的天文学“地球中心说”、和量子物理以前的经典物理学阶段。

因此，大数据、人工智能，基本上，就和理论物理学差不多，AI的算法模型，99%都是靠理论推测，说白点，基本上靠“蒙”

（参见《人工智能永远差500年》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html）

这里“蒙”，并非贬义词，是指，大部分相关的理论，很多都是经验参数、经验理论，既然是经验，就有可能成功，更多的可能是失败，特别是推而广之的时候。

（参见《国内首个大数据网络推广实战案例》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html）

我说“蒙”大家可能不服气，这个却是老老实实，来自一线的实战经验，庆幸的是，国外的顶级AI学者的观点也差不多：

“对于（大数据、人工智能）这个词，我觉得最近社交网络上比较流行的那个笑话非常贴切，把大数据比作青少年性行为：每个人都在谈论它，没人知道到底怎么做，每个人都以为其他人知道怎么做，所以每个人都声称自己也在做、”（参见附录）

当然，这个0.1阶段，也已经能够解决N多实际问题了，例如目前的人脸识别、车牌识别、客户行为模式分析、网络广告点击分析、关联商品推荐等算法都比较成熟。

我谈大数据，特别是黑天鹅算法，更加强调我们提出的“小数据理论”,原因有以下两个：

首先，简单来说，国内除了进入“国际500强”的企业，例如阿里、百度、四大银行、移动等巨无霸企业。

99%的企业，基本上并不需要大数据，这些企业所谓的大数据，其实只是最简单的数据库、数据分析。

简单做个大数据的量化门槛标准，可以分为以下两条：

1、企业的活跃用户规模超过一个亿。

2、每天的活跃用户更新数据的数据量，超过数据总量的1%，换句话说，每天有过百万的活跃用户数据更新。

如果符合以上两条，可以导入真正的大数据平台:hadoop、spark,其他的，用pandas、R语言、matlab，或者其他传统数据库，可能效果更佳好。

例如淘宝、阿里的用户就完全符合以上两条，是典型的大数据企业。

而中国民政部门，负责人口统计管理的信息中心，每个人的记录就那么几十条记录，例如：出生日期、籍贯、性别等，基本都是关系数据库表格可以高效处理的，即使数据库规模，超过十亿人，也无需采用什么大数据系统，一台i7的的笔记本，基本上就可以搞掂。

当然，这里的一亿用户、1%，日过百万活跃用户，也都是笔者根据一线实战，总结的经验参数。

这些参数，不一定完全正确，但还是有过十年的专业经验做背书的。

例如，笔者得知百度世界杯足球预测十八连胜，就断言，百度的大数据、人工智能算法不靠谱，里面绝对有大量的人工干扰。

果然，不断两个月，百度的大数据图像识别，被K了，（百度在ImageNet图像识别测试中有违规行为）

参见《又一只黑天鹅爆掉了》，http://blog.sina.com.cn/s/blog_7100d4220102vnm2.html

注意这个blog日期，和zw大数据系列blog，最早断言，百度大数据有问题的blog发表日期，这个是真实的案例。

这个也可以视为一种经验模型，因为我们的黑天鹅算法，自身数据回测，准确度，也不会超过90%。谷歌、微软的准确度在50-60%左右。

我们强调“小数据理论”的第二个原因，以目前大数据应用最广泛的、最深入的量化交易为例。

无论什么模型、算法，无论是pc集群、云计算、天河巨型机系统，归根到底，就是一个“涨”和“跌”的问题。

简而言之，就是一个1与0的问题。

这个，说来说去，又绕到了最基本的哲学问题，非三言两语能够说清。

ps,2015.8.11
补充，本文发布后，发现也有学者开始强调“小数据”了

《大数据，小数据，哪道才是你的菜？》

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

看来，zw的大方向，还是正确的：）

事实上，对于大数据而言，比金融股票更好的数据算法对象，是足彩数据，

因为足彩的结果是3、1、0，胜、平、负，三种状态结果

这三种状态结果，可以适用于所有的模型框架，暗合易经之道：

一生二，二生三，三生万物。

至于为什么，我也在研究。

有兴趣的朋友，可以参考《文科生、易经与大数据》

http://blog.sina.com.cn/s/blog_7100d4220102vne7.html

关于大数据、高频交易和人工智能，个人的基本观点：凡是无法通过“足彩数据”实盘测试的方案、算法，都是在耍流氓。

足彩数据是最透明的数据源，如果足彩不是就没有更加公平的了博弈模型，

如果
这个都通不过其他都是扯蛋

所以说：足彩是最合适的数据源有历史数据还有横向对比

其他任何数据源都没有这种实时的“矩阵”数据源

2014年世界杯对于大数据人工智能是个分水岭是元年

微软谷歌
百度都有相关的项目胜率<50%

参见《字王看：大数据观点补充》

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

AI人工智能理论专家，和理论物理学家、理论天文学，大部分不是程序员（实验员），

因此，要求他们学习c，可能需要等上一百年，还不一定靠谱。

不过，“生命总是会找到自己的进化之路。”（侏罗纪公园）

转来转去，AI人工智能、大数据方面的理论专家,不约而同地找到了python

同样的，目前量化投资领域，一线交易员必须自己code，他们的选择也是python

“目前，量化投资、高频交易领域，一线操盘手自己编程，将投资策略直接程序化，已经成为国际大投行的标配。”

“在数据处理领域，特别在量化交易方面，python已成为“统治级”编程语言。”

参见《零起点，python大数据与量化交易》

http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html

事实上，目前，python已经是天文学、化学行业的标准编程语言

既然，这些地球上最聪明的家伙，都不约而同选择了python，我们为什么不“跟进”呢？

目前，python在人工智能、机器学习方面积累的资源，可能比c、r语言、matlab等加起来都要多，而且全部是“TOP
one”级别的：

scikit-learn、Orange、NLTK、MDP、PyBrain、BigML、PyML、Pattern
、Theano、Pylearn等

r语言虽然凭借统计背景，在早期的大数据、人工智能方面有些热，

不过，到2012、2013年，涉及到深层的AI理论、算法模型时，r语言就力不从心了

而此时，无论是厚积薄发的scikit-learn、NLTK,还是pandas、Theano、Pylearn的异军突起，

一下子,就把r语言上升的势头给掐死了，顺便把，matlab给伤大了，就像加多宝PK王老吉，把和其正给灭了。:)

python" title="大数据，why python">

Hadoop、Spark虽然都内置编程语言，特别是spark，内置的scala，完全lisp风格

lisp近年因函数编程大热，事实上，lisp和prolog，也一直是AI人工智能的行业标准语言。

lisp的逆波兰语法虽然小众，不过作为AI行业的笔者，还是比较熟悉的，而且比起曾经用过的，100%纯逆波兰风格的forth，语法要简单、传统N倍

尽管如此，笔者还是义无反顾，选择了python。

因为，目前大数据、人工智能、机器学习都尚处于0.1版本阶段

这个阶段，需要的是，大量的建模、分析、测试

而python，可能是地球上建模最快的编程语言，再加上，python有这么多的数据分析、机器学习模块库，而且大部分是开源的

AI行业，国际顶级的专家学者也如是说：（参见附录）

“基本上（机器学习）工具有两个推荐：Torch7（lua）、Theano +
Pylearn2（python）”

python最大的缺点是速度，一般比c慢十倍左右，不过大数据分析的瓶颈在IO，

目前，全内存计算是趋势，而且intel前几天发布的xpoint，号称能够提高内存速度1000倍，基本上是cpu内部cache级别

（事实上，目前最前沿的高频、黑池交易软件，已经开始基于cpu的cache进行加速编程）

另外一个大杀器是，gpu并行运算，无论是cuda、opencl，2014年，千元左右的GPU，已经能够提速3-500倍，未来几年，2020前，提速3000-5000倍，甚至上万倍，应该没有问题。

具体到python，虽然有衰减，不过目前，非官方的GPU模块库，提速100-200倍，已经完全ok。

至于gpu并行运算的门槛，目前已经很低了，最简单的，只要在相关函数前，加一个python的修饰符"@jit"，就全自动加速。

无需修改任何其他代码，至于超级复杂的cpu、gpu内存拷贝、交换，cl异构运算语法、矢量编程，完全可以无视，比matlab还方便

pandas、scikit-learn的GPU加速模块，也已经发布了多种版本，

目前，python与c、fortran，已经是cuda官方认可的三大gpu并行编程语言。

工业级的大数据分析，离开gpu，即使是计算机集群，无论在投资产出、还是实时运算方面，完全就是扯淡。

相比c、fortran,无疑，python要可爱的多，特别是“小白”般的理论学者。

python号称：胶水语言，是目前唯一能够打通:

pandas、Scala、R语言、Q语言、Quant、matlab、hadoop、spark

等目前、以及未来，各种大数据架构的平台，

统一的开发环境、统一的数据分析平台，无论在前期的建模、测试，还是后期的数据分析、系统维护，

在管理维护、培训研发成本方面，至少可以降低一个数量级。

想象一下，同时维护windows、linux，甚至还有ios、bsd，以及手机安卓app，

更何况，大数据往往还需要提供集群，gpu异构运算支持。。。。。

这些，仅仅是维护的硬件、软件名录清单，就可以把一个企业的IT部门主管，以及所有的工程师逼疯。

既然，python如此美好？

大数据， why python？

应该说得通吧。

（ps，本文是因《zwPython 3.0
初步规划》blog，有感而作，没有详细核对资料，可能有不少bug，请大家谅解）

ps2.2015.8.10

《大数据， why python？》，原本以为只是一家之言

blog发布不到几天，发现了一篇类似的blog

《大数据全栈式开发语言 – Python》

http://news.cnblogs.com/n/526283/

Python
可以称为大数据全栈式开发语言。因为 Python
在云基础设施，DevOps，大数据处理等领域都是炙手可热的语言。

像只要会 JavaScript
就可以写出完整的 Web 应用，只要会 Python，就可以实现一个完整的大数据处理平台。

看来，《大数据， why python？》，又召唤到一只黑天鹅

---------------

【附录】

blog的部分引用，来自对国际顶尖AI专家Yann
LeCun（燕乐存）的访问记录

http://www.cnblogs.com/yymn/p/4619320.html

Yann
LeCun（燕乐存），Facebook人工智能实验室主任，NYU数据科学中心创始人，计算机科学、神经科学、电子电气科学教授。

他1983年在ESIEE获得电气工程学位，1987年在UPMC获得计算机博士学位。在多伦多大学做了一段时间博士后，于1988年加入位于新泽西州的AT&T贝尔实验室。

1996年他成为图像处理研究部的主任，2003年，在普林斯顿NEC研究院经历短暂的Fellow生活以后，加入NYU。

2013年，他被Facebook聘请为人工智能实验室主任，同时仍在NYU兼职。

？深度学习可不是一个容易用的方法，你能给大家推荐一些工具和教程么？大家都挺想从在自己的数据上跑跑深度学习。

答：基本上工具有两个推荐：

Torch7

Theano + Pylearn2

他们的设计哲学不尽相同，各有千秋。Torch7是LuaJIT语言的一个扩展，提供了多维数组和数值计算库。它还包括一个面向对象的深度学习开发包，可用于计算机视觉等研究。

Torch7的主要优点在于LuaJIT非常快，使用起来也非常灵活（它是流行脚本语言Lua的编译版本）。

Theano加上Pylearn先天就有Python语言带来的优势（Python是广泛应用的脚本语言，很多领域都有对应的开发库），劣势也是应为用Python，速度慢。

？xxxx

答：“对于（大数据、人工智能）这个词，我觉得最近社交网络上比较流行的那个笑话非常贴切，把大数据比作青少年性行为：每个人都在谈论它，没人知道到底怎么做，每个人都以为其他人知道怎么做，所以每个人都声称自己也在做、”

-----------

ps，8月11日，新浪blog审核，老是不让发新文章，只能先把

《大数据·实战个案“宏”分析》作为附件发这里

------------

大数据·实战个案“宏”分析

MBA教育体系最成功之处，就在于导入了科学的个案分析。

Ps，二战最伟大的技术成功，不是原子弹、导弹、喷气机，而是流水线。流水线提供的生产力，比二战所有科技提高的总和还要高。

至于“宏”，学过c语言的，都知道宏定义、宏替换。

本文不玩文字游戏，也不玩数字游戏，只是简简单单，对几个大数据实战个案，进行宏观的定性分析。

目前，大数据，和大数据分析的核心，人工智能，都处于v0.1的黑暗期，这个阶段，“宏”分析，可能比大量的数字堆砌，更加重要。

还记得量子物理学爆发前的原子轨道模型吗？

当时，有几个人能够想象、理解原子轨道的跳变模型？

还记得天圆地方、地球中心学吗？

要不是哥伦布，“宏”分析一把，认为地球是个“球”，敢去环球探险？

废话少说，言归正传。

本文“宏”分析，包括以下几个大数据案例：

l 经典“啤酒+尿布”案例

l 2015中国股市“七·七”股灾

l 国内首个大数据网络推广个案

个案1：经典“啤酒+尿布”案例

“啤酒+尿布”案例，是最经典、最古老的大数据个案，其历史甚至比大数据这个名词更悠久。

早在上个世纪，dbase时代，数据仓库，数据分析，都用其做过案例。

久而久之，“啤酒+尿布”案例，似乎成了“神”一样的存在。

好像三大几何原理，成为大数据的基本“公理”。

不过，这个“神”，是“伪神”。

参见：《字王看：大数据观点补充》

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

【黑天鹅才是新常态】

"啤酒和尿布有什么关系",这个十年前经典案例, 目前我是作为反面课件来说的

这个是冰岛的一个数据分析结果，至少在中国不存在

参见：《大数据与黑天鹅等》

http://blog.sina.com.cn/s/blog_7100d4220102vkxa.html

大数据，再多的专家，再nb的模型，再炫的demo，

也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看，再回头问问这些大师们，"啤酒和尿布"模型，怎么玩砸了？

个案2：2015中国股市“七·七”股灾

blog《股灾、马云、大数据》

http://blog.sina.com.cn/s/blog_7100d4220102vpzv.html

blog，虽然发布与7月20日，但成文要早得多。

“这篇blog，股市关头“七·七”之日，就差不多构思，因为事件敏感，一直压住没有发布。”

笔者的这篇blog，可能是全网第一个，从大数据分析、技术层面，对“七·七”股灾，进行“宏”分析，断定事件：

“七·七”股灾，根本就不关华尔街、美帝什么事？

幸运的是，笔者blog当中，对于“七·七”股灾的“宏”分析，及其推断，目前，已经证明是科学的、正确的。

“七·七”股灾前后，整个社会好像“三战”核弹爆发，经济、金融的“灭国”之战，国家经济有倒退十年的危险。。。。。

连外访总理都匆忙回国，好像美国华尔街、联合欧洲、日本等全球资本，恶意做空中国，

更加关键的是，这种错误的推断，引发了政府部门实质性的的救市行为，上万亿的资金被导入股市，

好似当年三个代表，有关政府部门，近期言必“大数据”，这次股灾应对，必然会极大的参考大数据方面的资料。

可惜，政府主导的大数据，和其他政府项目一样，往往换来的是是十倍、百倍的失败。

面对“七·七”股灾，政府种种应对措施，全面失败，而且，闹出了个世界金融史上的超级“大乌龙”事件，居然找错了“靶标”。

“七·七”股灾的最终调查结果，目前虽然没有发布，但有消息称，虽然不一定正确：

前期，不过是江浙的一些土老板，为防止风险，做的空头对冲保险，因为配资杠杆，引发的技术性股市大幅度下调。

后期，则是因为程序化交易系统，对阀值K值的设定，引发的一系列自动抛盘，

就像前几年光大乌龙事件，专业人员一听，就知道是因为交易系统，相关参数，未进行初始化设置，直接上线引发的自动抛盘

也许，“七·七”股灾，根本就不关华尔街、美帝什么事？

完全是躺枪。

ps,8月10日新增片段：笔者很少引用中华网的资料，因为基本是TG的文宣。不过这次，过了一个月，这些blog也羞羞答答、间接认可了上面的推断。

《大老虎想在中国玩双头政治？白日做梦》
http://jnwct.blog.china.com/201508/13458004.html

欧洲最近有点看中国的笑话。大老虎作乱。欧美都看笑话。

(ps，应该就是这个“七·七”股灾的超级“大乌龙”事件)

个案3：国内首个大数据网络推广个案

2004年，我们利用AI人工智能和大数据分析技术，研发成功国内首个海量级社区营销软件：百万社区营销系统（软件著作权登记号：2005sr5133）。社区数据库超过一百万个，比同期类似产品，高两个数量级。

2008年，依托百万社区营销系统，在北京联合创办国内首家4A级的专业网络公关公司：wowa传媒，首年业绩突破一千万。

同年，“特仑苏” 危机公关案爆发，wowa受中国国际公关协会委托，在北京，首度对国内大型公关公司，统一进行专业的网络公关培训，被协会誉为：中国网络公关事业的开拓者和启蒙者。

Wowa服务过150+国际500强客户；是微软公司首家官方认证的网络公关服务商；新华美通首选网络传媒合作伙伴；国内TOP10网络公关公司，50%采购过wowa的服务。

2007年，操盘惠普笔记本“数码混搭”推广个案，成为年度十大公关行业经典案例（注意，非仅指网络公关）；被业界誉为：史上最强之网络推广案例，没有之一；不可逾越的概念营销“标杆之作”。

我们在惠普笔记本“数码混搭”推广个案当中，首度提出的百度、谷歌搜索引擎：覆盖率指标，NLP反向链接数，等参数，目前已经成为网络公关行业的基础指数。

这个也是大数据技术，首度在网络推广方面的应用个案，我们当时的经验参数：1:1000。（百度NLP反向链接数-抽样采集率）。

按照客户要求，利用自行开发的AI语义分析系统，针对“笔记本电脑”，“数码混搭”两个主关键词，结合百度、搜狗的行业分类关键词，将发布主题帖，细分为数十组不同风格的软文，并在每篇软文前后，插入系统细分的关键词组。

硬件方面，我们采用了近百台PC，组成了一个简单的发布集群系统，通过1-2周时间，围绕关键词：hp笔记本、数码混搭，发布了过百万条网络推广软文。

最终，hp笔记本“数码混搭”的网络推广方案，获得了“空前绝后满天飞”的成功，软文的存活率非常高。

“数码混搭”个案当中高至70-80%的覆盖率，至今，国内外尚没有一家团队、公司能够超越，包括百度、谷歌自身。

python" title="大数据，why python">

python" title="大数据，why python">

技术博客：http://blog.sina.com.cn/zbrow

--------------

zwPython 3.0 初步规划

zwPython 3.0目标：目前最强的集成式Python开发平台，大数据分析平台，没有之一：

::
比pythonXY更加强大，内置全中文用户手册；
::
苹果“开箱即用”模式，绿色软件，解压即可，零配置。
::
首个All-in-one大数据分析平台：内置pandas、Scala、R语言、Q语言、Quant、matlab、hadoop、spark模块库和API接口支持。（仅限V3.0版本）
::
超强功能:图像处理、AI人工智能、机器学习、openCV人像识别、gpu、openCL并行超算开发、pygame游戏设计......

因为“All-in-one”大数据分析平台，增加了N多第三方软件，许多都是目前IT领域最前沿的大型系统，

测试相关脚本代码很耗时间，相关软件，包括python本身，也都在不断更新当中（而且非常活跃），

目前无法确定最终发布时间，初步预计需要6-10个月。

幸运的是，zwPython 3.0，基本平台框架，和80%的新增模块，都已经到位

至于为什么选择python，作为大数据分析平台，请参见blog《大数据，why python》

http://blog.sina.com.cn/

---

更多参见blog《大喜，python版opencv3发布》

http://blog.sina.com.cn/s/blog_7100d4220102vo2m.html

zwPython3的升级也可以启动了，一直在等这个，zwPython会直接升级到版本3：zwPython3

大喜python版opencv3发布，demo脚本抢鲜版发布

zwPython3采用64位python3，支持opencv3

zwPython3的重点会由原来偏重于字库、图像处理，延展到大数据领域，会重点强化以下模块：

pandas数据分析

theano、Scikit
Learn机器学习

cuda、gpu并行超算

采用python3，是因为v3的内码是unicode，而且是趋势，目前模块库也n多了，超过一万个

原来用2.7版，最主要的是因为opencv2对python3
的支持很差

遗憾的是，opencv3的demo脚本还都是python2的，连GitHub的官方包都是

为方便大家学习opencv3，用2to3.py把demo脚本升级到python3，并修改了数据包目录

测试了一下，70%可以直接运行

作为抢鲜版，大家先凑合用用

下载还是在zw项目的百度网盘:

http://pan.baidu.com/s/1tY7Wq

文件名：cv3python3demo.zip

大数据，why python的更多相关文章

《零起点，python大数据与量化交易》
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库 ...
【Python开发】Python 适合大数据量的处理吗？
Python 适合大数据量的处理吗? python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 需要澄清两点之后才可以比较全面的看这 ...
zw·10倍速大数据与全内存计算
zw·10倍速大数据与全内存计算 zw全内存10倍速计算blog,早就在博客园机器视觉栏目发过,大数据版的一直挂着,今天抽空补上. 在<零起点,python大数据与量化交易>目录中 htt ...
[转]大数据时代，python竟是最好的语言？
随着大数据疯狂的浪潮,新生代的工具Python得到了前所未有的爆发.简洁.开源是这款工具吸引了众多粉丝的原因.目前Python最热的领域,非数据分析和挖掘莫属了.从以Pandas为代表的数据分析领 ...
python大数据工作流程
本文作者:hhh5460 大数据分析,内存不够用怎么办? 当然,你可以升级你的电脑为超级电脑. 另外,你也可以采用硬盘操作. 本文示范了硬盘操作的一种可能的方式. 本文基于:win10(64) + p ...
Python/Numpy大数据编程经验
Python/Numpy大数据编程经验 1.边处理边保存数据,不要处理完了一次性保存.不然程序跑了几小时甚至几天后挂了,就啥也没有了.即使部分结果不能实用,也可以分析程序流程的问题或者数据的特点. ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为大数据软件准备JAVA、Python环境
环境:SUSE 11 64位安装JAVA JDK 1.确定版本.一般都是安装最新的JDK(Java SE Development Kit).个别软件和系统需要特定版本的JDK,根据实际需要下载. 2 ...
大数据Python学习大纲
最近公司在写一个课程<大数据运维实训课>,分为4个部分,linux实训课.Python开发.hadoop基础知识和项目实战.这门课程主要针对刚从学校毕业的学生去应聘时不会像一个小白菜一样被 ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...

随机推荐

Cesium - 离线使用方法
使用Cesium可以直观的看基于DEM切片产生的Terrain地形数据,有种身临其境的感觉,但缺点是Cesium默认缺省加载了微软Bing提供的地形以及遥感影像数据,可以跟踪日志,总提示让你申请微软的 ...
linux系统socket通信编程实践
简单介绍并实现了基于UDP(TCP)的windows(UNIX下流程基本一致)下的服务端和客户端的程序,本文继续探讨关于UDP编程的一些细节. 下图是一个简单的UDP客户/服务器模型: 我在这里也实现 ...
Centos安装Memcache
Memcache概述官方 Memcache是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据.简单的说就是将数据调用到内存中,然后从内存 ...
OpenGL 4.0 GLSL 基础教程概览——VAO和VBO常用操作接口
(一) OpenGL 4.3 最新渲染管线图从OpenGL 2.0 到 OpenGL 3.0变化非常大,但从OpenGL 3.0 到OpenGL 4.0 变化不是太大. 着色器程序直接运行在GPU ...
利用maven将jar包添加到本地仓库中
mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc7 -Dversion=12.1.0.2 -Dpackaging=jar ...
使用jQuery操作元素属性
在jQuery中,提供了attr函数来操作元素属性,具体如下: 函数名说明例子 attr(name) 取得第一个匹配元素的属性值. $("input").attr(" ...
使用ThreadLocal在线程内部传递数据
最近在项目中使用到了JDK提供的线程池,遇到了在多线程环境下在线程内部共享数据的问题使用ThreadLocal 来解决线程内部共享数据的问题定义BO package com.unicom.uclo ...
【BZOJ3437】小P的牧场斜率优化
[BZOJ3437]小P的牧场 Description 背景小P是个特么喜欢玩MC的孩纸... 描述小P在MC里有n个牧场,自西向东呈一字形排列(自西向东用1…n编号),于是他就烦恼了:为了控制这 ...
mysql导入数据失败：mysql max_allowed_packet 设置过小
mysql根据配置文件会限制server接受的数据包大小. 有时候大的插入和更新会受max_allowed_packet 参数限制,导致写入或者更新失败. 查看目前配置 show VARIABLES ...
Nginx配置文件（nginx.conf）配置详解[转]
转自:http://blog.csdn.net/tjcyjd/article/details/50695922 重新学习,发觉这篇文章写得很详细就摘录了! Nginx的配置文件nginx.conf配置 ...