1 简介 PyCharm开发公司jetbrains专门面向数据科学的ide项目DataSpell在前不久发布了其EAP版本(早期预览版本),为我们带来了诸多趋于成熟的功能特性,本文就将为大家介绍其使用方式及主要的一些功能. 2 DataSpell EAP版本使用体验 你可以在官网https://www.jetbrains.com/dataspell/下载适合你系统的安装包,然后像其他jetbrains系列产品那样进行安装: 在安装过程中可以勾选对ipynb文件的关联,使得我们直接双击ipynb文…
嗨,Linux 新手们!你们在尝试运行命令时有没有搞坏过计算机系统?我相信你们有过这种经历.这一幕经常发生:你想尝试运行命令,或者安装测试更新版,结果下一次重启时计算机就崩溃了.我在本文将逐一介绍五款扮演 Linux 数据恢复工具的 Linux 发行版.咱们开始吧! 最烦人的事情之一莫过于系统崩溃.你尝试运行某个命令,重启后,却根本看不到登录画面.只有光标闪烁的黑屏. 这一幕不仅出现在 Linux,还出现在 Windows 及市面上的其他任何一款操作系统.这时候最重要的事情就是恢复文件.你平时不…
时间 2015-01-29 14:14:11  数盟原文  http://dataunion.org/?p=9805 译者: Allen 从Python菜鸟到Python Kaggler的旅程(译注: Kaggle 是一个数据建模和数据分析竞赛平台) 假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了.本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径.该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述.如果你已经有一…
一.简介 TensorFlow时谷歌于2015年11月宣布在Github上开源的第二代分布式机器学习系统,目前仍处于快速开发迭代中,有大量的新功能新特性在陆续研发中: TensorFlow既是一个实现机器学习算法的接口,同时也是执行机器学习算法的框架.它的前端支持Python.C++.Go.Java等多种开发语言,后端使用C++.CUDA等编写,其实现的算法可以在很多不同的系统上进行移植,虽然TensorFlow主要用来执行的是深度学习算法,但其也可以用来实现很多其他算法,诸如线性回归.逻辑回归…
感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 数据接收全生命周期的思考 大数据处理框架中,最重要的就是性能,性能是排在前面的.其次再考虑其他的.因为数据量大,一不小心的多余的操作,几分钟,十几分钟就过去了. 根据一般的架构设计原则,接收数据和存储数据是不同的对象来完成的. Spark Streaming数据接收全生命周期可以看成是一个MVC模式,ReceiverSupervisor相当于是控制器(c),Receiver(v) 首先启动的是Rece…
感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 1 Receiver生命全周期 首先,我们找到数据来源的入口,入口如下 Receiver的设计是极其巧妙的.它的设计非常的出色,很多的地方都值得我们认真的学习. 在深入认识Receiver之前,我们有必要思考一下,假如没有spark,我们可以尝试思考一下,Receiver不断的接受输入进来的数据,如果是我们来做,我们该怎么做?该怎么启动Receiver呢? 我们尝试从以下几个方向来假设思考. 方式如下…
Spark Streaming事务处理彻底掌握 感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制. 内容概括: 1Exactly once 2 输出不重复 1 正如银行转账业务一样,如果你给一个朋友转账一次,银行的系统必须保证此次的转账数据有且只能处理一次,不能出现另外的情况.事务的意思就是保证数据有且只能处理一次. 而Spark Streaming流处理在事务处理方面也是做得非常好的,并且这一部分内容也是非常重要的. 所谓一图胜千言,我们就来画一张图吧. 整个数…
<Python数据科学手册>[美]Jake VanderPlas著 陶俊杰译 Absorb what is useful, discard what is not, and  add what is uniquel what own.(取其精华,去其糟粕,再加点自己的独创.) 本书在GitHub上开源:https://github.com/jakevdp/PythonDataScienceHandbook 作者在博客发布Notebook的HTML版本:https://jakevdp.githu…
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介…
为响应招标人的<ZQH工程造价数据平台>的技术邀约,特作以下陈述. 经过多次沟通和对招标文件的理解,招标人通过软件平台建立和使用人员库.项目库.材料设备价格库.数据库等四库的真实需求,本着招标人对“成果文件”(指造价.招标代理的计价成果),即“项目库”的计价文件,不打开计价软件的前提下,即非人为参与的情况对成果文件进行读取.导入到“软件数据库”(软件数据库SQL Server.Oracle.DB2等)中进行分析和使用. 一.成果文件的关联性数据归集入平台 二.材料设备价格库 2.1信息价(官方…