终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说。
  今天这篇写的是明白需求,其实更多的是想和大家聊天,只有把这个聊开了,后面的东西做起来才有意义,才有价值,在聊天中,思考中发现价值(化身为话唠了?)
  有时候你自以为某些东西很重要,其实那只是站在自己的角度觉得很重要,更需要的是站在别人,站在市场的角度去思考这个问题,特么的到底重不重要。
  需求我觉得可以分为两类:自己主动去做的和别人要求你去做的。别人要求你做的,你完成的很快,大部分人都是走走肾就能搞定。但是自己主动去做的,我觉得没人会只走肾不走心的。 当你真正主动去做一件事的时候,那件事才能带来价值,不然对你来说无非就是浪费时间浪费生命浪费撩妹的好时光,可是人生不就是用来浪费的吗?(好矛盾)
 
  感悟一:做数据相关的工作,如果只是一味被动的去出一些数据报表,完成一些没有自己想法的数据报告,不带有任何感情色彩去做,不把自己的想法和思维附在那一堆枯燥的数据上,那终究是一件浪费时间浪费生命浪费撩妹的好时光的工作。如果给一家企业这么干活,永远只会是人手,不会成为人才,最终可能会发展成为奇葩。
  所以,对待需求,不能只走肾,不走心~ 去挖掘,去发现,去好奇,去探索,去尝试着犯错。主动给自己揽活干,把被动变主动,养成了主动的习惯,不仅仅只对你手头的工作有好处,对整个人的思维都是有帮助的,这是一辈子的事。只有去不断思考了,需求才会出来。
  说个真事儿,年初的时候总监让我出报表,需求就是:一周起码要产出5张新数据报表。如过是你,你会怎么做呢?
  我还真那么去做了,几周下来,居然好神奇的出了几十张数据报表,后来我发现不对劲,出了这么多数据报表,意义何在?除了走量,好像然并卵啊。呵呵,我承认我走肾了。
 
  感悟二:搞数据,最重要的不是你使用什么工具,而是你的数据思维,让受伤的数据产生价值。武功再高,也怕菜刀。你用excel 计算 1+1 和 python 计算 1+1 ,都是等于2。具体使用什么工具,你得看自己手上的需求和数据规模,几千上万的数据,就别来问用什么工具了,你玩得溜,用excel照样切菜。
  举个例子:现在手上有一客户基本信息数据(user表),给他们按区域统计一下人数。
    2W条的量:excel透视表一下,就行了,你说你要搞个hadoop来跑2W量的数据,why not?
    10W条的量:用excel就吃力了,用sql是ok的 (select area as '区域',count(area) as '人数' from user group by area
    100W条的量:用python的pandas库就好了 (user.area.value_counts()
    1000W以上的量:pandas可以做,但是分布式的做起来就更ok了。
  所以,别一上来就是哪个工具哪个工具,这个不是最重要的,最重要的是你怎么让那堆数据对业务产生价值,这才是重中之重。当然咯,并不是说会一种就行了,需要不断地学习。
 
  感悟三:如果你的工作就是数据分析,但是领导没数据这方面意识,要不改变他要不就放弃作,change or giveup,这和追妹子一个道理,热脸贴冷屁股,没意思。
 
  这次写这些文章,我先把自己需求弄懂了,决定从(获取数据--读取数据--清洗整理数据--统计分析数据--数据报告产出--总结) 这一条龙过程中用到的知识梳理一下,也算来个全套咯,嘿嘿嘿。
  仅针对中小企业日常数据统计分析所涉及的工作内容,半桶子水,能力有限,其他级别的的可以绕行了:
  获取数据:打算从网上抓取XX金融网站的投资贷款数据用来作为数据源,基本上每个维度每个格式的数据都有,便于后期的操作
  读取数据:这里我会把获取的数据分为xls,csv,sql,还有pandas的DataFrame格式的数据,分别进行操作,以应对各式的数据源格式
  清洗整理数据:excel,sql,python,javascript都会用到
  统计分析数据:主用python的pandas 和 sql。
  数据报告产出:我会用到django的web开发用来做可视化(html,css,javascript),以及手上现有的报表系统,word,pdf,ppt都是可行的
  总结:将用到的方法和遇到的问题进行概括总结
 
  明白需求,再去开始你接下来的任务,走肾是可耻的。不求赞同,只求理解,大家一起进步,在工作过程中任何感触和问题,都可以一起分享一起讨论交流。欢迎大家加我QQ1749061919,一起交流与学习。
 

python 抓取金融数据,pandas进行数据分析并可视化系列 (一)的更多相关文章

  1. 利用python抓取页面数据

    1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...

  2. python 抓取alexa数据

    要抓取http://www.alexa.cn/rank/baidu.com网站的排名信息:例如抓取以下信息: 需要微信扫描登录 因为这个网站抓取数据是收费,所以就利用网站提供API服务获取json信息 ...

  3. 记录使用jQuery和Python抓取采集数据的一个实例

    从现成的网站上抓取汽车品牌,型号,车系的数据库记录. 先看成果,大概4w条车款记录 一共建了四张表,分别存储品牌,车系,车型和车款 大概过程: 使用jQuery获取页面中呈现的大批内容 能通过页面一次 ...

  4. 使用python抓取App数据

    App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器FiddlerPycharm实现过程首先下载夜神模拟 ...

  5. 网络爬虫-使用Python抓取网页数据

    搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...

  6. python 金融网贷数据,pandas进行数据分析并可视化系列 (词频统计,基本操作)

    需求: 某某金融大亨想涉足金融网贷,想给网贷平台取一个名字,那么取什么名字,名字里面包含哪些关键字,在行业内的曝光率会相比较高一些呢? 可以理解为: 你负责某某网贷平台的网络推广工作,如何进一步优化各 ...

  7. Python抓取双色球数据

    数据来源网站http://baidu.lecai.com/lottery/draw/list/50?d=2013-01-01 HTML解析器http://pythonhosted.org/pyquer ...

  8. python 爬取的数据要如何展现(可视化)?

    我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...

  9. 使用 Python 抓取欧洲足球联赛数据

    Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤    数据的采集和获取    数据的清洗,抽取,变形和装载    数据的分析,探索和预测    ...

随机推荐

  1. Ajax禁止重复提交

    var pendingRequests = []; var generatePendingRequestKey = function (obj) { return obj.data || {}; } ...

  2. LeetCode 530. Minimum Absolute Difference in BST (二叉搜索树中最小绝对差)

    Given a binary search tree with non-negative values, find the minimum absolute difference between va ...

  3. MySql中利用insert into select 准备数据uuid主键冲突

    MYSQL 中表1需要准备大量数据,内容主要取自表2,id必须为32位uuid (项目所有表都是这样,没办法), 准备这样插入: INSERT INTO TBL_ONE (ID, SOID, SNAM ...

  4. 06-从零玩转JavaWeb-数组在内存当中的存放形式

    一.JVM的内存划分 想要了解数组的内存存储,先要了解JVM的整体内存划分,详细参见第04JVM内存详解 二.数组在JVM当中的存储详解  假如我们有如下代码: 上面代码当中,创建数组的过程我们可以把 ...

  5. Leetcode题解(28)

    90. Subsets II 题目 分析:代码如下 class Solution { public: vector<vector<int> > subsetsWithDup(v ...

  6. code force 403C.C. Andryusha and Colored Balloons

    C. Andryusha and Colored Balloons time limit per test 2 seconds memory limit per test 256 megabytes ...

  7. 交换知识 VLAN VTP STP 单臂路由

    第1章 交换基础 1.1 园区网分层结构 层次 作用 出口层 广域网接入 出口策略 带宽控制 核心层 高速转发 服务器接入 路由选择 汇聚层 流量汇聚 链路冗余 设备冗余 路由选择 接入层 用户接入 ...

  8. Java多线程synchronized关键字

    synchronized关键字代表着同步的意思,在Java中被synchronized修饰的有三种情况 1.同步代码块 //锁为objsynchronized(obj){ while(true){ i ...

  9. 分享如何将git项目导入GitHub(附创建分支)

    前言:我们应该很多都会有自己的私有项目,大多情况都是存放在自己的硬盘中,今天我分享一下怎么讲自己的私有项目更新到GitHub上,这样再也不用担心项目丢失了. 一:下载git 下载链接git链接,根据自 ...

  10. Js的闭包,这篇写的是比较清晰明了的

    一.变量的作用域 要理解闭包,首先必须理解Javascript特殊的变量作用域. 变量的作用域无非就是两种:全局变量和局部变量. Javascript语言的特殊之处,就在于函数内部可以直接读取全局变量 ...