终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说。
  今天这篇写的是明白需求,其实更多的是想和大家聊天,只有把这个聊开了,后面的东西做起来才有意义,才有价值,在聊天中,思考中发现价值(化身为话唠了?)
  有时候你自以为某些东西很重要,其实那只是站在自己的角度觉得很重要,更需要的是站在别人,站在市场的角度去思考这个问题,特么的到底重不重要。
  需求我觉得可以分为两类:自己主动去做的和别人要求你去做的。别人要求你做的,你完成的很快,大部分人都是走走肾就能搞定。但是自己主动去做的,我觉得没人会只走肾不走心的。 当你真正主动去做一件事的时候,那件事才能带来价值,不然对你来说无非就是浪费时间浪费生命浪费撩妹的好时光,可是人生不就是用来浪费的吗?(好矛盾)
 
  感悟一:做数据相关的工作,如果只是一味被动的去出一些数据报表,完成一些没有自己想法的数据报告,不带有任何感情色彩去做,不把自己的想法和思维附在那一堆枯燥的数据上,那终究是一件浪费时间浪费生命浪费撩妹的好时光的工作。如果给一家企业这么干活,永远只会是人手,不会成为人才,最终可能会发展成为奇葩。
  所以,对待需求,不能只走肾,不走心~ 去挖掘,去发现,去好奇,去探索,去尝试着犯错。主动给自己揽活干,把被动变主动,养成了主动的习惯,不仅仅只对你手头的工作有好处,对整个人的思维都是有帮助的,这是一辈子的事。只有去不断思考了,需求才会出来。
  说个真事儿,年初的时候总监让我出报表,需求就是:一周起码要产出5张新数据报表。如过是你,你会怎么做呢?
  我还真那么去做了,几周下来,居然好神奇的出了几十张数据报表,后来我发现不对劲,出了这么多数据报表,意义何在?除了走量,好像然并卵啊。呵呵,我承认我走肾了。
 
  感悟二:搞数据,最重要的不是你使用什么工具,而是你的数据思维,让受伤的数据产生价值。武功再高,也怕菜刀。你用excel 计算 1+1 和 python 计算 1+1 ,都是等于2。具体使用什么工具,你得看自己手上的需求和数据规模,几千上万的数据,就别来问用什么工具了,你玩得溜,用excel照样切菜。
  举个例子:现在手上有一客户基本信息数据(user表),给他们按区域统计一下人数。
    2W条的量:excel透视表一下,就行了,你说你要搞个hadoop来跑2W量的数据,why not?
    10W条的量:用excel就吃力了,用sql是ok的 (select area as '区域',count(area) as '人数' from user group by area
    100W条的量:用python的pandas库就好了 (user.area.value_counts()
    1000W以上的量:pandas可以做,但是分布式的做起来就更ok了。
  所以,别一上来就是哪个工具哪个工具,这个不是最重要的,最重要的是你怎么让那堆数据对业务产生价值,这才是重中之重。当然咯,并不是说会一种就行了,需要不断地学习。
 
  感悟三:如果你的工作就是数据分析,但是领导没数据这方面意识,要不改变他要不就放弃作,change or giveup,这和追妹子一个道理,热脸贴冷屁股,没意思。
 
  这次写这些文章,我先把自己需求弄懂了,决定从(获取数据--读取数据--清洗整理数据--统计分析数据--数据报告产出--总结) 这一条龙过程中用到的知识梳理一下,也算来个全套咯,嘿嘿嘿。
  仅针对中小企业日常数据统计分析所涉及的工作内容,半桶子水,能力有限,其他级别的的可以绕行了:
  获取数据:打算从网上抓取XX金融网站的投资贷款数据用来作为数据源,基本上每个维度每个格式的数据都有,便于后期的操作
  读取数据:这里我会把获取的数据分为xls,csv,sql,还有pandas的DataFrame格式的数据,分别进行操作,以应对各式的数据源格式
  清洗整理数据:excel,sql,python,javascript都会用到
  统计分析数据:主用python的pandas 和 sql。
  数据报告产出:我会用到django的web开发用来做可视化(html,css,javascript),以及手上现有的报表系统,word,pdf,ppt都是可行的
  总结:将用到的方法和遇到的问题进行概括总结
 
  明白需求,再去开始你接下来的任务,走肾是可耻的。不求赞同,只求理解,大家一起进步,在工作过程中任何感触和问题,都可以一起分享一起讨论交流。欢迎大家加我QQ1749061919,一起交流与学习。
 

python 抓取金融数据,pandas进行数据分析并可视化系列 (一)的更多相关文章

  1. 利用python抓取页面数据

    1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...

  2. python 抓取alexa数据

    要抓取http://www.alexa.cn/rank/baidu.com网站的排名信息:例如抓取以下信息: 需要微信扫描登录 因为这个网站抓取数据是收费,所以就利用网站提供API服务获取json信息 ...

  3. 记录使用jQuery和Python抓取采集数据的一个实例

    从现成的网站上抓取汽车品牌,型号,车系的数据库记录. 先看成果,大概4w条车款记录 一共建了四张表,分别存储品牌,车系,车型和车款 大概过程: 使用jQuery获取页面中呈现的大批内容 能通过页面一次 ...

  4. 使用python抓取App数据

    App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器FiddlerPycharm实现过程首先下载夜神模拟 ...

  5. 网络爬虫-使用Python抓取网页数据

    搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...

  6. python 金融网贷数据,pandas进行数据分析并可视化系列 (词频统计,基本操作)

    需求: 某某金融大亨想涉足金融网贷,想给网贷平台取一个名字,那么取什么名字,名字里面包含哪些关键字,在行业内的曝光率会相比较高一些呢? 可以理解为: 你负责某某网贷平台的网络推广工作,如何进一步优化各 ...

  7. Python抓取双色球数据

    数据来源网站http://baidu.lecai.com/lottery/draw/list/50?d=2013-01-01 HTML解析器http://pythonhosted.org/pyquer ...

  8. python 爬取的数据要如何展现(可视化)?

    我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...

  9. 使用 Python 抓取欧洲足球联赛数据

    Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤    数据的采集和获取    数据的清洗,抽取,变形和装载    数据的分析,探索和预测    ...

随机推荐

  1. Asp.net MVC4高级编程学习笔记-模型学习第四课基架与模型绑定20171027

    MVC模型 一.构建基架. MVC中的基架可以为应用程序提供CURD各种功能生成所需要的样板代码.在添加控制器的时候可以选择相应的模板以及实体对象来生成相应的模板代码. 首先定义一个模型类如下所示: ...

  2. SAP开发快捷键

    F1 帮助     F2 回车确认(在某些地方可用,比如ABAP)     F3 返回     F4 选择输入项     F5 新增     F6 复制为...     F7 全选     F8 选择 ...

  3. Install a Jenkins on Ubuntu system

    ================================================================================ Jenkins Environment ...

  4. uploadify 配置后,页面显示无效果

    uploadify使用的是Flash版本 谷歌浏览器:默认没有开启Flash,进行如下图设置即可

  5. 数据模型(LP32 ILP32 LP64 LLP64 ILP64 )

    数据模型(LP32 ILP32 LP64 LLP64 ILP64 ) 32位环境涉及"ILP32"数据模型,是因为C数据类型为32位的int.long.指针.而64位环境使用不同的 ...

  6. Winsock网络编程笔记(2)----基于TCP的server和client

    今天抽空看了一些简单的东西,主要是对服务器server和客户端client的简单实现. 面向连接的server和client,其工作流程如下图所示: 服务器和客户端将按照这个流程就行开发..(个人觉得 ...

  7. poj2635The Embarrassed Cryptographer(同余膜定理)

    The Embarrassed Cryptographer Time Limit: 2000MS   Memory Limit: 65536K Total Submissions: 15069   A ...

  8. Turn the corner

    Turn the corner Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tot ...

  9. Java中方法的重载和重置(覆盖)的区别

    简单来说,重载就是在同一类中允许同时存在一个以上的同名方法,只要这些方法的参数个数或类型不同即可,而重置(覆盖)是子类重新定义父类中己经定义的方法,即子类重写父类方法. 方法的重载 方法的重载就是在同 ...

  10. 正常启动HBase顺序

    先启动hadoop集群start-all.sh 在master节点会启动SecondaryNameNode,NameNode,ResourceManager 在slave节点会启动NodeManage ...