见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video

题目描述:

source

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos

下载视频

Most Popular Websites 1996-2019

Most Popular Programming Languages 1965-2019

Most Popular Internet Browsers 1996-2019

Most Popular Mobile Phone Brands 1993-2019

Most Downloaded Android Messengers 2011-2019

Best-Selling Music Artists 1969-2019 来自于Data is Beautiful

要求: 通过OCR、图像分析方法,还原成按年的静态表格,并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。

按照如下方式提交一个*.csv文件。关于csv文件说明,可以上网查查,就是纯文本文件,文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码,报告,csv。

每一个时间段为一行,第一个元素是时间,之后是第一个的名字,对应的值(百分比,绝对值),然后第二个,第三个,有几个写几个。

time,No1_name,Value,No2_name, Value, No2_name, Value

这里选择做most popular programming language

另外,这种视频叫做数据可视化视频:

框架

https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js

制作:准备好csv文件即可

https://www.zhihu.com/question/290568141/answer/829442104

OCR:

Tesseract

微软Azure 图像识别:https://azure.microsoft.com/z...

有道智云文字识别:http://aidemo.youdao.com/ocrdemo

阿里云图文识别:https://www.aliyun.com/produc...

腾讯OCR文字识别: https://cloud.tencent.com/pro...

一些参考:

python pytesseract psm 选项参数  https://blog.csdn.net/huitailangyz/article/details/80390090

PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解  http://www.sohu.com/a/162152933_787107

验证码/OCR图像识别预处理(去噪) https://blog.csdn.net/wsp_1138886114/article/details/82956297

Selenium&Pytesseract模拟登录+验证码识别  https://cloud.tencent.com/developer/article/1510012

python实现视频关键帧提取(基于帧间差分) https://blog.csdn.net/u011583927/article/details/84842915

python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm

利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图、折线图、饼图  https://www.cnblogs.com/xcuyms/p/11550606.html

Matplotlib绘图时x轴标签重叠的解决办法   https://www.jianshu.com/p/01ed72b2aeee

python--通过ocr对数据可视化视频还原为csv,进行简单的分析的更多相关文章

  1. 5 种使用 Python 代码轻松实现数据可视化的方法

    数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...

  2. [转]5 种使用 Python 代码轻松实现数据可视化的方法

    数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...

  3. python 科学计算及数据可视化

    第一步:利用python,画散点图. 第二步:需要用到的库有numpy,matplotlib的子库matplotlib.pyplot numpy(Numerical Python extensions ...

  4. 《Python数据分析》笔记——数据可视化

    数据可视化 matplotlib绘图入门 为了使用matplotlib来绘制基本图像,需要调用matplotlib.pyplot子库中的plot()函数 import matplotlib.pyplo ...

  5. 【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例

    前言:如题.直接上手撸,附带各种截图,就不做介绍了. 1.influxDB的官网下载地址  https://portal.influxdata.com/downloads/ 打开以后,如下图所示,可以 ...

  6. ​python高级数据可视化视频Dash1

    在谷歌浏览器输入http://127.0.0.1:8050/后,回车,看到下图可视化结果 # -*- coding: utf-8 -*- """ Created on S ...

  7. 使用Python写词云数据可视化

    词云的应用场景 会议记录 海报制作 PPT制作 生日表白 数据挖掘 情感分析 用户画像 微信聊天记录分析 微博情感分析 Bilibili弹幕情感分析 年终总结 安装本课程所需的Python第三方模块 ...

  8. python grib气象数据可视化

    基于Python的Grib数据可视化           利用Python语言实现Grib数据可视化主要依靠三个库——pygrib.numpy和matplotlib.pygrib是欧洲中期天气预报中心 ...

  9. 小白学 Python 数据分析(15):数据可视化概述

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

随机推荐

  1. Nacos 服务配置中心

    1.因为项目是微服务分布式项目,每个微服务都需要用到配置中心,所以第一步我们先在common中添加相应的依赖 <dependency> <groupId>com.alibaba ...

  2. 图解 | 原来这就是TCP

    你是一台电脑,你的名字叫 A 经过<图解 | 原来这就是网络>这篇文章中的一番折腾,只要你知道另一位伙伴 B 的 IP 地址,且你们之间的网络是通的,无论多远,你都可以将一个数据包发送给你 ...

  3. 本地Mac通过堡垒机代理实现跨堡垒机scp问题

    近日,公司在跳板机前架设了堡垒机,以防止ssh攻击,但这带来一个问题,我们平常直接ssh跳板机,可以直接使用scp来上传或下载跳板机数据到本地 架设堡垒之后经常使用的scp工具不好用了 于是本期就来解 ...

  4. 图解ARP协议

    前置知识:MAC地址 在说到ARP协议之前,需要了解MAC地址,在OSI七层模型中,第三层是网络层,要解决的是下一跳机制确定的设备位置,具体来说就是网卡地址,MAC地址用于在网络中唯一标示一个网卡,一 ...

  5. java 本地方法(JNI)

    最近搞了一个调用第三方so库做登录认证的任务,以前对JNI没什么概念,最近学习了 <java核心技术> 本地方法 一章,把自己写的一些例子记录一下. 自己C语言真是渣渣,所以所有的例子都在 ...

  6. loj10153二叉苹果树

    有一棵二叉苹果树,如果数字有分叉,一定是分两叉,即没有只有一个儿子的节点.这棵树共 N 个节点,标号 1 至 N,树根编号一定为 1. 我们用一根树枝两端连接的节点编号描述一根树枝的位置.一棵有四根树 ...

  7. 90% 的 Java 程序员都说不上来的为何 Java 代码越执行越快(1)- JIT编译优化

    麻烦大家帮我投一票哈,谢谢 经常听到 Java 性能不如 C/C++ 的言论,也经常听说 Java 程序需要预热,那么其中主要原因是啥呢? 面试的时候谈到 JVM,也有很多面试官喜欢问,为啥 Java ...

  8. Flutter环境搭建遇坑小结(二)

    在上一节中,已经对Flutter运行中始终卡在Running Gradle task 'assembleDebug'...,做出了解决方案,继续往下运行,但是新的问题又出现了: Failed to i ...

  9. 免费开源的代码审计工具 Gosec 入门使用

    声明: 本教程是在自己的电脑上本地测试Gosec的效果,所以不涉及其他运行模式,如果想要了解其他模式可以关注后期文档,如果想要自定义交流自定义代码扫描规则,可以跟我交流沟通. 背景: Gosec是一个 ...

  10. Educational Codeforces Round 83 D. Count the Arrays(组合,逆元,快速幂)

    题意: 从 m 个数中选 n - 1 个数组成先增后减的长为 n 的数组. 思路: 因为 n 个数中有两个数相同,所以每种情况实际上只有 n - 1 个不同的数--$c_m^{n - 1}$, 除去最 ...