python--通过ocr对数据可视化视频还原为csv,进行简单的分析
见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video
题目描述:
source
https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg
https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos
下载视频
Most Popular Websites 1996-2019
Most Popular Programming Languages 1965-2019
Most Popular Internet Browsers 1996-2019
Most Popular Mobile Phone Brands 1993-2019
Most Downloaded Android Messengers 2011-2019
Best-Selling Music Artists 1969-2019 来自于Data is Beautiful
要求: 通过OCR、图像分析方法,还原成按年的静态表格,并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。
按照如下方式提交一个*.csv文件。关于csv文件说明,可以上网查查,就是纯文本文件,文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码,报告,csv。
每一个时间段为一行,第一个元素是时间,之后是第一个的名字,对应的值(百分比,绝对值),然后第二个,第三个,有几个写几个。
time,No1_name,Value,No2_name, Value, No2_name, Value
这里选择做most popular programming language
另外,这种视频叫做数据可视化视频:
框架
https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js
制作:准备好csv文件即可
https://www.zhihu.com/question/290568141/answer/829442104
OCR:
Tesseract
微软Azure 图像识别:https://azure.microsoft.com/z...
有道智云文字识别:http://aidemo.youdao.com/ocrdemo
阿里云图文识别:https://www.aliyun.com/produc...
腾讯OCR文字识别: https://cloud.tencent.com/pro...
一些参考:
python pytesseract psm 选项参数 https://blog.csdn.net/huitailangyz/article/details/80390090
PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275
tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解 http://www.sohu.com/a/162152933_787107
验证码/OCR图像识别预处理(去噪) https://blog.csdn.net/wsp_1138886114/article/details/82956297
Selenium&Pytesseract模拟登录+验证码识别 https://cloud.tencent.com/developer/article/1510012
python实现视频关键帧提取(基于帧间差分) https://blog.csdn.net/u011583927/article/details/84842915
python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm
利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图、折线图、饼图 https://www.cnblogs.com/xcuyms/p/11550606.html
Matplotlib绘图时x轴标签重叠的解决办法 https://www.jianshu.com/p/01ed72b2aeee
python--通过ocr对数据可视化视频还原为csv,进行简单的分析的更多相关文章
- 5 种使用 Python 代码轻松实现数据可视化的方法
数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...
- [转]5 种使用 Python 代码轻松实现数据可视化的方法
数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...
- python 科学计算及数据可视化
第一步:利用python,画散点图. 第二步:需要用到的库有numpy,matplotlib的子库matplotlib.pyplot numpy(Numerical Python extensions ...
- 《Python数据分析》笔记——数据可视化
数据可视化 matplotlib绘图入门 为了使用matplotlib来绘制基本图像,需要调用matplotlib.pyplot子库中的plot()函数 import matplotlib.pyplo ...
- 【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例
前言:如题.直接上手撸,附带各种截图,就不做介绍了. 1.influxDB的官网下载地址 https://portal.influxdata.com/downloads/ 打开以后,如下图所示,可以 ...
- python高级数据可视化视频Dash1
在谷歌浏览器输入http://127.0.0.1:8050/后,回车,看到下图可视化结果 # -*- coding: utf-8 -*- """ Created on S ...
- 使用Python写词云数据可视化
词云的应用场景 会议记录 海报制作 PPT制作 生日表白 数据挖掘 情感分析 用户画像 微信聊天记录分析 微博情感分析 Bilibili弹幕情感分析 年终总结 安装本课程所需的Python第三方模块 ...
- python grib气象数据可视化
基于Python的Grib数据可视化 利用Python语言实现Grib数据可视化主要依靠三个库——pygrib.numpy和matplotlib.pygrib是欧洲中期天气预报中心 ...
- 小白学 Python 数据分析(15):数据可视化概述
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...
随机推荐
- Nacos 服务配置中心
1.因为项目是微服务分布式项目,每个微服务都需要用到配置中心,所以第一步我们先在common中添加相应的依赖 <dependency> <groupId>com.alibaba ...
- 图解 | 原来这就是TCP
你是一台电脑,你的名字叫 A 经过<图解 | 原来这就是网络>这篇文章中的一番折腾,只要你知道另一位伙伴 B 的 IP 地址,且你们之间的网络是通的,无论多远,你都可以将一个数据包发送给你 ...
- 本地Mac通过堡垒机代理实现跨堡垒机scp问题
近日,公司在跳板机前架设了堡垒机,以防止ssh攻击,但这带来一个问题,我们平常直接ssh跳板机,可以直接使用scp来上传或下载跳板机数据到本地 架设堡垒之后经常使用的scp工具不好用了 于是本期就来解 ...
- 图解ARP协议
前置知识:MAC地址 在说到ARP协议之前,需要了解MAC地址,在OSI七层模型中,第三层是网络层,要解决的是下一跳机制确定的设备位置,具体来说就是网卡地址,MAC地址用于在网络中唯一标示一个网卡,一 ...
- java 本地方法(JNI)
最近搞了一个调用第三方so库做登录认证的任务,以前对JNI没什么概念,最近学习了 <java核心技术> 本地方法 一章,把自己写的一些例子记录一下. 自己C语言真是渣渣,所以所有的例子都在 ...
- loj10153二叉苹果树
有一棵二叉苹果树,如果数字有分叉,一定是分两叉,即没有只有一个儿子的节点.这棵树共 N 个节点,标号 1 至 N,树根编号一定为 1. 我们用一根树枝两端连接的节点编号描述一根树枝的位置.一棵有四根树 ...
- 90% 的 Java 程序员都说不上来的为何 Java 代码越执行越快(1)- JIT编译优化
麻烦大家帮我投一票哈,谢谢 经常听到 Java 性能不如 C/C++ 的言论,也经常听说 Java 程序需要预热,那么其中主要原因是啥呢? 面试的时候谈到 JVM,也有很多面试官喜欢问,为啥 Java ...
- Flutter环境搭建遇坑小结(二)
在上一节中,已经对Flutter运行中始终卡在Running Gradle task 'assembleDebug'...,做出了解决方案,继续往下运行,但是新的问题又出现了: Failed to i ...
- 免费开源的代码审计工具 Gosec 入门使用
声明: 本教程是在自己的电脑上本地测试Gosec的效果,所以不涉及其他运行模式,如果想要了解其他模式可以关注后期文档,如果想要自定义交流自定义代码扫描规则,可以跟我交流沟通. 背景: Gosec是一个 ...
- Educational Codeforces Round 83 D. Count the Arrays(组合,逆元,快速幂)
题意: 从 m 个数中选 n - 1 个数组成先增后减的长为 n 的数组. 思路: 因为 n 个数中有两个数相同,所以每种情况实际上只有 n - 1 个不同的数--$c_m^{n - 1}$, 除去最 ...