#导入pandas import pandas as pd import numpy as np #导入SqlAlchemy from sqlalchemy import create_engine if __name__ == "__main__": #建立数据库引擎 engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac') #写一条sql sql = 'select id,name,age,g…
1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): Unit = { // 创建SparkSession实例 val spark: SparkSession = SparkSession.builder() .appName(this.getClass.getSimpleName) .master("local[*]") .getOrCrea…
当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的encoding参数设置为"gbk"或者"utf-8".(这个方法在上一篇博客有介绍) 据我个人经验总结(如果有错误,还希望大神斧正),在含有中文编码的情况下,to_csv()方法的encoding参数默认为"gbk",而read_csv()方法的encod…
Dataframe对象生成Excel文件 需要xlrd库  命令  pip install xlrd #导入pandas import pandas as pd import numpy as np #导入SqlAlchemy from sqlalchemy import create_engine if __name__ == "__main__": #建立数据库引擎 engine = create_engine('mysql+pymysql://root:mysql@localho…
Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍(链接),本文主要对DataFrame对象的常用用法进行总结梳理. 约定: import pandas as pd 1.什么是DataFrame对象? 一个二维表,有行索引(index)和列索引(columns),列的数据类型可以不同. 2.DataFrame对象的创建 DataFrame对象的创建主要是使用pd.DataFrame方法.主要包括以下三种: (1)方法1:通过等长列表组成的字典创建 d…
原文来源:http://pbpython.com/pandas-list-dict.html 介绍 每当我使用pandas进行分析时,我的第一个目标是使用众多可用选项中的一个将数据导入Pandas的DataFrame . 对于绝大多数情况下,我使用的 read_excel , read_csv 或 read_sql . 但是,有些情况下我只需要几行数据或包含这些数据里的一些计算. 在这些情况下,了解如何从标准python列表或字典创建DataFrames会很有帮助. 基本过程并不困难,但因为有几…
在做后台管理界面的时候,几乎少不了的一个结构就是树形结构,用来做菜单导航: 那么,最希望的就是树结构的所有数据都是读取的数据库,而不是直接代码当中写死,那我们就一步一步来看: 一,建表 字段通常包括:id,text,url,pid id text url pid 1 a   0 2 b test.html 1 二,使用nodeJS连接数据库 const mysql = require('mysql'); //注入MySQL模块 const connection = mysql.createCon…
将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy import pandas as pd from sqlalchemy import create_engine ##将数据写入mysql的数据库,但需要先通过sqlalchemy.create_engine建立连接,且字符编码设置为utf8,否则有些latin字符不能处理 yconnect = create_engine('mysql+mysqldb://root:password@localhost:330…
最近一项工作需要读取数据库中1500万条数据,考虑到数据量太大,不方便直接一次性读取,不然会内存爆炸.想到用pandas.read_sql_query()里有一个chunksize可以分批返回chunksize个数据,于是用pandas试了下,代码如下: import pandas as pd from sqlalchemy import create_engine import psycopg2 import json class DB_connection(object): def __in…
上次写了在 Python 怎么使用 mssql 库来对 SQL Server 数据库进行增删查改,今天就写一下 Python 如何通过 pandas 来读取数据库并进行绘图. 一.读取数据库: 利用 pandas 的 read_sql 方法可以直接获取到整张数据表(包括表结构),之后还可以对得到的结果集列表进行编辑,并结合 matplotlib 绘制所需的图表. 代码如下: import matplotlib.pyplot as plt import pandas as pd import py…