pandas 读取数据 一.导入一般的文件 1.read_csv(),用来读取CSV文件 官方文档是这么说的:Read CSV (comma-separated) file into DataFrame 在读取CSV之前首先得知道什么事CSV文件:csv文件的第一行是列名,后面的都是数据,列与列之间用逗号隔开,列名有时可以省略,如下所示 AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800AAPL,31-01-2011, ,335.8,340.…
不管是开发还是测试,工作中经常需要去批量新增测试数据,但是大量数据的新增速度有时候让我们苦不堪言,下面通过两种方式完成oracle数据的批量新增,比较两种方式的效率. 第一种方式:采用工具导入sql文件 以10w条数据为例,通过java程序生成insert语句,采用sqlplus进行导入 1.通过简单的JAVA程序生成sql脚本 public class GenerateSQLFile { public static void main(String[] args) throws Excepti…
常用的提取网页数据的工具有三种xpath.css选择器.正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/index.html pip install lxml 然后导入: from lxml import etree 使用: selector = etree.HTML(html_str) selector.xpath("xpath语法") 1.2xpath语法 w3c xpath语法:http…
re模块 re.S表示匹配单行 re.M表示匹配多行 使用re模块提取图片url,下载所有糗事百科中的图片 普通版 import requests import re import os if not os.path.exists('image'): os.mkdir('image') def get_page(number): ''' 页数 :param number: :return: ''' if number == 1: url = 'https://www.qiushibaike.co…
合在一起作的测试. #!/usr/bin/env python # -*- coding: utf-8 -*- import multiprocessing import random import time class producer(multiprocessing.Process): def __init__(self, queue): multiprocessing.Process.__init__(self) self.queue = queue def run(self): for…
前言 当要向MariaDB中插入新的数据时,以下过程会影响插入所消耗的时间:(按时间消耗长短降序排序) 将数据sync到磁盘上(它是事务结束的一部分) 添加新的键值.索引越大,更新键值所消耗的时间就越长. 检查外键约束(如果存在). 将行添加到存储引擎中. 将待插入数据发送给服务器. 下面介绍几种向表中快速插入数据的技术(按效率的提升程度降序排序). 1. 禁用索引(key) 你可以临时禁用非唯一索引.特别是在表中数据很少甚至没有数据的时候,禁用非唯一索引可以极大提升插入速度. 多数存储引擎(至…
Blood 血腥的方法 每个controller都有自己的scope, 同时也可以共享他们老爸的scope内的数据.如果我们想让两个controller共享数据的化, 有多种方法. 最直接血腥的就是在他们老爸的scope里定义一个model. <input type="text" ng-model="person.name"/> <div ng-controller="FirstCtrl"> {{person.name}}…
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解,在应用中也能更为熟练. 以下是根据书上的代码进行实操,注释基本写明了每句代码的作用(写在本句代码之前)和print的输出结果(写在print之后).不一定严格按照书上内容进行,根据代码运行时具体情况稍作顺序调整,也加入了一些自己的理解. 如果复制到自己的环境下跑一遍输…
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解,在应用中也能更为熟练. 02-加载数据 包括: 加载样本数据集 创建仿真数据集 加载CSV文件 加载Excel文件 加载json文件 查询SQL数据库 其中1.2部分内容主要是sklearn库中datasets的基本应用,在02-加载数据:加载数据集进行详细叙述. 3…