python读取es中的所有数据并计算md5然后进行持久化

#!/usr/bin/python

import threading

import json

import time

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import os

import sys

import argparse

host_list = [

    {"host":"1.58.55.11","port":9200},

    {"host":"1.58.55.12","port":9200},

    {"host":"1.58.55.13","port":9200},

]

es = Elasticsearch(host_list)

size = 1000

query = es.search(index='full_sight',scroll='1m',size=size)

results = query['hits']['hits'] # es查询出的结果第一页

total = query['hits']['total'] # es查询出的结果总量

scroll_id = query['_scroll_id'] # 游标用于输出es查询出的所有结果

# 获取总的页数

page = divmod(total,size)

if page[1] == 0:

    page = page[0]

else:

    page = page[0] + 1

import hashlib

obj = hashlib.md5()

num = 1

# 获取所有的数据，计算每条数据的md5值，然后写到文件中

for i in range(0, page): # scroll参数必须指定否则会报错

    query_scroll = es.scroll(scroll_id=scroll_id,scroll='1m',)['hits']['hits']

    for m in query_scroll:

        temp = {}

        s = json.dumps(m)

        obj.update(bytes(s,encoding="utf-8"))

        v = obj.hexdigest()

        k = m["_id"]

        temp[k] = v

        with open("test.text","a") as f:

            f.write(json.dumps(temp))

            f.write("\n")

        print(k,num,sep="============>")

        num += 1

python读取es中的所有数据并计算md5然后进行持久化的更多相关文章

使用python读取文本中结构化数据
需求 read some .txt file in dir and find min and max num in file. solution: echo *.txt > file.name ...
Python读取excel中的图片
作为Java程序员,Java自然是最主要的编程语言.但是Java适合完成大型项目,对于平时工作中小的工作任务,需要快速完成,易于修改和调试,使用Java显得很繁琐,需要进行类的设计,打成jar包,出现 ...
python读取excel中单元格的内容返回的5种类型
(1) 读取单个sheetname的内容. 此部分转自:https://www.cnblogs.com/xxiong1031/p/7069006.html python读取excel中单元格的内容返回 ...
Python 读取文件中unicode编码转成中文显示问题
Python读取文件中的字符串已经是unicode编码,如:\u53eb\u6211,需要转换成中文时有两种方式 1.使用eval: eval("u"+"\'" ...
Python读取Excel中的数据并导入到MySQL
""" 功能:将Excel数据导入到MySQL数据库 """ import xlrd import MySQLdb # Open the w ...
接口测试中读取excel中的请求数据含有中文问题，UnicodeEncodeError: 'latin-1' codec can't encode character '\u5c0f' in position
错误信息:UnicodeEncodeError: 'latin-1' codec can't encode character '\u5c0f' in position 31: Body ('小') ...
python读取word中的段落、表、图+++++++++++Doc转换Docx
读取文本.图.表.解压信息 import docx import zipfile import os import shutil '''读取word中的文本''' def gettxt(): file ...
关于C语言中不同类型数据进行计算有符号和无符号数进行计算
float是8个有效位, 做个试验: 输出如下: 上面说明了什么: 1, 18/2.2 是除不尽的, 因为是define,所以没有给ratio变量赋值类型,但是从sizeof输出的结果是8,所以系统默 ...
Python 读取word中表格数据、读取word修改并保存、替换word中词汇、读取word中每段内容，读取一段话中相同样式内容，理解Document中run
from docx import Document path = r'D:\pywork\12' # word信息表所在文件夹 w = Document(path + '/' + 'word信息表.d ...

随机推荐

mysql 备份命令
mysqldump --socket=/home/work/mysql/var/mysql.sock -u用户名 -p密码 -P端口 -h10.28.4.64 feedback > feedba ...
MyBatis中使用#和$书写占位符有什么区别？
#将传入的数据都当成一个字符串,会对传入的数据自动加上引号:$将传入的数据直接显示生成在SQL中.注意:使用$占位符可能会导致SQL注射攻击,能用#的地方就不要使用$,写order by子句的时候应该 ...
文件数据缓存（key-Value）
为了解决大量数据缓存,消耗内存过多的问题,特别实现了文件缓存:该缓存主要是应用于多存少读的情况,一般我们做缓存是实现将数据放在内存中或者数据库中:放在内存中就会消耗很大内存,尤其在高并发大数据缓存时, ...
【Python】itchat
错误:http://bbs.51cto.com/thread-1501477-1.html 解决方法降低certifi版本 >>> import itchat >>> ...
深入理解Java虚拟机读书笔记4----虚拟机类加载机制
四虚拟机类加载机制 1 类加载机制 ---概念:虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型. -- ...
学会使用box-sizing布局
盒子模型关于CSS重要的一个概念就是CSS盒子模型.它控制着页面这些元素的高度和宽度.盒子模型多少会让人产生一些困惑,尤其当涉及到高度和宽度计算的时候.真正盒子的宽度(在页面呈现出来的宽度)和高度, ...
TypeError: Fetch argument 0 has invalid type <type 'int'>, must be a string or Tensor. (Can not convert a int into a Tensor or Operation.)
6月5日的時候,修改dilated_seg.py(使用tensorflow)出現了報錯: TypeError: Fetch argument 0 has invalid type <type ' ...
海外aws-ubuntu-16.04系统使用ansible安装tidb
本以为按照官方文档会比较顺利,没想到还是遇到了几个坑,毕竟pingcap不能考虑到所有问题环境: 1.ubuntu:16.04LTS 2.python:2.7 小坑:因为第一次使用ubuntu,没想 ...
anaconda安装Opencv报错：Could NOT find PythonLibs: Found unsuitable version "2.7.6",
机器上装了两个python,一个是默认的,一个是anaconda.安装opencv时就报错了: -- Found PythonInterp: /home/deeplp/anaconda2/bin/py ...
MySQL sql_mode 说明（及处理一起 sql_mode 引发的问题）(转)
1. MySQL莫名变成了 Strict SQL Mode 最近测试组那边反应数据库部分写入失败,app层提示是插入成功,但表里面里面没有产生数据,而两个写入操作的另外一个表有数据.因为 insert ...

python读取es中的所有数据并计算md5然后进行持久化

python读取es中的所有数据并计算md5然后进行持久化的更多相关文章

随机推荐

热门专题