_io.TextIOWrapper

'''

SELECT * FROM Info_Roles WHERE Flag=1 LIMIT 2;

 select   top   y   *   from   表   where   主键   not   in(select   top   (x-1)*y   主键   from   表)

  如果表中无主键,可以用临时表,加标识字段解决.这里的x,y可以用变量.

  select   id=identity(int,1,1),*     into   #tb   from   表

  select   *   from   #tb   where   id   between   (x-1)*y   and   x*y-1

 select   top   1000   Info_ID   from   Info_Roles

 select   top   2000   Info_ID,',xiaole20180410SPLIT,',content   from   Info_Content   where   Info_ID   not   in( select   top   1000   Info_ID   from   Info_Roles   )   ;

 select   top   399   Info_ID,',xiaole20180410SPLIT,',UPPER(content)   from   Info_Content      ;

 select   top   399   CHARINDEX('IMG',UPPER(content))   from   Info_Content      ;

 select   top   15   Info_ID,',xiaole20180410SPLIT,',content   from   Info_Content   where  CHARINDEX('IMG',UPPER(content))>0;

 select   top   15   Info_ID,',xiaole20180410SPLIT,',content   from   Info_Content   where

 Info_ID      in( select   top   1000   Info_ID   from   Info_Roles   )  and

  CHARINDEX('IMG',UPPER(content))>0

 ;

SELECT

	TOP 15 Info_ID,

	',xiaole20180410SPLIT,',

	content

FROM

	Info_Content

WHERE

	Info_ID IN (

		SELECT

			TOP 1000 Info_ID

		FROM

			Info_Roles

		WHERE

			Flag = 1

	)

AND CHARINDEX('IMG', UPPER(content)) > 0;

SELECT

	TOP 200 Info_ID,

	',xiaole20180410SPLIT,',

	content

FROM

	Info_Content

WHERE

	Info_ID IN (

		SELECT

			TOP 90000 Info_ID

		FROM

			Info_Roles

	)

AND CHARINDEX('<IMG', UPPER(content)) > 0;

'''

from bs4 import BeautifulSoup

from selenium import webdriver

xlsplit_str = ',xiaole20180410SPLIT,'

xlsplit_str = ',xiaole20180410SPLIT,'

f_db_txt, uid_d = 'db.uid.para.txt', {}

f_db_txt, uid_d = 'db.uid.para.byhand.txt', {}

uid_ = 0

# uid = '{}{}'.format('byhand', uid_)

# uid_d[uid]={}

with open(f_db_txt, 'r', encoding='utf-8') as fr:

    for i in fr:

        i = i.replace('\t', '').replace('\n', '')

        if xlsplit_str in i:

            l = i.split(xlsplit_str)

            #   uid = l[0].replace(' ', '')

            #  uid = l[0].replace(' ', '')

            uid_ += 1

            uid = '{}{}'.format('byhand', uid_)

            uid_d[uid] = {}

            # uid_d[uid]['html'] = []

            # uid_d[uid]['html'].append(l[1])

            uid_d[uid]['html'] = l[1]

        else:

            #  uid_d[uid]['html'].append(i)

            uid_d[uid]['html'] = '{}{}'.format(uid_d[uid]['html'], i)

r_d = {}

'''

中文分句

'''

cutlist = ['。', '；', '？', '.', ';', '?', '...', '、、、', '：', ':', '，', ',']

# 检查某字符是否分句标志符号的函数；如果是，返回True，否则返回False

def FindToken(cutlist, char):

    if char in cutlist:

        return True

    else:

        return False

# 进行分句的核心函数

def Cut(cutlist, lines):  # 参数1：引用分句标志符；参数2：被分句的文本，为一行中文字符

    l = []  # 句子列表，用于存储单个分句成功后的整句内容，为函数的返回值

    line = []  # 临时列表，用于存储捕获到分句标志符之前的每个字符，一旦发现分句符号后，就会将其内容全部赋给l，然后就会被清空

    for i in lines:  # 对函数参数2中的每一字符逐个进行检查 （本函数中，如果将if和else对换一下位置，会更好懂）

        if FindToken(cutlist, i):  # 如果当前字符是分句符号

            line.append(i)  # 将此字符放入临时列表中

            l.append(''.join(line))  # 并把当前临时列表的内容加入到句子列表中

            line = []  # 将符号列表清空，以便下次分句使用

        else:  # 如果当前字符不是分句符号，则将该字符直接放入临时列表中

            line.append(i)

    return l

'''

'''

def paragraph_to_sentence(paragraph, sentence_l):

    paragraph = paragraph.replace(' ', '')

    sentence_split_l = ['\n', '\t', '。', '；', '？', '.', ';', '?', '...', '、、、', '，', ',']

    for i in sentence_split_l:

        ll = paragraph.split(i)

        sentence_l.append(ll[0])

        if len(ll) > 1:

            paragraph_to_sentence(ll[1], sentence_l)

        else:

            break

    return sentence_l

def paragraph_to_sentence_no_recursion(paragraph, sentence_l):

    paragraph = paragraph.replace(' ', '')

    sentence_split_l = ['\n', '\t', '。', '；', '？', '.', ';', '?', '...', '、、、', '，', ',']

    for i in sentence_split_l:

        ll = paragraph.split(i)

        sentence_l.append(ll[0])

        if len(ll) > 1:

            paragraph_to_sentence(ll[1], sentence_l)

        else:

            break

    return sentence_l

paragraph = ''

sentence_l = []

paragraph = paragraph.replace(' ', '')

sentence_split_l = ['\n', '\t', '。', '；', '？', '.', ';', '?', '...', '、、、', '，', ',']

for i in sentence_split_l:

    ll = paragraph.split(i)

    sentence_l.append(ll[0])

    if len(ll) > 1:

        paragraph_to_sentence(ll[1], sentence_l)

    else:

        break

def sentence_l_to_sentence_l_l(sentence_l):

    sentence_l_l = []

    sentence_split_l = ['\n', '\t', '。', '；', '？', '.', ';', '?', '...', '、、、', '，', ',']

    for i in sentence_l:

        for ii in sentence_split_l:

            ll = i.split(ii)

            if len(ll) > 1:

                sentence_l_l += ll

            else:

                sentence_l_l.append(i)

                continue

    return sentence_l_l

import requests, time, threading

img_dir = 'C:\\Users\\sas\\PycharmProjects\\py_win_to_unix\\crontab_chk_url\\personas\\trunk\\plugins\\spider\\dl_img_tmp\\'

img_dir = 'C:\\Users\\sas\\PycharmProjects\\produce_video\\mypng\\'

import random

import os, time, glob

os_sep = os.sep

this_file_abspath = os.path.abspath(__file__)

this_file_dirname, this_file_name = os.path.dirname(this_file_abspath), os.path.abspath(__file__).split(os_sep)[

    -1]

fw_f = '{}{}'.format(this_file_name, '.txt')

fw_f_onerow = '{}{}'.format(fw_f.replace( '.txt',''), '.txt')

with open(fw_f, 'w', encoding='utf-8') as fw_txt:

    with open(fw_f_onerow, 'w', encoding='utf-8') as fw_txt_onerow:

        for uid in uid_d:

            str_ = uid_d[uid]['html']

            fhtml = 'qqzong.vedio.allinone.tmp.html'

            fhtml = '{}{}{}{}'.format('D:\\myv\\myhtml\\', int(time.time()), random.randint(1234, 6789), fhtml)

            with open(fhtml, 'w', encoding='utf-8') as fw:

                fw.write(str_)

            with open(fhtml, 'r', encoding='utf-8') as fo:

                soup = BeautifulSoup(fo, 'html.parser')

                sentence_l = Cut(list(cutlist), list(soup.text))

            # 过滤句子单条长度 条数

            sen_num = 32

            sen_pass = False

            if len(sentence_l) < sen_num:

                sen_pass = True

                continue

            for sen in sentence_l:

                if len(sen) > 64:

                    sen_pass = True

                    break

            if sen_pass:

                continue

            s = '{}{}{}'.format('-----------------------', uid, '----------------------------------------\n')

            fw_txt.write(s)

            fw_txt_onerow(s)

            n = 0

            for sen in sentence_l:

                s = '{}{}'.format(sen, '\n')

                print(s)

                fw_txt.write(s)

                n += 1

                if n == 31:

                    break

            # 联系方式：王经理13212312312

            fw_txt_onerow(''.join(sentence_l[0:31]))

            s = '{}{}{}'.format('联系方式：王经理', random.randint(13200000000, 15812341234), '\n')

            fw_txt.write(s)

            fw_txt_onerow(s)

dd = 9

_io.TextIOWrapper的更多相关文章

TypeError: '_io.TextIOWrapper' object does not support item assignment
纯小白遇到的细节问题: 报错一开始看到这个傻逼了 TypeError: '_io.TextIOWrapper' object does not support item assignment 其实 ...
在使用HTMLTestRunner时，报告为空，错误提示<_io.TextIOWrapper name='<stderr>' mode='w' encoding='utf_8'>
<_io.TextIOWrapper name='<stderr>' mode='w' encoding='utf_8'> Time Elapsed: 0:00:21.3163 ...
python-open文件处理
python内置函数open()用于打开文件和创建文件对象语法 open(name[,mode[,bufsize]]) name:文件名 mode:指定文件的打开模式 r:只读 w:写入 a:附加 ...
python基础-面向对象进阶
一.什么是反射反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问.检测和修改它本身状态或行为的一种能力(自省).这一概念的提出很快引发了计算机科学领域关于应用反射性的研究.它首先被 ...
python读取文件的方法
一. 通过readline 逐行读取: #--encoding:utf-8 with open("ha.conf","r",encoding='utf-8') ...
python基础-文件操作
一.文件操作打开文件时,需要指定文件路径和以何等方式打开文件,打开后,即可获取该文件句柄,日后通过此文件句柄对该文件操作. 打开文件的模式有: r ,只读模式[默认模式,文件必须存在,不存在则抛出异 ...
python基础-迭代器和生成器
一.递归和迭代 1.递归:(问路示例) 递归算法是一种直接或者间接地调用自身算法的过程.在计算机编写程序中,递归算法对解决一大类问题是十分有效的,它往往使算法的描述简洁而且易于理解. 2.迭代:简单理 ...
python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'的解决方法: 1.原因是官网的是python2语法写的,看官手动把官 ...
Python之路【第十九章】：Django进阶
Django路由规则 1.基于正则的URL 在templates目录下创建index.html.detail.html文件 <!DOCTYPE html> <html lang=&q ...

随机推荐

常用Linux命令（长期更新）
有些命令如果不常用,老是记不住,每每用到总还要去查,特此将一些命令记录在此: (0)按指定时间删除文件 find target_dir -type f -mtime +3 -exec rm {} \; ...
java内存组成
java内存组成介绍:堆(Heap)和非堆(Non-heap)内存按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配.堆是在 Java 虚拟机启动 ...
CAD使用SetxDataDouble写数据（网页版）
主要用到函数说明: MxDrawEntity::SetxDataDouble 写一个Double扩展数据,详细说明如下: 参数说明 [in] BSTR val 字符串值 szAppName 扩展数据 ...
jquery 实现点评标签类似淘宝大众点评的快速准时货品完好等
111 <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <tit ...
当点阵字库遇到3D
早在遥远的DOS时代,点阵汉字库为计算机处理汉字起到了关键作用.当时的显示器在图形模式下的分辨率只有640x480甚至320x200,显示汉字直接使用点阵字库在屏幕上打点就可以了.如今的电脑屏幕甚至手 ...
洛谷——P1168 中位数
P1168 中位数题目描述给出一个长度为NN的非负整数序列$A_i$,对于所有1 ≤ k ≤ (N + 1),输出$A_1, A_3, …, A_{2k - 1}A1,A3,…,A2k−1 ...
linux常用操作记录
vim:多行注释 vim中多行注释和多行删除命令,这些命令也是经常用到的一些小技巧,可以大大提高工作效率. 多行注释: 1. 首先按esc进入命令行模式下,按下Ctrl + v,进入列(也叫区 ...
LINUX-文件系统分析
badblocks -v /dev/hda1 检查磁盘hda1上的坏磁块 fsck /dev/hda1 修复/检查hda1磁盘上linux文件系统的完整性 fsck.ext2 /dev/hda1 修 ...
PAT 1079. 延迟的回文数
PAT 1079. 延迟的回文数给定一个 k+1 位的正整数 N,写成 ak...a1a0 的形式,其中对所有 i 有 0 <= ai < 10 且 ak > 0.N 被称为一个回 ...
如何创建新用户和授予MySQL中的权限
原创官网http://www.howtoing.com/how-to-create-a-new-user-and-grant-permissions-in-mysql/ 关于MySQL MySQL是一 ...

_io.TextIOWrapper

_io.TextIOWrapper的更多相关文章

随机推荐

热门专题