从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说内容保持到txt时出现乱码,第二url编码问题,第三UnicodeEncodeError 先贴源代码,后边再把思路还有遇到的问题详细说明. from requests_html import HTMLSession as hs def get_story(url): global f session
最近需要使用统计一个目录下的所有文件,使用python比较方便,就整理了一下代码. import os def gci(filepath): files = os.listdir(filepath) for fi in files: fi_d = os.path.join(filepath,fi) if os.path.isdir(fi_d): gci(fi_d) else: str = os.path.join(filepath,fi_d)+'\n' suffix = str[-5:] pri
#coding=utf-8print 1#初始化文件crash_log.log with open('e:/1/crash_log.log','w')as f: f.close() def fw(self): print with open('e:/1/monkey_log.txt','r')as f1 , open('e:/1/crash_log.log','a+') as f2: #设置循环读取每一行,判断过滤 while True: line=f1.readline() if '// Mo
背景:使用wkhtmltopdf工具将html转换成pdf时,这个工具在进行转换时会弹出命令行窗口显示转换过程,但是在项目运行时弹出服务器突然弹出控制台窗口会很奇怪,尤其是当转换多个时.解决这个问题 修改之前的代码 ProcessStartInfo startInfo = new ProcessStartInfo(wtHtmlToPdfEXEPath, Process process = Process.Start( process.WaitForExit(); 修改之后的代码 ProcessS