#coding=utf-8print 1#初始化文件crash_log.log with open('e:/1/crash_log.log','w')as f: f.close() def fw(self): print with open('e:/1/monkey_log.txt','r')as f1 , open('e:/1/crash_log.log','a+') as f2: #设置循环读取每一行,判断过滤 while True: line=f1.readline() if '// Mo…
自从这两天开始学爬虫,就一直想做个爬虫爬知乎.于是就开始动手了. 知乎用户动态采取的是动态加载的方式,也就是先加载一部分的动态,要一直滑道底才会加载另一部分的动态.要爬取全部的动态,就得先获取全部的url. 我先找到了第一条url: https://www.zhihu.com/api/v4/members/***************************/activities?limit=7&session_id=************************&after_id=*…
Windows下 使用如下的DOS命令来实现: dir /s /b > lists.txt 可以将当前路径下的所有文件的"文件路径+文件名"存储在lists.txt中. 其中,/s表示的是"列出完整路径"选项,如果命令行是如下形式: dir /b > lists.txt 那么,lists.txt文件中只会记录当前目录中所有文件的文件名信息. Ubuntu下 find <target_path> -name "<file_nam…
1.先导入相应的jar包 2.一个小的Demo测试[实体类+测试类:保存excel的方法] Student实体类 public class Student{ private int id; private String name; private String email; private Date birth; //相应的set.get方法 还有构造器(有参.无参的) ··············· } Test测试类 public class Test{ public static List…
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜,稍加修改也可适用于最受期待榜和北美票房榜 解决思路如下: 1.获取网页数据后,查找字体信息,获取到字体链接,下载字体保存到本地 2.使用fontTools读取字体中的字符集,并构造字典(依据基准字体) 3.根据字典,替换网页中的相关数据信息. 注意:如果使用BeautifulSoup一定要先使用字…
写法一: #!/bin/bash while read line do echo $line done < file(待读取的文件) 写法二: #!/bin/bash cat file(待读取的文件) | while read line do echo $line done 写法三: for line in `cat file(待读取的文件)` do echo $line done 说明:for逐行读和while逐行读是有区别的,如: $ cat file aaaa bbbb cccc dddd…
python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装BeautifulSoup4(pip install bs4) 此实验爬取了当当网中关于深度学习的书籍,内容包括书籍名称.作者.出版社.当前价钱.为方便,此实验只爬取搜索出来的一个页面的书籍.具体步骤如下: 1 打开当当网,搜索"深度学习",等待页面加载,获取当前网址 "http://…
参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 -*- from multiprocessing.pool import Pool import pandas as pd import requests from sqlalchemy import create_engine # 数据库相关信息 HOSTNAME = '127.0.0.1' P…
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): self.file = codecs.open('a.csv', 'w', encoding='utf_8_sig') def process_item(self, item, spider): fieldnames = ['title', 'img_url', 'download_http'] w…
代码下载:https://files.cnblogs.com/files/xiandedanteng/FindNotnullColumns20191102-2.rar 这篇还不够完善,请看更完善的续篇 https://www.cnblogs.com/xiandedanteng/p/11783796.html 本例主要使用的是JDBC提供的ResultSetMetaData类去取表的相关信息,文中只取了四种,其它信息大家可以查看这个类的方法而得知. JavaCode: package com.hy…