python获取豆瓣日记】的更多相关文章

最近迷上了看了四个春天,迷上了饭叔的豆瓣日记,想全部抓取下来,简单了写了下面的脚本 import urllib.request import os from bs4 import BeautifulSoup def get_html(url): """通用方法,获取整个链接得html·""" web = urllib.request.urlopen(url) soup = BeautifulSoup(web, "html.parser&…
之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片. 今天我们在豆瓣上获取一些热门电影的信息. 页面分析 首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影,啥都不点了. [插入图片,豆瓣热门电影页面] 在选电影这个框中其实有很多标签的,这个其实可以在url设置,后面讲,现在就用热门好了. 下面每部电影罗列出来,包括电影封面,评分,电影名称等信息. 最下面是加载更多选项,其实看到这个加载更多,我就意识到这个页面肯定是用ajax技术实现的,就跟今日头条街拍…
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js等方法来获得cookie,放弃 versoin 2.0(附录):  使用selenium模拟浏览器登陆豆瓣,使用浏览器自动加载js,并成功获取cookies,可以为后来浏览使用,可行,成功! 一.目的分析 利用cookie登陆豆瓣,并写一篇日记 https://www.douban.com/note…
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.com/top250 确定爬取内容:视频链接,视频名称,导演/主演名称,视频评分,视频简介,评价人数等信息 打开网页,按F12键,可获取以下界面信息 观察可知,每一部视频的详细信息都存放在li标签中 每部视频的视频名称在 class属性值为title 的span标签里,视频名称有可能有多个(中英文):…
无聊写了个豆瓣日记的小爬虫,requests+bs4. cookies_src可填可不填,主要是为了爬取仅自己可见的日记. url填写的是日记页面,即https://www.douban.com/people/***/notes import requests import re from bs4 import BeautifulSoup # cookies cookies_src='' # 日记页面 url='' def parse_cookies(str): str_tmp=str.repl…
最近写了一个用python监控tomcat日记文件的功能 实现的功能: 监控日记文件中实时过来的记录,统计每分钟各个接口调用次数,统计结果插入oracle #!/usr/bin/python # -*- coding: UTF-8 -*- import time import os import signal import subprocess import re import cx_Oracle def monitorLog(logFile,oldDayTime): logUrl='10.0.…
一.Http协议 二.Https协议 三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求 四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movie.douban.com/j/search_tags?type=movie会得到显示的电影的分类标签,下面以“热门”为例 {"tags":["热门","最新","经典","可播放","豆瓣高分&quo…
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Linux系统内设置hostname很简单,如: $ hostname florian 如果要设置fqdn的话,需要对/etc/hosts进行配置. $ cat /etc/hosts 127.0.0.1 localhost 192.168.1.1 florian.test.com florian /et…
转载   原文:python 获取日期 作者:m4774411wang python 获取日期我们需要用到time模块,比如time.strftime方法 time.strftime('%Y-%m-%d',time.localtime(time.time())) 最后用time.strftime()方法,把刚才的一大串信息格式化成我们想要的东西,现在的结果是: 2013-03-31 time.strftime里面有很多参数,可以让你能够更随意的输出自己想要的东西: 下面是time.strftim…
python获取字母在字母表对应位置的几种方法及性能对比较 某些情况下要求我们查出字母在字母表中的顺序,A = 1,B = 2 , C = 3, 以此类推,比如这道题目 https://projecteuler.net/problem=42 其中一步解题步骤就是需要把字母换算成字母表中对应的顺序. 获取字母在字母表对应位置的方法,最容易想到的实现的是: 使用str.index 或者str.find方法: In [137]: "ABC".index('B') Out[137]: 1 In…
python获取文件大小 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- import os # 字节bytes转化kb\m\g def formatSize(bytes): try: bytes = float(bytes) kb = bytes / 1024 except: print("传入的字节格式不对") return "Error" if kb >= 1024: M = kb / 1024 if M &g…
python 获取一个列表有多少连续列表 例如 有列表 [1,2,3] 那么连续列表就是 [1,2],[2,3],[1,2,3] 程序实现如下: 运行结果:…
python获取当前时间的前一天,前一周,前一个月. 实用python的datetime.timedelta方法,避免了有的月份是30和31等不同的情况. 获取前一个月的时间,方法实现:首先datetime.datetime.now获取当前时间,然后通过datetime.timedelta获取上一个月最后一天的datetime对象dayto,最后用dayto的数据初始化这个月的第一个天和最后一天的datetime对象. import datetime d = datetime.datetime.…
Python获取指定路径下的子目录和文件有两种方法: os.listdir(dir)和os.walk(dir),前者列出dir目录下的所有直接子目录和文件的名称(均不包含完整路径),如 >>> os.listdir(r'E:')['$RECYCLE.BIN', 'Download', 'test.txt', 'data', 'MyDownloads', 'System Volume Information', 'VSPath', 'Youku Files']>>> 后者…
/*********************************************************************** * Python 获取 网卡 MAC 地址 * 说明: * 记录一下Python如何获取网卡MAC地址,主要用于数据唯一性保存. * * 2016-10-15 深圳 南山平山村 曾剑锋 **********************************************************************/ 一.参考文档: pyth…
python 获取 mac 地址 的例子,有需要的朋友可以参考下. #!/bin/python import os import re def GetMac():     if os.name == 'nt':         try:             ret = ''             CmdLine = 'ipconfig /all'             r = os.popen(CmdLine).read()             if r:              …
其实最好的办法是写个单独的脚本去查找IP,但是如果实在不愿意单写一个脚本文件,也可以直接将代码嵌入.bashrc中 在~/.bashrc下加入下面这行代码即可使用python获取本机的wlan的IP地址并导出到MY_IP变量中 export MY_IP=$(python -c "import re;e = re.search(r'wlan\d+ Link encap\:Ethernet HWaddr \w{2}\:\w{2}\:\w{2}\:\w{2}\:\w{2}\:\w{2} inet ad…
Python获取mac 获取计算机名字和ip(内网ip) 指定网卡ip…
在python中获取ip地址和在php中有很大不同,在php中往往比较简单.那再python中怎么做呢? 我们先来看一下python 获得本机MAC地址: 1 2 3 4 import uuid def get_mac_address():      mac=uuid.UUID(int = uuid.getnode()).hex[-12:]      return ":".join([mac[e:e+2] for e in range(0,11,2)]) 下面再来看一下python获取…
今天我们来看一下如何用python获取网络时间和本地时间,直接上代码吧,代码中都有注释. python获取网络时间 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 获取网络时间  def getBeijinTime():      """   获取北京时间      """      try:          conn = httplib…
Python 获取时间通过 time 模块 如下代码,是通过获取当前的时间,按照格式输出 Python默认获取当前的时间返回的都是时间的元组,下面是元组的,字符串时间的一个转换输出 # -*- coding:utf-8 -*- import time #Python 获取时间戳 #Python 默认获取的时间是一个具有时间的元组,asctime() 是接受时间元祖,返回一个时间字符串 TimeTuple=time.localtime(time.time()) #获取当前的时间返回一个时间元组 p…
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Linux系统内设置hostname很简单,如: $ hostname florian 如果要设置fqdn的话,需要对/etc/hosts进行配置. $ cat /etc/hosts 127.0.0.1 localhost 192.168.1.1 florian.test.com florian /et…
一.shell获取脚本当前路径 cur_dir=$(cd "$(dirname "$0")"; pwd)  #获取当前脚本的绝对路径,参数$0是当前脚本对象 等同于cd `dirname $0`; pwd 但是,cd "dirname $0";pwd是错的,因为dirname不能用双引号 代码实例: echo $(cd `dirname$0`;pwd) TEST=`cd $(dirname $0);pwd` echo $TEST 输出: /roo…
python语言中的datetime模块可以利用其中的方法获取不同的日期,比如获取当前日期.明天.昨天.上个月.下个月和明年.下面利用几个实例说明这些日期的获取方法,操作如下:     第一步,利用datetime模块获取当前日期datetime.date.today();如下图所示:     第二步,获取当前日期前一天日期,利用当前日期减去一天,如下图所示:     第三步,获取当前日期后一天日期,利用当前日期加上一天,如下图所示:     第四步,获取当前日期下一个月日期,利用当前日期加上3…
python获取set-cookies #!/usr/bin/python3.4 # -*- coding: utf-8 -*- import requests url = "https://www.baidu.com/" session = requests.session() session.get(url) html_set_cookie = requests.utils.dict_from_cookiejar(session.cookies) print(html_set_co…
通过python获取当前mac地址的方法如下:(1)通用方法,借助uuid模块def get_mac_address(): import uuid      node = uuid.getnode()      mac = uuid.UUID(int = node).hex[-12:] return mac (2)按照操作系统平台来def get_mac_address():    '''    @summary: return the MAC address of the computer  …
python获取当前执行命令的路径: #!/usr/bin/env python # -*# coding: utf-8 -*- import os print os.getcwd() python获取当前文件所在的路径: #!/usr/bin/env python # -*# coding: utf-8 -*- import sys print sys.path[0] 假设我有一个文件为 /usr/test.py, test.py 里面的内容是: #!/usr/bin/env python #…
豆瓣日记的编辑器一直以来都只支持纯文本的,因此无法将原先在LibreOffice中写的带有简单格式的文章导出.由于我在豆瓣主要写一些随笔性的内容,所以它们在LibreOffice中排版时也并未用到什么复杂的格式,充其量就是粗体.斜体.加亮等字符样式,以及章节标题.多级有序和无序列表的段落样式.接下来,我的想法就是先将LibreOffice中选中的文章导出成MediaWiki的markup格式,然后再写一个脚本程序对这个纯文本文件过滤处理一下,变成适合在豆瓣日记编辑器中粘贴的样式即可.该脚本程序最…
参考 Get parent class name? Python 获取类对象的父类 给定一个类的对象a,要求获取该对象的父类. 方法: a.__class__.__bases__ 返回由该对象的父类组成的元组,例如: >>> class Base(object): ... pass ... >>> class Derived(Base): ... def print_base(self): ... for base in self.__class__.__bases__…
用 Python 获取 B 站播放历史记录 最近 B 站出了一个年度报告,统计用户一年当中在 B 站上观看视频的总时长和总个数.过去一年我居然在 B 站上看了2600+个视频,总计251个小时,居然花了这么多时间,吓得我差点把 Bilibili App 卸载了...   然而我又很好奇,到底我在 B 站上都看了些什么类型小姐姐的视频,用几行 Python 代码实现了一下. 获取请求 Api 接口与 Cookie 实现起来非常容易,获取 cookie 模拟请求即可 使用 chrome 浏览器 登陆…