每天一点linux命令:新建文件夹

aaarticlea/png;base64," alt="" />

一,使用python获得acfun的所有番剧的信息,评论,弹幕

  1. #! /usr/bin/env python
  2. # -*- coding=utf-8 -*-
  3. import re
  4. import requests
  5. import sys
  6. import json
  7. reload(sys)
  8. sys.setdefaultencoding("utf-8")
  9. num = 1
  10. head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'} #防陷阱
  11. def dm(ht):
  12. oldURL= 'http://danmu.aixifan.com/V2/' + ht + '?pageSize=500&pageNo=0'
  13. #print oldURL
  14. for i in range(1,5):
  15. newURL = re.sub('pageNo=\d+','pageNo=%d'%i,oldURL,re.S)
  16. print newURL
  17. html = requests.get(newURL,headers = head)
  18. type = sys.getfilesystemencoding()
  19. aa = json.loads(html.text)
  20. #print len(aa[1])
  21. try:
  22. for i in range(0,501):
  23. print aa[2][i]['m']
  24. except Exception,e:
  25. break
  26. def PL(ht):
  27. url = 'http://www.acfun.tv/comment/bangumi/web/list?bangumiId=' + ht #评论首地址,可获得评论数,评论的
  28. print url
  29. jscontent = requests.get(url,headers = head).content
  30. jsDict = json.loads(jscontent)
  31. pag = jsDict['data']['totalPage']
  32. print pag
  33. nurl = url + '&pageNo=1'
  34. for i in range(1,pag+1):
  35. ourl = re.sub('pageNo=\d+','pageNo=%d'%i,nurl,re.S)
  36. jscontent = requests.get(ourl,headers = head).content
  37. jsDict = json.loads(jscontent)
  38.  
  39. def geturl():
  40. ourl = 'http://www.acfun.tv/bangumi/bangumi/page?pageSize=42&isWeb=1&pageNo=1&sort=1'
  41. for i in range(1,8):
  42. nurl = re.sub('pageNo=\d+','pageNo=%d'%i,ourl,re.S)
  43. print nurl
  44. jscontent = requests.get(nurl,headers = head).content
  45. jsDict = json.loads(jscontent)
  46. for j in range(1,42):
  47. info( str(jsDict['data']['list'][j]['id']) )
  48. break
  49. break
  50. def info(ht):
  51. url = "http://www.acfun.tv/v/ab" + ht
  52. sc = "http://www.acfun.tv/bangumi/stow/isStowed?bangumiId=" + ht #收藏数
  53. pl = "http://www.acfun.tv/bangumi/count/bangumi_view.aspx?bangumiId="+ht #评论数
  54. html = requests.get(url)
  55. htpl = requests.get(pl)
  56. title = re.findall('h3 class="title">(.*?)</h3><span',html.text,re.S)[0]
  57. print '名称:' + title
  58. up = re.findall('</h3><span class="last">(.*?)</span>',html.text,re.S)[0]
  59. print '更新:'+ up
  60. pp = re.search('\[(.*?)\]',htpl.text,re.S).group(1)
  61. print '评论总数:' + pp
  62. jsconten = requests.get(sc,headers = head).content
  63. jsDict = json.loads(jsconten)
  64. print '收藏总数:' + str(jsDict['data']['stowCount'])
  65. jianjie = re.findall('pan class="desc">(.*?)</span>',html.text,re.S)[0]
  66. print '简介:' + jianjie
  67. page = re.findall('" data-count="(.*?)" data-index="',html.text,re.S)[0]
  68. page = int(page)
  69. nurl = url + '_1'
  70. for i in range(1,page+1):#有多少话 多少页
  71. nurl = re.sub('_\d+','_%d'%i,nurl,re.S)#每个话的地址
  72. print nurl
  73. print '第' + str(i) + '话弹幕:'
  74. html = requests.get(nurl)
  75. id = re.findall('data-vid="(.*?)" data-sid',html.text,re.S)[0]#获取每个话的弹幕,地址
  76. # dm(id)
  77. print '第' + str(i) + '话评论:'
  78. PL(ht)
  79. if __name__ == "__main__":
  80. geturl()

python(17) 获取acfun弹幕,评论和视频信息的更多相关文章

  1. Python中获取异常(try Exception)信息

    异常信息的获取对于程序的调试非常重要,可以有助于快速定位有错误程序语句的位置. 这里获取异常(Exception)信息采用try...except...程序结构.如下所示: try: ... exce ...

  2. python+tushare获取股票每日停复牌信息

    接口:suspend 更新时间:不定期 描述:获取股票每日停复牌信息 注:tushare模块下载和安装教程,请查阅我之前的文章 输入参数 名称      |      类型      |      必 ...

  3. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  4. Python+Tornado+Tampermonkey 获取某讯等主流视频网站的会员视频解析播放

    近期,<哪吒之魔童降世>在各大视频软件可以看了,然而却是一贯的套路,非会员谢绝观看!!!只能从国内那些五花八门的视频网站上找着看了,或者通过之前本人说的 Chrome 的油猴插件,传送门  ...

  5. python opencv3 获取摄像头视频

    git:https://github.com/linyi0604/Computer-Vision # coding:utf8 import cv2 """ 捕获摄像头10 ...

  6. Python爬取跑男的评论,看看大家都在看谁吧

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...

  7. 用Python和FFmpeg查找大码率的视频文件

    用Python和FFmpeg查找大码率的视频文件 本文使用Python2.7, 这个工作分两步 遍历目录下的视频文件 用ffprobe获取是视频文件的码率信息 用ffprobe 获取json格式的视频 ...

  8. python并发获取snmp信息及性能测试

    python & snmp 用python获取snmp信息有多个现成的库可以使用,其中比较常用的是netsnmp和pysnmp两个库.网上有较多的关于两个库的例子. 本文重点在于如何并发的获取 ...

  9. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

随机推荐

  1. phpwind8.7升级9.0.1过程(一)本地和服务器数据同步的部署

    在使用phpwind的过程中需要将整个网站论坛的模板从phpwind8.7升级到phpwind9.0.1 需要首先在本地搭建和服务器端一样的环境然后在本地尝试性升级之后,然后在服务器端进行升级. 以下 ...

  2. 黑马程序员——JAVA基础之基本数据类型包装类和1.5JDK新特性装箱

    ------- android培训.java培训.期待与您交流! ---------- 基本数据类型包装类: byte Byte short Short int Integer char Charac ...

  3. OSGi 的核心配置、动态化及问题

    一.OSGi的核心组件Bundle,与java中jar包的差别就是元数据配置:      常用的Bundle元数据定义:     a) Bundle-Activator:定义Activator的实现全 ...

  4. axure复用-自定义组件,母版(模板)

    组件(控件)是用于设计线框图的用户界面元素.在组件(控件)面板中包含有常用的控件库,如按钮.图片.文本框等.从组件面板中拖动一个控件到线框图区域中,就可以添加一个组件.组件可以从一个线框图中被拷贝(C ...

  5. MySQL 加锁处理分析 转

    MySQL 加锁处理分析  转 http://hedengcheng.com/?p=771 十二 13th, 2013 发表评论 | Trackback   1    背景    1 1.1    M ...

  6. 分布式服务框架:Zookeeper

    Zookeeper是一个高性能,分布式的,开源分布式应用协调服务.它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如同步,配置管理,集群管理,名空间.它被设计为易于编程,使用文件系统目 ...

  7. RMAN备份与恢复之DataBase

    1   准备 [oracle@TEST144239 /]$ sqlplus /nolog SQL Production :: Copyright (c) , , Oracle. All rights ...

  8. LINQ学习入门教程(一)

    LINQ 查询简介       Linq 是一跨各种数据源和数据格式的数据模型:它在查询是,始终是把它作为一种对象来操作,可以使用基本相同的编码模型查询和数据的转换XML,SQL,ADO数据等: Li ...

  9. HttpSessionBindingListener和HttpSessionAttributeListener区别 - gengkunpeng的专栏 - 博客频道 - CSDN.NET

    分享到 一键分享 QQ空间 新浪微博 百度云收藏 人人网 腾讯微博 百度相册 开心网 腾讯朋友 百度贴吧 豆瓣网 搜狐微博 百度新首页 QQ好友 和讯微博 更多... 百度分享 HttpSession ...

  10. Struts2 - Interceptor中取得ActionName、Namespace、Method

    在Struts2的Interceptor中取得当前执行对应的ActionName.Namespace.Method方法: 可以使用: System.out.println(invocation.get ...