前言 Kettle 除了常规的数据处理之外,还可以模拟发送HTTP client/post ,REST client. 实验背景 这周二老师布置了一项实验: 建立一个转换,实现一个猫眼API热映电影的json,生成为xls文件. 猫眼的热门电影接口为: http://m.maoyan.com/#movie,从里面找到API接口:http://m.maoyan.com/ajax/movieOnInfoList.需要获取里面的:电影名.评分.主演.信息. 处理流程 我使用的是kettle的HTTP…
如何获取豆瓣电影 API Key 豆瓣 API Key 不能使用了 ! solutions & !== ? https://frodo.douban.com/api/v2/subject_collection/movie_showing/items?start=0&count=0?apiKey=054022eaeae0b00e0fc068c0c0a2102a ?apiKey=054022eaeae0b00e0fc068c0c0a2102a https://frodo.douban.com/…
猫眼电影top100 是数据是在加载网页时直接就已经加载了的,所以可以通过requests.get()方法去获取这个url的数据,能过对得到的数据进行分析从而获得top100的数据, 把获取的数据存入本地文件中. 代码如下: import requests import re import json from multiprocessing import Pool #引用异常处理机制,这个类是所有异常类的超类,所以能全捕捉 from requests.exceptions import Requ…
第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步 切换开发者模式为手机模式 切换模式后可以看到所有评论都显示出来了,我们可以直接抓包进行分析 第三步 点击查看全部讨论 开发者工具切换切换XHR,然后一直下滑查看评论 每条请求所对应的数据 http://m…
前面几天介绍的都是博客园的内容,今天我们切换一下,了解一下大家都感兴趣的信息,比如最近有啥电影是万众期待的? 猫眼电影是了解这些信息的好地方,在猫眼电影中有5个榜单,其中最受期待榜就是我们今天要爬取的对象.这个榜单的数据来源于猫眼电影库,按照之前30天的想看总数量从高到低排列,取前50名. 我们先看一下这个表单中包含什么内容: [插入图片,6猫眼榜单示例] 具体的信息有"排名,电影海报,电影名称,主演,上映时间"以及想看人数,今天我们主要关注前面5个信息的收集. 之前我们用正则表达式,…
使用 进程池Pool 提高爬取数据的速度. 1 # !/usr/bin/python 2 # -*- coding:utf-8 -*- 3 import requests 4 from requests.exceptions import RequestException 5 import re 6 import json 7 from multiprocessing import Pool,Lock 8 9 10 # 获取单页数据信息: 11 def get_one_page(url, hea…
public class MainActivity extends Activity implements OnClickListener{ private Button button; private EditText editText; private ImageView imageView; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); s…
效果图: 程序列表: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGFpX3FpbmdfeHVfa29uZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt=""> 启动程序,获取程序信息: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGFpX3FpbmdfeHVfa…
1.很多时候我们需要从数据库中获取指定表的所有列的相关属性,如 name,commens,datatype,datalength,pk等.下面就是制定的语句. select c.TABLE_NAME TABLE_CODE, t.comments TABLE_NAME, C.COLUMN_NAME COL_CODE, c2.comments COL_NAME, c.DATA_TYPE COL_TYPE, decode(c.NULLABLE,') NULLABLE, c.DATA_LENGTH, c…
--获取指定服务器上的所有数据库 SELECT Name FROM Master..SysDatabases ORDER BY Name --获取指定数据库下所有表 SELECT Name FROM JRE..SysObjects Where XType='U' ORDER BY Name --获取指定表的字段信息 SELECT a.name FiledName , b.name [Type] , a.isnullable , ISNULL(g.[value], '') AS FiledRema…