抓取epsg.io的内容
简述
epsg.io是一个查询EPSG坐标系相关信息的好网站,内容很全。有各种格式的定义可以直接下载,也有坐标系的范围名称等相关信息,所以想抓取这些信息下来,方便对接各个系统。
epsg.io
本身是开源的,代码在https://github.com/klokantech/epsg.io上,但是这个我分析出数据来源,应该是在epsg.io/gml/gml.sqlite
文件中,但是我打开这个文件发现没有相关的记录。
抓取说明
抓取的时候使用的是proj4
项目里的nad/epsg
文件中的记录作为索引,找到对应的epsg
代码去拼成对应url
去下载。
下面是代码,用的是libcurl
进行的相关操作。日志记录简单的用了一下glog
,可以去掉,去掉之后就是纯C的代码了。
抓取的结果直接写在程序目录下的epsg.io
目录下,请先创建好这个目录。
保存的html
文件的解析,可以参考HTML解析库Gumbo简单使用记录
抓取好的文件可以在这里epsg.io.7z下载,解压压缩之后会有三百多兆,共5754个文件。
分析后提取的内容,生成了一个超大的JSON文件,可以再这里epsg.io.json.7z下载。
我把抓取的内容处理成json后,又将其导入了MongoDB
数据库。
这里将数据备份后上传在这里https://files.cnblogs.com/files/oloroso/epsg.io.mongodb.7z,这个数据可以直接使用mongorestore
工具恢复到数据库。
导入MongoDB的数据中,wgs84_bound
字段名改为84box
,proj_bound
字段改为projbox
,中心点坐标经过处理,不会有null
出现。
代码
// g++ epsg.spider.cpp -o epsg.spider -lcurl -lglog -lpthread
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <curl/curl.h>
#include <glog/logging.h>
int downpage(int epsgcode)
{
int ret = 0;
char url[1024];
sprintf(url,"./epsg.io/%d.html",epsgcode);
FILE* fp = fopen(url,"wb");
if(fp == NULL){
fprintf(stderr,"\n创建输出文件失败i\n");
ret = -1;
return ret;
}
sprintf(url,"http://epsg.io/%d",epsgcode);
CURL *hnd = curl_easy_init();
curl_easy_setopt(hnd, CURLOPT_CUSTOMREQUEST, "GET");
curl_easy_setopt(hnd, CURLOPT_URL, url);
curl_easy_setopt(hnd, CURLOPT_COOKIEFILE, "./epsg.spider.cookie");
//curl_easy_setopt(hnd, CURLOPT_COOKIE, cookie_buffer);
curl_easy_setopt(hnd, CURLOPT_WRITEDATA, fp);
CURLcode res = (CURLcode)curl_easy_perform(hnd);
if(res != CURLE_OK) {
fprintf(stderr,"\n%s curl_easy_perform failed:%s\n",url,curl_easy_strerror(res));
ret = -2;
}
fclose(fp);
curl_easy_cleanup(hnd);
return ret;
}
int main(int c,char** v)
{
// 打开epsg文件
FILE* fp = fopen("epsg","r");
if(fp == NULL){
puts("open epsg fiaild");
return 0;
}
google::InitGoogleLogging(v[0]);
FLAGS_log_dir = ".";
/*
* 这个函数只能用一次,如果这个函数在curl_easy_init函数调用时还没调用,
* 它讲由libcurl库自动调用,所以多线程下最好在主线程中调用一次该函数以防止在线程
* 中curl_easy_init时多次调用
*/
curl_global_init(CURL_GLOBAL_ALL);
char s[4096];
puts("开始下载:");
while(!feof(fp) && limit > 0){
int epsgcode = 0;
static char name[1024];
static char proj[1024];
fgets(s,sizeof s,fp);
if(s[0] == '#' ){
sscanf(s,"# %[^\n]s",name);
}
sscanf(s,"<%d> %[^\n<]s",&epsgcode,proj);
if(epsgcode == 0){
continue;
}
char path[128];
sprintf(path,"./epsg.io/%d.html",epsgcode);
struct stat st;
if(stat(path,&st) == 0) {
if(st.st_size > 1024){
// printf("%5d %s exsits\n",epsgcode,path);
continue;
}
}
printf("\r正在下载:http://epsg.io/%d ",epsgcode);
LOG(INFO) << "begin download http://epsg.io/"<<epsgcode;
if( downpage(epsgcode) != 0){
break;
}
LOG(INFO) << "finish download http://epsg.io/"<<epsgcode;
}
//在结束libcurl使用的时候,用来对curl_global_init做的工作清理。类似于close的函数
curl_global_cleanup();
fclose(fp);
return 0;
}
抓取epsg.io的内容的更多相关文章
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
- C#抓取AJAX页面的内容
原文 C#抓取AJAX页面的内容 现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面 ...
- php抓取网页中的内容
以下就是几种常用的用php抓取网页中的内容的方法.1.file_get_contentsPHP代码代码如下:>>>>>>>>>>>&g ...
- Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错 内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
- 【新手向】使用nodejs抓取百度贴吧内容
参考教程:https://github.com/alsotang/node-lessons 1~5节 1. 通过superagent抓取页面内容 superagent .get('http://www ...
- 还没被玩坏的robobrowser(4)——从页面上抓取感兴趣的内容
背景 本节的知识实际上是属于Beautiful Soup的内容. robobrowser支持Beautiful Soup,一般来说通过下面3个方法获取页面上感兴趣的内容 find find_all s ...
- python3抓取淘宝评论内容
好久没有写爬虫了,今天研究了下淘宝商品评论的内容. 一开始用最简单的方法,挂代理,加请求头,对网页请求,是抓不到数据的,在网上找了一些相关文章,也基本已经过时了,就是网站逻辑有改动,用旧的方法是抓不到 ...
- 用C#抓取AJAX页面的内容
现在的网页有相当一部分是采用了AJAX技术,不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执行的! 但我们用IE浏览页面时是正常的 ...
- sax 动态切换 抓取感兴趣的内容(把element当做documnet 处理)
由switch 类触发事件 import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.hel ...
随机推荐
- HTML5布局
完整示例 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF- ...
- Redis的优势和特点
Redis的特点: 内存数据库,速度快,也支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用. Redis不仅仅支持简单的key-value类型的数据,同时还提供list ...
- hihocoder 1343 : Stable Members【拓扑排序】
hihocoder #1343:题目 解释:一个学习小组,一共有N个学员,一个主管.每个学员都有自己的导师(一个或者多个),导师可以是其他学员也可以是主管.每周学员都要把自己的学习报告和收到的报告提交 ...
- -webkit-line-clamp超出省略
以前只用过超出一行显示省略号 有时候会碰到只显示两到三行,超出省略 -webkit-line-clamp属性就能解决这个问题 text-overflow: -o-ellipsis-lastline; ...
- asp.net core 微信扫码支付(扫码支付,H5支付,公众号支付,app支付)之1
2018-08-13更新生成二维码的方法 在做微信支付前,首先要了解你需要什么方式的微信支付,目前本人做过的支付包含扫码支付.H5支付.公众号支付.App支付等,本人使用的是asp.net mvc c ...
- 2015 Benelux Algorithm Programming Contest E-Excellent Engineers
题目大意:有n个人,每个人都有三个物品,排名分别为a[ i ],b[ i ],b[ i ],现在要删掉其中的一些人 如果一个人x的三个物品的排名为a[ x ],b[ x ],b[ x ],若存在另一个 ...
- Ancient Printer
为找规律题 结果为 节点数*2-最长字段+字段个数 结点不能设置为0 与判断条件相冲突 #include<bits/stdc++.h> using namespace std; ...
- 洛谷 P1433 吃奶酪【DFS】+剪枝
题目链接:https://www.luogu.org/problemnew/show/P1433 题目描述 房间里放着n块奶酪.一只小老鼠要把它们都吃掉,问至少要跑多少距离?老鼠一开始在(0,0)点处 ...
- 移动端Tap与滑屏实战技巧总结以及Vue混合开发自定义指令
最近在忙混合开发,因交互相对复杂,所以也踩了很多坑.在此做一下总结. 1.tap事件的实际应用 在使用tap事件时,老生常谈的肯定是点透问题,大多情况下,在有滑屏交互的页面时,我们会在根节点阻止默认行 ...
- asp.net core for vs code
1,命令 2,模板 3,更换启动浏览器 4,vscode使用nuget 5,使用ef migration 6,配置.net core的工作目录 7,使用dotnet ef migrations命令 8 ...