一、标准列表

第一步还是去获取标准列表，通过高级搜索，输入空查询条件，则查询出全部的标准记录。

这时候可以看到，列表页的URL仍然是http://bz.cfsa.net.cn/db。

不同于“国家标准全文公开系统”，“食品安全国家标准数据检索平台”的请求多数是POST，即用户的多数操作是POST不同参数到http://bz.cfsa.net.cn/db，服务根据POST的参数返回相应的页面。

那么要获取标准列表，则要POST特定参数到http://bz.cfsa.net.cn/db。POST哪些参数？可以通过查看源码，分析JS代码了解到。

更简单、准确的方式是，通过浏览器（火狐、谷歌、IE都可）的Web调试工具查看其POST提交的参数，例如查询全部标准的POST数据如下：

二、标准详细信息

点击标准名称超链接，将打开标准详细信息页，页面URL为http://bz.cfsa.net.cn/staticPages/002D3B53-DE13-42C1-B099-C57EC501138A.html。

可见详细信息页通过GET请求获得，需要从列表页中解析到标准的GUID，然后GET相应的页面即可。解析GUID仍然使用正则表达式即可。

当然，该站点也可以通过POST请求获取到标准详细信息页，因为其源代码如下：

<a href="javascript:void(0);" onclick="goto('3B34B8D6-7164-4419-B308-6AF683E8B606','2')">食品安全国家标准 食品微生物学检验培养基和试剂的质量<font color='red'>要</font>求（GB 4789.28-2013）</a>

标准详细信息的抓取，仍然通过HTML解析组件进行解析。

三、标准文件下载

下载标准PDF文件，点击“下载”链接获取文件。查看其源代码如下：

onclick="load('588072C8-F771-4F66-9B33-3BA4AF7C4540');

可知下载PDF文件时，POST请求到该URL：http://bz.cfsa.net.cn/cfsa_aiguo。

文件的GUID值和标准的GUID值不同，但仍然可以从页面中使用正则表达式解析出来。

至此，该站点的标准可以抓取到，相比“国家标准全文公开系统”，该站点标准爬取时，只需要修改GET请求为POST请求即可。

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-font-kerning:1.0pt;}

C#爬虫系列（二）——食品安全国家标准数据检索平台的更多相关文章

爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
C#爬虫系列（一）——国家标准全文公开系统
网上有很多Python爬虫的帖子,不排除很多培训班借着AI的概念教Python,然后爬网页自然是其中的一个大章节,毕竟做算法分析没有大量的数据怎么成. C#相比Python可能笨重了些,但实现简单爬虫 ...
爬虫系列二(数据清洗--->正则表达式)
一正则常识模式描述 \w 匹配字母数字及下划线 \W 匹配非字母数字及下划线 \s 匹配任意空白字符,等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字,等价于 [0-9 ...
爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
爬虫系列(十二) selenium的基本使用
一.selenium 简介随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载对于爬取这些网站,一般有两种思路: 分析 Ajax 请 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...

随机推荐

LeetCode 605. Can Place Flowers （可以种花）
Suppose you have a long flowerbed in which some of the plots are planted and some are not. However, ...
LeetCode 40. Combination Sum II （组合的和之二）
Given a collection of candidate numbers (C) and a target number (T), find all unique combinations in ...
SpringMVC的流程分析（一）—— 整体流程概括
SpringMVC的整体概括之前也写过springmvc的流程分析,只是当时理解的还不透彻所以那篇文章就放弃了,现在比之前好了些,想着写下来分享下,也能增强记忆,也希望可以帮助到人,如果文章中有什么 ...
使用JS实现图片轮播滚动跑马灯效果
我的第一篇文章.哈哈.有点小鸡冻. 之前在百度搜索"图片轮播"."图片滚动",结果都是那种可以左右切换的.也是我们最常见的那种.可能是搜索关键字的问题吧. ...
开源纯C#工控网关+组态软件(五)从网关到人机界面
一. 引子之前都在讲网关,不少网友关注如何实现界面.想了解下位机变量变化,是怎样一步步触发人机界面动画的. 这个步步触发,实质上是变量组(Group)的批量数据变化(DataChange)事件, ...
C#设计模式之十二享元模式（Flyweight）【结构型】
一.引言今天我们要讲[结构型]设计模式的第六个模式,该模式是[享元模式],英文名称是:Flyweight Pattern.还是老套路,先从名字上来看看."享元"是不是可以这样 ...
counter 计数器
包含了两个属性和一个方法: 1. counter-reset 2. counter-increment 3. counter()/counters() counter-reset(主要作用就是给计 ...
【2】hadoop搭建准备软件
准备一:VMware虚拟工具: 链接:http://pan.baidu.com/s/1o7F4A6I 密码:w5ti 准备二:CentOS6.8虚拟机(64位):如果64位不允许安装,可能是电脑设置问 ...
巧用ecshop做淘宝客
一.第一步下载文件,可以在http://www.ecshop.com/下载ecshop各个版本的安装包,安装好ECSHOP,然后通过PTF工具下载2个文件到本地进行修改.这个2个文件分别是goods ...
集合>哈希表类Hashtable和SortedList排序列表类
集合>哈希表类Hashtable Hashtable一种键值对的集合 ,哈希表内部的排列是无序的,而且哈希表没有提供排序方法. 集合>哈希表类Hashtable>构造普通哈希表代码 ...

C#爬虫系列（二）——食品安全国家标准数据检索平台

一、标准列表

二、标准详细信息

三、标准文件下载

C#爬虫系列（二）——食品安全国家标准数据检索平台的更多相关文章

随机推荐

热门专题