手把手视频：万能开源Hawk抓取动态网站

Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具（爬虫），无需编程，全部可视化。

自从上次发布Hawk 2.0过了小半年，可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便，沙漠君决定录播几段视频来帮助大家~

软件最新的下载地址(或点击原文)

https://github.com/ferventdesert/Hawk/releases

下面是视频内容，在腾讯视频可以开启高清，实测清晰度尚可，当然你也可以在百度云盘中下载以下全部视频。

http://pan.baidu.com/s/1dE5D40h

1. 使用Hawk抓取百度百家新闻

这是抓取百度百家新闻(http://baijia.baidu.com/)完整的例子，你可以了解到：

如何抓取动态页面和超级模式
如何获取网页正文信息
如何导出抓取的数据

内置的播放器无法调节清晰度。可在PC访问：

https://v.qq.com/x/page/a03878tihmx.html

2. Hawk答疑

这是一个综述，对大家感兴趣的话题答疑解惑，包括：

如何使用手气不错(相比1.0版本优化很多)
文档在哪里？
如何连接数据库
其他一些使用上的问题

可在PC访问：

https://v.qq.com/x/page/n0387axmgg5.html

3. 历史视频

这些视频都是针对1.0在2016年上半年录制的，由于网站改版，或增加了防爬虫（如链家），因此在使用上会有较大区别，仅供各位用户参考。

抓取链家(目前链家防爬虫非常严格，视频仅供参考)

http://v.qq.com/x/page/w0189607h92.html
大众点评（没想到播放量高达8.3W）

https://v.qq.com/x/page/z01891n1rgh.html
获取最近地铁站（Hawk的功能可不局限于爬虫）

https://v.qq.com/x/page/x01898xojwg.html

4. 如何下载工程案例

Hawk本身提供了一系列例子（虽然基本都是2016年上半年的），不少已经过期了。

有些朋友直接用“右键另存为”下载，这样保存的是html页面，有两种方法可以下载：

如果你会用git, 在shell里直接执行

git clone git@github.com:ferventdesert/Hawk-Projects.git
手动下载整个文件夹: 在首页上Download ZIP

4. 欢迎共同改进Hawk

为什么要重提再度改进Hawk呢？

高不成低不就：因为如果一件好用的工具分数是0.8的话，Hawk正好在0.74，因为一些其实很简单的问题，用户就卡在那里无从下手。
可用性/UI设计急需提高：特别需要懂产品/UI的朋友一起协助
软件依然有不少bugs
etlpy(Python版本的Hawk)开发虽完成，但有相当陡峭的学习曲线

万里长征走了9500里，却在最后的一段路上止步不前，给世人留下一个半吊子，终究是不好的。所以2017年一个重要的任务便是进一步完善它，走完剩下的500里。

因此，如果你对Hawk，爬虫或是软件设计感兴趣的话，可以考虑和沙漠君一起改进它。只要你有任何靠谱的建议，都可以告诉我，我会集中起来一起改进。也许你可能获得不了什么经济上的补偿（沙漠君也没有），但总比网络上各种野路子收费软件强很多。我们做了一件能帮助几十万甚至百万人的事情。

虽然工作非常忙，因此各种回复不及时，不过有任何问题依然可以给我发邮件：

buptzym@qq.com

最后祝使用Hawk愉快！