从12306网站新验证码看Web验证码设计与破解
2015年3月16日,铁路官方购票网站12306又出新招,在登录界面推出了全新的验证方式,用户在填写好登录名和密码之后,还要准确的选取图片验证码才能登陆成功。据悉,12306验证码改版后,目前所有抢票工具都已经无法登录。
多么惨绝人寰的消息,小编相信各大互联网公司都在潜心钻研新的抢票助手,来破解全新的验证码模式。
下面小编带大家看看各种验证码的设计原理及其破解方法。
首先是纯文本式验证码,是比较原始的一种。
这种验证码并不符合验证码的定义,因为只有自动生成的问题才能用做验证码,这种文字验证码都是从题库里选择出来的,数量有限。破解方式也很简单,多 刷新几次,建立题库和对应的答案,用正则从网页里抓取问题,寻找匹配的答案后破解。也有些用随机生成的数学公式,比如 随机数 [+-*/]随机运算符 随机数=?,小学生水平的程序员也可以搞定……
这种验证码也不是一无是处,对于很多见到表单就来一发的spam bot来说,实在没必要单独为了一个网站下那么大功夫。对于铁了心要在你的网站大量灌水的人,这种验证码和没有一样。
第二个是目前比较主流的图片验证码:
这类图片验证码的原理就是通过字符的粘连增加及其识别的难度,而上边这种一般用于不大的网站。
这类验证码处理方式:
图片预处理
怎么去掉背景干扰呢?可以注意到每个验证码数字或字母都是同一颜色,所以把验证码平均分成5份
计算每个区域的颜色分布,除了白色之外,颜色值最多的就是验证码的颜色,因此很容易将背景去掉
代码:
- 1.public static BufferedImage removeBackgroud(String picFile)
- 2. throws Exception {
- 3. BufferedImage img = ImageIO.read(new File(picFile));
- 4. img = img.getSubimage(1, 1, img.getWidth() - 2, img.getHeight() - 2);
- 5. int width = img.getWidth();
- 6. int height = img.getHeight();
- 7. double subWidth = (double) width / 5.0;
- 8. for (int i = 0; i < 5; i++) {
- 9. Map<Integer, Integer> map = new HashMap<Integer, Integer>();
- 10. for (int x = (int) (1 + i * subWidth); x < (i + 1) * subWidth
- 11. && x < width - 1; ++x) {
- 12. for (int y = 0; y < height; ++y) {
- 13. if (isWhite(img.getRGB(x, y)) == 1)
- 14. continue;
- 15. if (map.containsKey(img.getRGB(x, y))) {
- 16. map.put(img.getRGB(x, y), map.get(img.getRGB(x, y)) + 1);
- 17. } else {
- 18. map.put(img.getRGB(x, y), 1);
- 19. }
- 20. }
- 21. }
- 22. int max = 0;
- 23. int colorMax = 0;
- 24. for (Integer color : map.keySet()) {
- 25. if (max < map.get(color)) {
- 26. max = map.get(color);
- 27. colorMax = color;
- 28. }
- 29. }
- 30. for (int x = (int) (1 + i * subWidth); x < (i + 1) * subWidth
- 31. && x < width - 1; ++x) {
- 32. for (int y = 0; y < height; ++y) {
- 33. if (img.getRGB(x, y) != colorMax) {
- 34. img.setRGB(x, y, Color.WHITE.getRGB());
- 35. } else {
- 36. img.setRGB(x, y, Color.BLACK.getRGB());
- 37. }
- 38. }
- 39. }
- 40. }
- 41. return img;
得到与下图
接着是对图片进行纵向扫描进行切割。
再对每一部分横向扫描
然后进行训练
最后因为固定大小,识别跟 验证码识别--1 里面一样,像素比较就可以了。
源码:
- 1.public class ImagePreProcess2 {
- 2.
- 3. private static Map<BufferedImage, String> trainMap = null;
- 4. private static int index = 0;
- 5.
- 6. public static int isBlack(int colorInt) {
- 7. Color color = new Color(colorInt);
- 8. if (color.getRed() + color.getGreen() + color.getBlue() <= 100) {
- 9. return 1;
- 10. }
- 11. return 0;
- 12. }
- 13.
- 14. public static int isWhite(int colorInt) {
- 15. Color color = new Color(colorInt);
- 16. if (color.getRed() + color.getGreen() + color.getBlue() > 100) {
- 17. return 1;
- 18. }
- 19. return 0;
- 20. }
- 21.
- 22. public static BufferedImage removeBackgroud(String picFile)
- 23. throws Exception {
- 24. BufferedImage img = ImageIO.read(new File(picFile));
- 25. return img;
- 26. }
- 27.
- 28. public static BufferedImage removeBlank(BufferedImage img) throws Exception {
- 29. int width = img.getWidth();
- 30. int height = img.getHeight();
- 31. int start = 0;
- 32. int end = 0;
- 33. Label1: for (int y = 0; y < height; ++y) {
- 34. int count = 0;
- 35. for (int x = 0; x < width; ++x) {
- 36. if (isWhite(img.getRGB(x, y)) == 1) {
- 37. count++;
- 38. }
- 39. if (count >= 1) {
- 40. start = y;
- 41. break Label1;
- 42. }
- 43. }
- 44. }
- 45. Label2: for (int y = height - 1; y >= 0; --y) {
- 46. int count = 0;
- 47. for (int x = 0; x < width; ++x) {
- 48. if (isWhite(img.getRGB(x, y)) == 1) {
- 49. count++;
- 50. }
- 51. if (count >= 1) {
- 52. end = y;
- 53. break Label2;
- 54. }
- 55. }
- 56. }
- 57. return img.getSubimage(0, start, width, end - start + 1);
- 58. }
- 59.
- 60. public static List<BufferedImage> splitImage(BufferedImage img)
- 61. throws Exception {
- 62. List<BufferedImage> subImgs = new ArrayList<BufferedImage>();
- 63. int width = img.getWidth();
- 64. int height = img.getHeight();
- 65. List<Integer> weightlist = new ArrayList<Integer>();
- 66. for (int x = 0; x < width; ++x) {
- 67. int count = 0;
- 68. for (int y = 0; y < height; ++y) {
- 69. if (isWhite(img.getRGB(x, y)) == 1) {
- 70. count++;
- 71. }
- 72. }
- 73. weightlist.add(count);
- 74. }
- 75. for (int i = 0; i < weightlist.size();) {
- 76. int length = 0;
- 77. while (weightlist.get(i++) > 1) {
- 78. length++;
- 79. }
- 80. if (length > 12) {
- 81. subImgs.add(removeBlank(img.getSubimage(i - length - 1, 0,
- 82. length / 2, height)));
- 83. subImgs.add(removeBlank(img.getSubimage(i - length / 2 - 1, 0,
- 84. length / 2, height)));
- 85. } else if (length > 3) {
- 86. subImgs.add(removeBlank(img.getSubimage(i - length - 1, 0,
- 87. length, height)));
- 88. }
- 89. }
- 90. return subImgs;
- 91. }
- 92.
- 93. public static Map<BufferedImage, String> loadTrainData() throws Exception {
- 94. if (trainMap == null) {
- 95. Map<BufferedImage, String> map = new HashMap<BufferedImage, String>();
- 96. File dir = new File("train2");
- 97. File[] files = dir.listFiles();
- 98. for (File file : files) {
- 99. map.put(ImageIO.read(file), file.getName().charAt(0) + "");
- 100. }
- 101. trainMap = map;
- 102. }
- 103. return trainMap;
- 104. }
- 105.
- 106. public static String getSingleCharOcr(BufferedImage img,
- 107. Map<BufferedImage, String> map) {
- 108. String result = "";
- 109. int width = img.getWidth();
- 110. int height = img.getHeight();
- 111. int min = width * height;
- 112. for (BufferedImage bi : map.keySet()) {
- 113. int count = 0;
- 114. int widthmin = width < bi.getWidth() ? width : bi.getWidth();
- 115. int heightmin = height < bi.getHeight() ? height : bi.getHeight();
- 116. Label1: for (int x = 0; x < widthmin; ++x) {
- 117. for (int y = 0; y < heightmin; ++y) {
- 118. if (isWhite(img.getRGB(x, y)) != isWhite(bi.getRGB(x, y))) {
- 119. count++;
- 120. if (count >= min)
- 121. break Label1;
- 122. }
- 123. }
- 124. }
- 125. if (count < min) {
- 126. min = count;
- 127. result = map.get(bi);
- 128. }
- 129. }
- 130. return result;
- 131. }
- 132.
- 133. public static String getAllOcr(String file) throws Exception {
- 134. BufferedImage img = removeBackgroud(file);
- 135. List<BufferedImage> listImg = splitImage(img);
- 136. Map<BufferedImage, String> map = loadTrainData();
- 137. String result = "";
- 138. for (BufferedImage bi : listImg) {
- 139. result += getSingleCharOcr(bi, map);
- 140. }
- 141. ImageIO.write(img, "JPG", new File("result2//" + result + ".jpg"));
- 142. return result;
- 143. }
- 144.
- 145. public static void downloadImage() {
- 146. HttpClient httpClient = new HttpClient();
- 147. GetMethod getMethod = null;
- 148. for (int i = 0; i < 30; i++) {
- 149. getMethod = new GetMethod("http://www.pkland.net/img.php?key="
- 150. + (2000 + i));
- 151. try {
- 152. // 执行getMethod
- 153. int statusCode = httpClient.executeMethod(getMethod);
- 154. if (statusCode != HttpStatus.SC_OK) {
- 155. System.err.println("Method failed: "
- 156. + getMethod.getStatusLine());
- 157. }
- 158. // 读取内容
- 159. String picName = "img2//" + i + ".jpg";
- 160. InputStream inputStream = getMethod.getResponseBodyAsStream();
- 161. OutputStream outStream = new FileOutputStream(picName);
- 162. IOUtils.copy(inputStream, outStream);
- 163. outStream.close();
- 164. System.out.println(i + "OK!");
- 165. } catch (Exception e) {
- 166. e.printStackTrace();
- 167. } finally {
- 168. // 释放连接
- 169. getMethod.releaseConnection();
- 170. }
- 171. }
- 172. }
- 173.
- 174. public static void trainData() throws Exception {
- 175. File dir = new File("temp");
- 176. File[] files = dir.listFiles();
- 177. for (File file : files) {
- 178. BufferedImage img = removeBackgroud("temp//" + file.getName());
- 179. List<BufferedImage> listImg = splitImage(img);
- 180. if (listImg.size() == 4) {
- 181. for (int j = 0; j < listImg.size(); ++j) {
- 182. ImageIO.write(listImg.get(j), "JPG", new File("train2//"
- 183. + file.getName().charAt(j) + "-" + (index++)
- 184. + ".jpg"));
- 185. }
- 186. }
- 187. }
- 188. }
- 189.
- 190. /**
- 191. * @param args
- 192. * @throws Exception
- 193. */
- 194. public static void main(String[] args) throws Exception {
- 195. // downloadImage();
- 196. for (int i = 0; i < 30; ++i) {
- 197. String text = getAllOcr("img2//" + i + ".jpg");
- 198. System.out.println(i + ".jpg = " + text);
- 199. }
- 200. }
- 201.}
像BAT这种巨头的验证码通过干扰线、加粗不加粗混用、采用中文常用字(中文常用字大概有5000个,笔画繁复,形似字多,比起26个字母难度高很多)、不同的字体混用,比如楷体、宋体、幼圆混用、拼音,扭曲字体、需要准确识别13位汉字,大大增加了失败概率。
当然除了主流的图片验证码外,一些网站为了照顾视力不好的用户,采用语音验证码。一般这种验证码是机器生成一段读数字的语音。但是在这方面上很多程序员都偷懒了,预先找了10个数字的声音录音,然后生成的时候把他们随机拼到一起,结果就是这样:
设计原理如下:
整体效果
•字符数量一定范围内随机
•字体大小一定范围内随机
•波浪扭曲(角度方向一定范围内随机)
•防识别
•不要过度依赖防识别技术
•不要使用过多字符集-用户体验差
•防分割 •
重叠粘连比干扰线效果好
•备用计划
•同样强度完全不同的一套验证码
既然原理都已经知道了,那么如何破解就变得简单了。
但是问题来了,这次12306的验证码居然是图片,以上方式都不能使用,那么就不能破解了么?
有人认为12306的网站图片内存不会太大,完全可以扒下来,然后进行破解。当然这是纸上谈兵,有一种非常先进又非常原始的办法叫做“网络打码”或者“人肉打码”
一些技术大牛把验证码发送的自制的“打码”软件上,而一些“打码工”通过这个程序来输入机器自动注册,出来的验证码,传输到自动注册机器,完成验证。
目前来看这种简单粗暴的方法可以应对目前的情况。
结语:
12306这次可谓出了杀招,把所有抢票软件一刀砍死,黄牛们不开心我们就可以买到票了。既解决了黄牛问题又为广大程序员出了一道难题。
http://mobile.51cto.com/hot-468559.htm
从12306网站新验证码看Web验证码设计与破解的更多相关文章
- tornado web高级开发项目之抽屉官网的页面登陆验证、form验证、点赞、评论、文章分页处理、发送邮箱验证码、登陆验证码、注册、发布文章、上传图片
本博文将一步步带领你实现抽屉官网的各种功能:包括登陆.注册.发送邮箱验证码.登陆验证码.页面登陆验证.发布文章.上传图片.form验证.点赞.评论.文章分页处理以及基于tornado的后端和ajax的 ...
- java web 验证码-字符变形(推荐)
该文章转载自:http://www.cnblogs.com/jianlun/articles/5553452.html 因为在我做的这个系统中发现验证码有点偏上,整体效果看起来不太好,就做了一些修改. ...
- ucenter 验证码看不到的解决办法
ucenter 验证码看不到的解决办法,很简单,很实用,本人亲试成功~http://www.jinyuanbao.cn 把images /fonts /en 的ttf 刪除可以了!
- 假如我来架构12306网站---文章来自csdn(Jackxin Xu IT技术专栏)
(一)概论 序言: 此文的撰写始于国庆期间,当中由于工作过于繁忙而不断终止撰写,最近在设计另一个电商平台时再次萌发了完善此文并且发布此文的想法,期望自己的绵薄之力能够给予各位同行一些火花,共同推进国 ...
- java制作验证码(java验证码小程序)
手动制作java的验证码 Web应用验证码的组成: (1)输入框 (2)显示验证码的图片 验证码的制作流程: 生成验证码的容器使用 j2ee的servlet 生成图片需要的类: (1) Buffere ...
- Python 爬虫入门(四)—— 验证码上篇(主要讲述验证码验证流程,不含破解验证码)
本篇主要讲述验证码的验证流程,包括如何验证码的实现.如何获取验证码.识别验证码(这篇是人来识别,机器识别放在下篇).发送验证码.同样以一个例子来说明.目标网址 http://icp.alexa.cn/ ...
- PHP算式验证码和汉字验证码的实现方法
在PHP网站开发中,验证码可以有效地保护我们的表单不被恶意提交,但是如果不使用算式验证码或者汉字验证码,仅仅使用简单的字母或者数字验证码,这样的验证码方案真的安全吗? 大家知道简单数字或者字母验证码很 ...
- 关于大型网站技术演进的思考(十九)--网站静态化处理—web前端优化—上(11)
网站静态化处理这个系列马上就要结束了,今天我要讲讲本系列最后一个重要的主题web前端优化.在开始谈论本主题之前,我想问大家一个问题,网站静态化处理技术到底是应该归属于web服务端的技术范畴还是应该归属 ...
- 网站静态化处理—web前端优化—下【终篇】(13)
网站静态化处理—web前端优化—下[终篇](13) 本篇继续web前端优化的讨论,开始我先讲个我所知道的一个故事,有家大型的企业顺应时代发展的潮流开始投身于互联网行业了,它们为此专门设立了一个事业部, ...
随机推荐
- Mac下JAVA开发环境搭建
最近开始学习JAVA, 首先配置下环境! 1.Mac自带的jdk版本老了,需要到oracle官网去下载新的jdk,具体下载那个版本看个人需求,然后安装. 安装完成之后打开Terminal, 执行命 ...
- 一次完整的HTTP请求的大致过程(转)
说明:这些理论基本都来自网上,所以不一定准确,但一定是比较好理解的,如果要刨根问底,最好的方式就是看书,且要看权威的书. 一次完整的HTTP请求所经历的7个步骤 HTTP通信机制是在一次完整的HTTP ...
- python 数据分析 Matplotlib常用图表
Matplotlib绘图一般用于数据可视化 常用的图表有: 折线图 散点图/气泡图 条形图/柱状图 饼图 直方图 箱线图 热力图 需要学习的不只是如何绘图,更要知道什么样的数据用什么图表展示效果最好 ...
- FTP客户端工具
推荐使用8UFTP.小.快.好! 8UFTP工具分为8UFTP客户端工具和 8UFTP智能扩展服务端工具,涵盖其它FTP工具所有的功能.不占内存,体积小,多线程,支持在线解压缩.界面友好,操作简单,可 ...
- IIS_右键点击浏览网站没有反应
现象: 点击浏览不会打开浏览器,没有任何反应 解决方法: 将IE设为默认浏览器即可
- 解决kylin报错 ClassCastException org.apache.hadoop.hive.ql.exec.ConditionalTask cannot be cast to org.apache.hadoop.hive.ql.exec.mr.MapRedTask
方法:去掉参数SET hive.auto.convert.join=true; 从配置文件$KYLIN_HOME/conf/kylin_hive_conf.xml删掉 或 kylin-gui的cube ...
- sqlmap的二次开发
1.sqlmapapi的帮助信息. -s 启动sqlmap作为服务器 -h 指定sqlmap作为服务器的IP地址,默认127.0.0.1 -p 指定sqlmap服务器的端口,默认端口为8775 2.启 ...
- iOS:多线程同步加锁的简单介绍
多线程同步加锁主要方式有3种:NSLock(普通锁).NSCondition(状态锁).synchronized同步代码块 还有少用的NSRecursiveLock(递归锁).NSConditionL ...
- iconv的安装和使用
一.Linux下iconv的安装包的下载页面http://www.gnu.org/software/libiconv/ $ ./configure --prefix=/usr/local$ make$ ...
- Git系列一之安装管理
1.Git安装部署 Git是分布式的版本控制系统,我们只要有了一个原始Git版本仓库,就可以让其他主机克隆走这个原始版本仓库,从而使得一个Git版本仓库可以被同时分布到不同的主机之上,并且每台主机的版 ...