我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

2014 年 5 月初,被告人翁秀豪发现淘宝店铺源码存在漏洞,利用该漏洞可以在店铺源码中植入一个 url,执行该 url 指向的 javascript,以获取访问被植入 url 的淘宝店铺的所有淘宝用户的 cookie(淘宝用户登录时产生的一组认证信息,利用 cookie 可以执行对应帐号权限内的所有操作,无需帐号、密码),并利用其中的卖家 cookie 将 url 再次植入卖家淘宝店铺源码,实现自动循环,获取更多的淘宝用户 cookie。

被告人翁秀豪向被告人黄后荣报告该情况,经黄后荣的授意,以非法获取 cookie 数据为目的,编写了用于获取 cookie 的 javascript,存储在其租用的阿里云服务器中。自同年 5 月 15 日开始,通过上述方法非法获取淘宝用户 cookie 达 2600 万余组,并将获取的 cookie 存放在虚拟队列中。被告人黄后荣利用被告人翁秀豪事先编写的网络爬虫程序读取虚拟队列中的 cookie 并获取淘宝用户的交易订单数据(内容包含用户昵称、姓名、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等)达 1 亿余条

浙江淘宝网络有限公司技术人员王某称,浙江淘宝网络有限公司在例行检查中发现淘宝卖家订单详情页面被大批量访问,且均使用卖家登录时浏览器创建的用户 cookie 即登陆身份认证信息进行登陆,说明用户的 cookie 被人盗用,对卖家店铺的源代码进行分析后发现源代码里有一段获取用户 cookie 的 javascript 程序,获取的 cookie 数据会发送到一个域名为 log.tbstat.cn 的站点,该域名轮巡解析到 8 台阿里云服务器,之后通过反向连接将获取的 cookie 数据传输到阿里云内网一阿里云服务器,该阿里云服务器的外网 ip 地址是 112.124.59.209,服务器上有一域名为 tml.damaibao.cn、首页提供给“淘名录”客户端软件的站点,首页还注明该站点拥有 500 万细分行业买家数据和 5 亿买家实时在线交易数据,该阿里云服务器又通过反向连接将 cookie 数据传输到一台 ip 地址为 110.87.189.5、归属在福建省福州市的服务器中。

经查询,上述 9 台服务器均是被告人黄后荣注册的,被告人黄后荣另外还注册了两台阿里云服务器做“云派券”业务,以及通过订单详情页面可以知道交易双方的淘宝帐号、昵称、联系方式、交易创建时间、商品价格、数量、收货地址、收货人姓名和联系电话等,正常情况下需要使用淘宝账号和密码登陆后才能访问订单页面,使用用户 cookie 相当于绕开了账号和密码的验证过程,据统计,2014 年 5 月 21 日当天就有 330 万个 cookie 被获取。

供述情况

被告人黄后荣辩称:

  1. 其是为了回传客户(使用云派券软件、授权其公司操作店铺装修等权限)的 cookie,解决云派券断线问题才编写相应的程序;
  2. cookie 是用户登录淘宝时产生的临时认证信息,用户在浏览每一网站页面时即会产生浏览日志,同一 cookie 用户在浏览多个网站页面时会产生多个浏览日志,公诉机关指控的 2600 万余组是浏览日志数,而非获取的淘宝用户 cookie 数,上述 2600 万余组浏览日志中包含的用户 cookie 存在重复,且部分 cookie 在回传时已经失效;
  3. 其等人只使用了符合云派券业务需要的卖家 cookie,回传的买家 cookie 是过滤掉的,其他部分卖家 cookie 也未使用;
  4. 非法获取计算机信息系统数据罪的主观要素是直接故意,由被告人翁秀豪编写 js 程序的目的是获取有效的卖家 cookie,故应以获取的有效的卖家 cookie 数作为定案依据。

被告人翁秀豪辩称:

  1. 爬虫程序是被告人黄后荣编写的,系在老板黄后荣的指示下实施,虽不宜区分主从犯,但在量刑时应与被告人黄后荣有所区别;
  2. 犯罪动机是为了解决公司业务开展过程中的技术问题,并非扰乱淘宝网络的秩序、侵害淘宝用户的利益,且 cookie 具有时效性、权限的限制性,与一般的客户身份认证信息不同,没有造成淘宝公司或者淘宝用户的直接经济损失。

法院观点

被告人黄后荣、翁秀豪违反国家规定,侵入计算机信息系统,获取该计算机信息系统中存储、处理、传输的数据,情节特别严重,其行为均已构成非法获取计算机信息系统数据罪。被告人对通过 javascript 获取的全部 cookie 均具有概括的故意,且获取的均为有效的 cookie,之后 cookie 是否失效,是否被实际使用,指向的是否为同一淘宝用户等均不影响其非法获取计算机信息系统数据这一事实的认定,也不影响对二被告人的定罪量刑,上述辩解及辩护意见,均不予采纳。

本案被告人主要违反了以下法律法规:

  1. 《中华人民共和国刑法》第二百八十五条第二款:此条款规定了非法获取计算机信息系统数据、非法控制计算机信息系统功能、非法获取计算机数据、非法控制计算机信息系统等行为,情节严重的可处三年以下有期徒刑或拘役;
  2. 《中华人民共和国刑法》第二十五条第一款:该条款规定了单位犯罪的情形,单位犯罪的单位刑事责任由单位负刑事责任的主管人员承担;
  3. 《中华人民共和国刑法》第六十七条第三款:此款规定了数据、资料在计算机信息系统中破坏或者删除,情节严重的可处三年以下有期徒刑、拘役或者管制;
  4. 《中华人民共和国刑法》第五十二条:该条规定了非法利用信息网络罪,对非法为他人提供入侵、非法控制计算机信息系统工具的,情节严重的可处三年以下有期徒刑或拘役,并处罚金;
  5. 《中华人民共和国刑法》第五十三条:此条规定了非法侵入计算机信息系统罪,对非法侵入计算机信息系统的,情节严重的可处三年以下有期徒刑、拘役或者管制,并处罚金;
  6. 《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第一条第一款第(二)项、第二款第(一)项、第十一条:这些解释是为了指导在危害计算机信息系统安全的刑事案件中的适用法律。其中第一条第一款第(二)项是指在情节较轻的情况下,对被告人实施刑事拘留;第二款第(一)项是对涉及计算机病毒、木马等破坏性程序的行为,以刑事拘留或者逮捕对被告人实施限制自由;
  7. 《最高人民法院关于适用财产刑若干问题的规定》第一条、第二条第一款:这些规定主要是为了规范在刑事案件中适用财产刑的情形。财产刑是指对犯罪分子的财产进行处罚。第一条规定了在适用罚金时应当考虑犯罪分子的财产状况;第二条第一款规定了适用没收财产刑时应当依法进行财产评估。

判决情况

一、被告人黄后荣犯非法获取计算机信息系统数据罪,判处有期徒刑六年,并处罚金人民币六万元(刑期自判决执行之日起计算。判决执行前先行羁押的,羁押一日折抵刑期一日。即自 2014 年 5 月 28 日起至 2020 年 5 月 27 日止。罚金限判决生效后十日内缴纳);

二、被告人翁秀豪犯非法获取计算机信息系统数据罪,判处有期徒刑五年八个月,并处罚金人民币五万五千元(刑期自判决执行之日起计算。判决执行前先行羁押的,羁押一日折抵刑期一日。即自 2014 年 5 月 28 日起至 2020 年 1 月 27 日止。罚金限判决生效后十日内缴纳)。

判决文书

(2014)杭余刑初字第1231号

案例分析

cookie 的作用有很多,本案中提到的 cookie,主要作用为会话管理,也就是在用户与网站进行交互时跟踪会话,通过在用户访问网站时设置一个会话 cookie,网站可以在用户浏览网页时识别用户,并在整个会话期间保持登录状态。

举个例子,第一次进入某个网站时,会要求登录账号,首次登录之后,一段时间内,再次访问该网站,就不用再次登录了。而过段时间可能需要重新登录,这就是因为之前的 cookie 过了有效期,失效了。

cookie 也是有一些缺陷的,比如数据安全保障能力不足,存在被跨站点脚本攻击(XSS)的可能。

交易订单数据只有卖家能看到,本案被告人通过一定的方法(非爬虫技术)获取了大量的卖家登录态的 cookie,搭建 cookie 池,从而对买家的用户昵称、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等数据进行爬取,收货人姓名、收货人电话、收货地址这些都属于隐私数据,这些数据是正常用户无法看到的,这是违背爬虫原则的行为,侵害了公民的个人隐私信息,触犯了法律法规!

技术本身是无罪的,但谨记不要利用技术来实施可能违法犯罪的行为,法律的重锤降到头顶的那一刻再后悔就什么都晚了。即便是公司的需求,也要仔细权衡后再执行,不然一旦违法,不仅不会保你,还有可能成为上层脱罪的说辞(参考本案)。

近年来公民的个人隐私数据频繁泄露,所有人都该敲响警钟,网络安全的维护刻不容缓,望各位都能成为铸盾的斗士!

【K哥爬虫普法】淘宝一亿快递信息泄漏,有人正在盯着你的网购!的更多相关文章

  1. python:爬虫获取淘宝/天猫的商品信息

    [需求]输入关键字,如书包,可以搜索出对应商品的信息,包括:商品标题.商品链接.价格范围:且最终的商品信息需要符合:包邮.价格差不会超过某数值 #coding=utf-8 ""&q ...

  2. Python爬虫 获得淘宝商品评论

    自从写了第一个sina爬虫,便一发不可收拾.进入淘宝评论爬虫正题: 在做这个的时候,也没有深思到底爬取商品评论有什么用,后来,爬下来了数据.觉得这些数据可以用于帮助分析商品的评论,从而为用户选择商品提 ...

  3. Python 爬虫知识点 - 淘宝商品检索结果抓包分析(续一)

    通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksT ...

  4. Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片

    ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...

  5. Python 爬虫知识点 - 淘宝商品检索结果抓包分析

    一.抓包基础 在淘宝上搜索“Python机器学习”之后,试图抓取书名.作者.图片.价格.地址.出版社.书店等信息,查看源码发现html-body中没有这些信息,分析脚本发现,数据存储在了g_page_ ...

  6. Python 002- 爬虫爬取淘宝上耳机的信息

    参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 #-*- coding:utf-8 -*- import re i ...

  7. 新浪网易淘宝等IP地区信息查询开放API接口调用方法

    通过IP地址获取对应的地区信息通常有两种方法:1)自己写程序,解析IP对应的地区信息,需要数据库.2)根据第三方提供的API查询获取地区信息. 第一种方法,参见文本<通过纯真IP数据库获取IP地 ...

  8. 手动爬虫之淘宝笔记本栏(ptyhon3)

    1.这次爬虫用到了之前封装的Url_ProxyHelper类,源代码如下 import urllib.request as ur class Url_ProxyHelper: def __init__ ...

  9. 豪斯课堂K先生全套教程淘宝设计美工第一期+第四期教程(无水印)

    第一期课程包括 <配色如此简单> <配色的流程><对称之美>第二期课程包括 <字体的气质及组合><平衡及构图形式><信息的筛选与图片的 ...

  10. [PHP] 编写爬虫获取淘宝网上所有的商品分类以及关键属性 销售属性 非关键属性数据

    参考文章地址:https://blog.csdn.net/zhengzizhi/article/details/80716608 http://open.taobao.com/apitools/api ...

随机推荐

  1. 2023 年如何将您的应用提交到 App Store

    您夜以继日地工作来创建您的梦想应用程序.最后,是时候向全世界宣布您的应用程序了.但不知道如何将您的应用提交到 App Store? 为您的商店获取现成的移动应用程序 将应用程序提交到 App Stor ...

  2. 火山引擎 DataLeap 助你拥有 Notebook 交互式的开发体验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群   Notebook 是一种支持 REPL 模式的开发环境.所谓「REPL」,即「读取-求值-输出」循环:输入一段 ...

  3. Neo4j Neo.TransientError.General.MemoryPoolOutOfMemoryError

    The allocation of an extra 4.0 MiB would use more than the limit 2.0 GiB. Currently using 2.0 GiB. d ...

  4. vue3常用 Composition API

    1.拉开序幕的setup 理解:Vue3.0中一个新的配置项,值为一个函数. setup是所有Composition API(组合API)" 表演的舞台 ". 组件中所用到的:数据 ...

  5. 项目管理之问,ChatGPT作答

    项目管理 帮我列一份<项目管理>的大纲 当然可以!以下是一个典型的<项目管理>大纲: I. 项目管理概述 A. 项目管理定义和目标 B. 项目管理的重要性和价值 C. 项目管理 ...

  6. 每天学五分钟 Liunx 101 | 存储篇:LVM

    LVM LVM(Logical Volume Manager),逻辑卷管理器.一种高级文件系统管理方式,它可以动态扩展文件系统.   LVM 的示意图如下所示:

  7. Spring boot 自定义kafkaTemplate的bean实例进行生产消息和发送消息

    本文为博主原创,未经允许不得转载: 目录: 1.  自定义生产消息 kafkaTemplate 实例 2.  封装 kafka 发送消息的service 方法 3.  测试 kafka 发送消息ser ...

  8. SV 数据类型

    system verilog可以用于设计也可以进行验证 语法规则 SV新数据类型 SV数据类型 bit - 0-255 byte - -127 - 128 # 快速进行sv文件仿真 VCS -R -s ...

  9. 07-verilog & sytem verilog

    一.数据类型 二值逻辑变量 bit 不赋值的时候,变量初始默认为0 x或z的值会转变为0 bit vector--bit矢量 bit [msb,lsb] variable_name = [initia ...

  10. Oracle数据库同时建立和使用两个监听器

    1.问题 我分别对两个数据库实例(Lib和Orcl)各自建立了一个监听器,端口号分别为1520和1521,但是默认只启动一个,导致我切换数据库实例的时候, 出现以下问题:状态: 失败 -测试失败: I ...