核心能力归纳

负责:多平台信息的抓取,清洗和分析工作

要求:

  • 熟悉常用开源爬虫框架,如 scrapy / pyspider

  • 了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath
  • 熟悉常见的反爬虫技术,有一定的对抗能力
  • 分布式爬虫架构经验*

字节跳动 python爬虫工程师 22-40k

负责:

  • 设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作,实时监控爬虫的进度和警报反馈
  • 网页信息和APP数据抽取、清洗、消重等工作

要求:

  • 有扎实的算法和数据结构能力
  • 熟悉爬虫原理,熟悉常见的反爬虫技术
  • 掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术
  • 有大规模数据处理、数据挖掘、信息提取等经验者优先

小米 数据爬虫工程师 20-40k

负责:

  • 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
  • 负责网页搜索的页面内容提取,搜索领域下的滤重(simhash/minhash)、聚类、反垃圾、页面分析、标签、分类器(贝叶斯/Bayes/LR/SVM)、数据挖掘等工作,提升平台的抓取效率
  • 参与爬虫核心算法和策略优化,熟悉采集系统的调度策略
  • 实时监控爬虫的进度和警报反馈

要求:

  • 熟悉Linux系统,掌握Python等语言
  • 掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
  • 熟悉整个爬虫的设计及实现流程,有大规模网页信息抽取开发经验,熟悉各种反爬虫技术,有分布式爬虫架构经验
  • 有链接分析(pagerank、trustrank)、特征提取(页面质量、权威度、topic、线性/非线性回归、LDA)等能力优先

网易 爬虫工程师 12-24k

负责:

  • 负责设计和开发通用爬虫系统,提取分析各种千形万态的平台页面内容;
  • 研究各种网站、链接的形态,发现它们的特点和规律;
  • 解决技术疑难问题,包括反反爬、压力控制等,提升网页抓取的效率和质量;

要求:

  • 精通python、计算机网络,熟练使用多线程,熟悉Scrapy等常用爬虫框架;
  • 熟悉Linux操作、正则表达式,MySQL、MongoDB等常用数据库,了解各种Web前端技术;
  • 能够解决封账号、封IP、验证码识别、图像识别等问题;

扇贝 爬虫工程师 8-16k

负责:

  • 开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作

  • 负责网页信息和 App 数据抽取、消重等工作

  • 配合算法岗完成ETL 相关任务

要求:

  • 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术

  • 熟悉常用开源爬虫框架,如 scrapy / pyspider

  • 扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发

高级岗位

千里马-北京 爬虫leader 30-40k

要求:

  • 深度参与过至少一个‘分布式网络爬虫系统’的架构设计
  • 扎实的数据结构与算法功底,有迭代开发经验
  • 精通反爬对抗,Ajex网页抓取,浏览器模拟抓取、多平台抓取等技术
  • 熟悉分布式系统,多线程
  • 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验

爬虫工程师JD归纳的更多相关文章

  1. 一个Python爬虫工程师学习养成记

    大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...

  2. 高级爬虫工程师(Spider)-美团网-拉勾网-最专业的互联网招聘平台

    高级爬虫工程师(Spider)-美团网-拉勾网-最专业的互联网招聘平台 高级爬虫工程师(Spider)

  3. 专业的“python爬虫工程师”需要学习哪些知识?

    学到哪种程度 暂且把目标定位初级爬虫工程师,简单列一下吧: (必要部分) 熟悉多线程编程.网络编程.HTTP协议相关 开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到) 反爬相关,cookie. ...

  4. python爬虫工程师各个阶段需要掌握的技能和知识介绍

    本文主要介绍,想做一个python爬虫工程师,或者也可以说是,如何从零开始,从初级到高级,一步一步,需要掌握哪些知识和技能. 初级爬虫工程师: Web前端的知识:HTML, CSS, JavaScri ...

  5. 从零起步 系统入门Python爬虫工程师 ✌✌

    从零起步 系统入门Python爬虫工程师 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造, ...

  6. Python爬虫工程师必学——App数据抓取实战 ✌✌

    Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...

  7. 为什么每一个爬虫工程师都应该学习 Kafka

    这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色. 一个简单的需求 假设我们需要写一个微博爬虫,老板给的需求如下: 开发爬虫对你来说非常简 ...

  8. 从零起步 系统入门Python爬虫工程师✍✍✍

    从零起步 系统入门Python爬虫工程师 爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 原则上,只要是浏览器(客户端) ...

  9. Python爬虫工程师必学APP数据抓取实战✍✍✍

    Python爬虫工程师必学APP数据抓取实战  整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...

随机推荐

  1. 大数据处理框架之Strom:Flume+Kafka+Storm整合

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...

  2. Xshell 连接Linux服务器自动中断问题

    Xshell连接上Linux服务器后经常自动中断连接,报错如下图: 解决方法如下,进入/etc/ssh目录打开sshd_config文件,找到下图两个参数并设置下图所示的值: 重启sshd即可解决,如 ...

  3. 关于mysql中的count()函数

    1.count()函数是用来统计表中记录的一个函数,返回匹配条件的行数. 2.count()语法: (1)count(*)---包括所有列,返回表中的记录数,相当于统计表的行数,在统计结果的时候,不会 ...

  4. docker(四) 使用Dockerfile构建镜像

    下面以一个例子来演示构建镜像的过程. #在/tmp目录下演示 cd tmp mkdir build-redis-image 1.创建Dockerfile文件 vim Dockerfile 并写入如下内 ...

  5. Kafka--消息队列

    说明:解耦指的是客户端A和客户端B不需要同步,两者之间的通信是异步的:消息队列是可以复制备份的,因此消息队列具有冗余性和可恢复性:所谓拓展性指的是,在大型分布式系统中,消息队列是分布在集群中的:队列是 ...

  6. JS实现刷新页面后回到记录时滚动条的位置

    window.onbeforeunload = function () { var scrollPos; if (typeof window.pageYOffset != 'undefined') { ...

  7. Timer类的常见使用方法

    System.Timers名称空间中的Timer类的构造函数只需要一个时间间隔,经过该时间间隔后应该调用的方法用Elapsed事件指定,这个事件需要一个ElapsedEventHandler类型的委托 ...

  8. [硬件]超能课堂(181):我们为什么需要4+8pin CPU供电接口?

    超能课堂(181):我们为什么需要4+8pin CPU供电接口? https://www.expreview.com/68008.html 之前算过TDP 来计算机器的功耗 发现自己 理解的还是有偏差 ...

  9. [十二省联考2019]异或粽子——可持久化trie树+堆

    题目链接: [十二省联考2019]异或粽子 求前$k$大异或区间,可以发现$k$比较小,我们考虑找出每个区间. 为了快速得到一个区间的异或和,将原序列做前缀异或和. 对于每个点作为右端点时,我们维护出 ...

  10. 2.2 collection 模块

    2.2.1 定义命名元祖 2.2.2 定义双端队列 2.2.3 定义有序的字典 2.2.4 定义有默认值的字典