Airbnb成立于2008年8月,总部位于加利福尼亚州旧金山市。Airbnb是一个值得信赖的社区型市场,在这里人们可以通过网站、手机或平板电脑发布、发掘和预订世界各地的独特房源,其业务已经覆盖190个国家的40000座城市。目前,Airbnb已经完成了7轮融资,共募集了23亿美元的资金,估值达250亿美元。Mike Curtis是Airbnb工程部门的副总裁。近日,The Platform编辑Timothy Prickett Morgan就Airbnb的架构要点对他进行了采访报道。

Airbnb自成立之初就部署在AWS上,Curtis认为:

这很重要,我们的工程师可以尽可能地专注于让我们与众不同的东西上,而不用运行一个庞大的基础设施。

目前,Airbnb已经使用了大约5000个AWS EC2实例,其中大约1500个实例用于部署其应用程序中面向Web的部分,其余的3500个实例用于各种分析和机器学习算法。而且,随着Airbnb的发展,相比于业务处理所需的计算能力,分析和机器学习的计算能力需求增长更快。这是因为,随着Airbnb的用户越来越多,其挑战不是找到一个可供出租的地方,而是找到一个合适的地方,并且让房主和房客都满意。按照Curtis的说法:

我们在工程上所做的一切工作都是为了在人与人之间创建良好的匹配关系。每个旅行者或房主的情况都不相同。人们都有不同的偏好,希望获得的旅行体验就有所不同。因此,我们在工程上所做的大量工作都是关于,如何为了真实世界的线下体验将合适的人匹配在一起。这是我们所做的一切工作的组成部分,其中包括机器学习、搜索排序、欺诈检测……

关键就是,根据房客和房主的偏好(个人资料及在Airbnb上的交易和搜索历史),使用搜索引擎和机器学习,找出最好的租房/出租选择。而且,选项不能太多,否则用户会很难决定。因此,Airbnb需要借助机器学习强化搜索,为用户(房客和房主)提供5到10个选项。这缩短了交易时间,降低了Airbnb系统的负载,而用户也更满意。

同许多公司一样,Airbnb开始时也使用了若干开源软件,但进行了大量的修改和扩展,以便创建一个机器学习强化的搜索引擎。其核心索引技术使用了Lucene,但只用了反向文本部分。而所有的排序和机器学习功能则是他们自己编写的。他们的第一个机器学习实验就将预订率提升了4%。Airbnb的动态定价也是由机器学习算法所支撑。据Curtis说,当房主按照Airbnb推荐的价格上下浮动不超过5%定价,其出租成功率提升了4倍。

为了使机器学习更容易嵌入应用程序,Airbnb创建了一个名为Aerosolve的工具(GitHub页面)。该工具有许多功能,但最重要的是让数据科学家可以了解机器学习算法(房屋推荐或定价建议)内部正在执行什么操作,然后运用直觉获得更好的结果。

驱动Airbnb站点和分析的核心数据平台是Hadoop,所有东西都存储在Hadoop分布式文件系统中。之前,他们使用Amazon Elastic MapReduce服务,并在AWS EC2计算实例上部署了自己的Hadoop,但去年,他们已经迁移到Cloudera的企业级Hadoop上。此外,Airbnb使用S3存储Web站点的图片和Hadoop集群的备份数据。

在HDFS文件之上,Airbnb使用由Facebook创建并开源的Hive和Presto创建了一个数据仓库。对于长时间运行的查询,他们使用MapReduce。Hive不支持子查询,使用MapReduce可以获得同子查询类似的结果。Curtis指出,Presto非常强大,它兼容SQL,使得数据查询非常容易,而且速度很快,虽然功能不如Hadoop MapReduce或Hive多,但在日常分析中非常有用。他们还创建了一个名为Airpal的工具(GitHub页面),用于设计SQL查询,并发送到数据仓库的Presto层。

Curtis告诉The Platform:

实际上,去年年底,我们做了一次很大的集群迁移,将所有的数据基础设施分成了两个单独的镜像集群:一个用于运行所有关键的业务任务……另一个用于即时查询……

这两个Hadoop集群使用Kafka保持同步。Airbnb创建有自己的工作流和ETL工具Airflow(GitHub页面)。该工具已经钩入HDFS、Hive、Presto、S3、MySQL和Postgres。此外,Airflow接收来自Airbnb站点的非结构化数据流,增加结构后转储到HDFS上的Hive表中。曾经很长一段时间,他们使用成百上千的CRON任务来做这项工作,那很容出问题。而Airflow提供了一种简洁、可编程的系统,使他们能够查看、编辑、监控和调试ETL系统。

为了管理AWS上的集群,他们使用Chef进行配置管理,并自己开发了很多工具。虽然Mesos集群控制器已经被前Twitter和Airbnb工程师商业化,但他们现在使用Mesos并不多, 因为他们觉得:

本质上讲,Mesos是一个抽象层。其设计初衷是让很多节点看起来像一个节点。我们发现,尤其是在Mesos上运行某些新东西时,这个抽象层实际上会隐藏一些东西,增加了我们调试的难度。

最后,Curtis指出,虽然他们无意运行自己的数据中心,但IT团队每隔六个月就会对计算和存储能力及成本进行分析,然后与创建并运营本地数据中心进行对比。他们发现,租用AWS的服务可以节省20%到30%的费用。而按Curtis的说法,实际节省的费用可能更多,而且,在数据中心投入过多的精力就无法专注于业务了。

《Airbnb架构要点分享》阅读笔记的更多相关文章

  1. 阅读《RobHess的SIFT源码分析:综述》笔记

    今天总算是机缘巧合的找到了照样一篇纲要性质的文章. 如是能早一些找到就好了.不过“在你认为为时已晚的时候,其实还为时未晚”倒是也能聊以自慰,不过不能经常这样迷惑自己,毕竟我需要开始跑了! 就照着这个大 ...

  2. RobHess的SIFT源码分析:imgfeatures.h和imgfeatures.c文件

    SIFT源码分析系列文章的索引在这里:RobHess的SIFT源码分析:综述 imgfeatures.h中有SIFT特征点结构struct feature的定义,除此之外还有一些特征点的导入导出以及特 ...

  3. RobHess的SIFT源码分析:综述

    最初的目的是想做全景图像拼接,一开始找了OpenCV中自带的全景拼接的样例,用的是Stitcher类,可以很方便的实现全景拼接,而且效果很好,但是不利于做深入研究. 使用OpenCV中自带的Stitc ...

  4. 阅读《RobHess的SIFT源码分析:综述》笔记2

    今天开始磕代码部分. part1: 1. sift特征提取. img1_Feat = cvCloneImage(img1);//复制图1,深拷贝,用来画特征点 img2_Feat = cvCloneI ...

  5. element-ui button组件 radio组件源码分析整理笔记(一)

    Button组件 button.vue <template> <button class="el-button" @click="handleClick ...

  6. element-ui 组件源码分析整理笔记目录

    element-ui button组件 radio组件源码分析整理笔记(一) element-ui switch组件源码分析整理笔记(二) element-ui inputNumber.Card .B ...

  7. element-ui Carousel 走马灯源码分析整理笔记(十一)

    Carousel 走马灯源码分析整理笔记,这篇写的不详细,后面有空补充 main.vue <template> <!--走马灯的最外层包裹div--> <div clas ...

  8. STL源码分析读书笔记--第二章--空间配置器(allocator)

    声明:侯捷先生的STL源码剖析第二章个人感觉讲得蛮乱的,而且跟第三章有关,建议看完第三章再看第二章,网上有人上传了一篇读书笔记,觉得这个读书笔记的内容和编排还不错,我的这篇总结基本就延续了该读书笔记的 ...

  9. element-ui MessageBox组件源码分析整理笔记(十二)

    MessageBox组件源码,有添加部分注释 main.vue <template> <transition name="msgbox-fade"> < ...

  10. element-ui switch组件源码分析整理笔记(二)

    源码如下: <template> <div class="el-switch" :class="{ 'is-disabled': switchDisab ...

随机推荐

  1. 【转载】手把手教你使用Git(简单,实用)

    手把手教你使用Git(简单,实用) 标签: git 2016年04月21日 20:51:45 1328人阅读 评论(0) 收藏 举报 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. ...

  2. Java基础 -3.3

    位运算 指的是可以直接进行二进制数据的计算处理,主要是:与(&).或(|).非(!).异或(^).反码(~).移位处理(>>.<<) 与运算 public class ...

  3. Python数据类型-8 集合set

    集合set set集合是一个无序不重复元素的集,基本功能包括关系测试和消除重复元素.集合使用大括号({})框定元素,并以逗号进行分隔.但是注意:如果要创建一个空集合,必须用 set() 而不是 {} ...

  4. JNDI Java 命名与目录接口

    jsp <% Context ctx = new InitialContext(); String jndiName = (String) ctx.lookup("java:comp/ ...

  5. CF1285D Dr. Evil Underscores

    挂个链接 Description: 给你 \(n\) 个数 \(a_1,a_2,--,a_n\) ,让你找出一个 \(x\) ,使 \(x\) 分别异或每一个数后得到的 \(n\) 个结果的最大值最小 ...

  6. IDEA导入项目后,导入artifacts 方法 以及 Spring的配置文件找不到的解决方法

    我们一般选择 open 项目,如果没有artifacts 的添加选项,我们就要选择 import 项目. 如果没有artifacts ,项目下面会有错误提示,点击错误提示Fix,设置里面导入artif ...

  7. 「NOI2015」软件包管理器

    题目描述 题面比较啰唆,我先把大体意思讲一下: 首先,有编号从\(0\)到\(N-1\)的\(N\)个节点,根节点一定是\(0\)号节点(无前驱) (我把下标都加上了一,转化为以\(1\)为起始下标的 ...

  8. Java程序挂掉的几种可能

    今天花了一整天在跟踪一个问题,每次感觉已经快找到原因的时候发现现象又变了,我觉得从中吸取的教训可以给大家分享一下. 为了重现这个现象,我写了一个简单的例子.在本例中,先初始化了一个map,然后用一个无 ...

  9. S7-300 与TP900 组态 棒图 量表 滚动条 滚动条设置的值通过IO输出域显示出来

    切换编程语言 注意 一定要 先选中 某一个组织块 例如 OB1 然后单击 菜单 编辑 切换编程语言 组态 300 PLC 的CPU 点击 SIMENSE LOGO 查看 循环 中断 OB35 可以 在 ...

  10. 使用input选择本地图片,并且实现预览功能

    1.使用input标签选择本地图片文件 用一个盒子来存放预览的图片 2.JS实现预览 首先添加一个input change事件,再用到 URL.createObjectURL() 方法 用来创建 UR ...