MogileFS 的介绍(MogileFS 系列1)[分布式文件系统]
MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器).
目前使用 MogileFS 的公司非常多,比如国外的一些公司,日本前几名的公司基本都在使用这个.
国内所知道的使用 MogileFS 的公司有图片托管网站 yupoo又拍, digg, 土豆, YOUKU, 豆瓣, 1 号店, 大众点评, 搜狗, 安居客等等网站. 基本很多网站容量,图片都超过 30T 以上。目前我自己都使用了 200T 以上了.
MogileFS 是 51.com 的存储设计的大师碧轩非常推荐的, 51 的集群文件系统也是基于这个原理实现的. 简单来讲 MogileFS 是基于 Google File System 第一个实作出来的, 论文发布没多久就出了这个.
官方的介绍网站:
http://www.danga.com/mogilefs/
Google Code 上的信息
http://code.google.com/p/mogilefs/
这个地址有很多值得读读的信息,还有那些用户在使用 MogileFS ,以级使用多大的量,详细内容见 http://code.google.com/p/mogilefs/wiki/Users.
普通文件存储的方法
- rsync
- NAS/SAN
- FTPd
- WebDAV
- NFS
MogileFS 特性就介绍,官方介绍
- 应用层 — 不需要特殊的核心组件
- 无单点失败 — MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败.(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器.
- 自动的文件复制 —
基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求.比如你有一个图片网站,你可
以设置原始的JPEG图片需要复制
至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数.用这种办
法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要. - “比RAID好多了”— 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问. MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的.
- 传输中立,无特殊协议 — MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下.
- 简单的命名空间 –文件通过一个给定的key来确定,是一个全局的命名空间.你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突.
- 不用共享任何东西 — MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘.
- 不需要RAID — 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了.
MogileFS 的结构图
在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker(Database) , Storage Nodes 和 Client 组成.有二个服务进程 MogileFSd 和 mogstored .
工作原理如图:
客户端.连接到一个域,然后在域中拿着文件的 key 来查文件的位置,然后通过查到集群中的位置来打开这个文件.
下面的部分的详细介绍
MogileFS 的三个大的部分
前面提到 Tracker(Database) , Storage Nodes 和 Client 组成,我们这先不讲
Client.因为Client实际上是一个 Perl 的模块,可以写程序调用该模块来操作 MogileFS
系统,对整个系统进行读写操作.另外,象 nginx 之类有相关的客户端模块.另外也有做成象文件系统一样采用 fuse
方式挂载看起来象一个本地文件系统.其它语言的客户端也非常多.
- Tracker(跟踪器 ,调度器)- (MogileFSd 进程-建议二个 tracker 实例)
这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器.MogileFSd 进程就是 trackers 进程程序,类似
MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication
,Deletion,Query,Reaper,Monitor 等等.这个是基于事件的( event-based )
父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed),
包括将请求负载平衡到多个"query workers"中,然后让 MogileFSd 的子进程去处理.
mogadm,mogtool 的所有操作都要跟 trackers 打交道,Client 的一些操作也需要定义好
trackers,因此最好同时运行多个 trackers 来做负载均衡.trackers 也可以只运行在一台机器
上,也可以跟其他程序运行在一起(不建议).
tracker 配置文件: /etc/mogilefs/mogilefsd.conf
- 数据库(MySQL)部分
如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它.你可以用
mogdbsetup 程序来初始化数据库.因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS
将处于不可用状态.因此最好是HA结构.
- 存储节点(Storage Nodes )-(mogstored 进程, Apache 和 Nginx 等 – 所有的存储数据的节点)
实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情.任何 WebDAV 服务器都可以, 不过推荐使用
mogstored . MogileFSd 可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测,
并且你自己选择的 HTTP 服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件.
典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后
mogstored 程序的启动将会使本机成为一个存储节点.当然还需要 mogadm 这个工具增加这台机器到 Cluster 中.
mogstored 的配置文件: /etc/mogilefs/mogstored.conf
MogileFS 的二个服务进程
这二个程序分别对应上面的部分
mogilefsd — MogileFS 的主守护进程:
就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制, 查询和主控制机器需要这个.
mogstored — MogileFS 存储守护进程
这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制. 每个存储数据的节点都是需要启动.
MogileFS 的其它
有几个小工具,主要就是 mogadm,mogtool 这两个工具了,用来在命令行下控制整个 MogileFS 系统以及查看状态等等.我后面会针对这个进行详细的讲解.
MogileFS 复制策略
在 MogileFS 中,默认的 MogileFS::ReplicationPolicy::MultipleHosts 会试着
put 文件到不同主机的硬盘中.如果只有一个主机和2个硬盘,很明现这个是不行的,但它还是会勉强的 put 到相同的主机.
如果你有三个硬盘,设置的最小的复制份数为 2,它会 put 2 个复本到不同的主机.如果你有 2 个主机 4 个硬盘设置的最小复制份数为 3,你会得到 3 个复本在不同的硬盘设备上,但是会有二份在同一个主机上.这认为是没问题的.
High-level 流程:
- 应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.
- tracker 做一些负载均衡(load balancing)处理,决定应该去哪儿,然后给应用程序一些可能用的位置。
- 应用程序写到其中的一个位置去 (如果写失败,他会重新尝试并写到另外一个位置去).
- 应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.
- tracker 将该名称和域命的名空间关联 (通过数据库来做的)
- tracker, 在后台, 开始复制文件,知道他满足该文件类别设定的复制规则
- 然后,应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件,
tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整
URLs地址列表. - 应用程序然后按顺序尝试这些URL地址. (tracker’持续监测主机和设备的状态,因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查,除非你不要他这么做..)
MogileFS 的介绍(MogileFS 系列1)[分布式文件系统]的更多相关文章
- Hadoop概念学习系列之分布式文件系统(三十)
===============> 数据量越来越多,在一个操作系统管辖的范围存下不了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就 ...
- 构建Mogilefs分布式文件系统(配置篇)
构建Mogilefs分布式文件系统: 当下互联网飞速发展,海量并发所产生的数据量以几何方式增长,随着信息链接方式日益多样化,数据存储的结构也发生了变化,在这样的压力下我们不得不重新审视大量数据的存储 ...
- Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介 随着实时计算的需求日益增多,分布式内存计算 ...
- 分布式文件系统之MogileFS工作原理及实现过程
MogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上.MogileFS由3个部分组成: 第1个部分:是server端,包 ...
- centos 6.5环境下分布式文件系统MogileFS工作原理及分布式部署实现过程
MogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上 MogileFS由3个部分组成: 第1个部分:是server端, ...
- 分布式文件系统 ~MogileFS~
一.分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持 ...
- 分布式存储之MogileFS分布式文件系统简单应用
一.分布式存储原理: 分布式存储系统,是将数据分散存储在多台独立的设备上.传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储 ...
- 分布式文件系统 Mogilefs 安装步骤
我这里的环境都是 RHEL 5 的环境. MySQL 数据库 和 tracker 都放到一台服务器上, 为 192.168.2.85 storage server两台, 分别为 192.168.2.9 ...
- 分布式文件系统之MogileFS的安装使用
一.简介 MogileFS是一个开源的分布式文件存储系统,由LiveJournal旗下的Danga Interactive公司开发:它主要由三部分组成,第一部分是server端,server端主要包括 ...
随机推荐
- java线程技术6_线程的挂起和唤醒[转]
转自:http://blog.chinaunix.net/uid-122937-id-215913.html 1. 线程的挂起和唤醒 挂起实际上是让线程进入“非可执行”状态下,在这个状态下C ...
- iOS开发获取本机手机号码
最近有个奇葩需求,用户登录返回手机号匹配本机号码相同才可以登录,吓得我虎躯一震,经了解,iOS7后不越狱实现不了 "For security reasons, iPhone OS restr ...
- UVA5874 Social Holidaying 二分匹配
二分匹配简单题,看懂题意,建图比较重要. #include<stdio.h> #include<string.h> #define maxn 1100 int map[maxn ...
- Lucene 4.7 --创建索引
Lucene的最新版本和以前的语法或者类名,类规定都相差甚远 0.准备工作: 1). Lucene官方API http://lucene.apache.org/core/4_7_0/index.htm ...
- The Honeynet ProjectThe Honeynet Project
catalogue . 蜜罐基本概念 . Kippo: SSH低交互蜜罐安装.使用 . Dionaea: 低交互式蜜罐框架部署 . Thug . Amun malware honeypots . Gl ...
- JDBC中prepareStatement 和Statement 的区别
package util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedSta ...
- Codeforces 650A Watchmen
传送门 time limit per test 3 seconds memory limit per test 256 megabytes input standard input output st ...
- LINUX下为ORACLE数据库设置大页--hugepage
在Linux中配置hugepage可以提高oracle的性能,减少oracle sga的页交换,类似于aix中的lagepage. 为什么 使用大页? LINUX内存的默认块大小是4K如果SGA为:1 ...
- DOM 元素 属性和方法
console.dir() namespaceURI: "http://www.w3.org/1999/xhtml" nextElementSibling: null nextSi ...
- zencart资源
http://www.zen-cart.cn/ http://www.ezencart.com/