Windows Azure HDInsight 现已正式发布!
今天,我们宣布正式发布
Windows Azure HDInsight 服务。HDInsight 是 Microsoft 提供的基于 Hadoop 的服务,为云提供 100% 的 Apache Hadoop 解决方案。
HDInsight 具有以下优势:
· 通过熟悉的工具洞察:通过与 Microsoft BI 工具(如 PowerPivot、Power View)进行深度集成,HDInsight 使您可以利用 Hadoop 轻松找到洞察数据信息。实现 HDInsight 等多个源的数据与 Power Query 的无缝结合。在 Excel 2013 中,使用全新的 3D 地图工具 Power Map 轻松将您的数据显示在地图上。
· 灵活性:HDInsight 可提供灵活性,以满足组织不断变化的需求。丰富的 Powershell 脚本将 Hadoop 群集的部署和配置时间由数小时甚至数天减少到几分钟。如果您需要更大的群集,仅需删除您的群集并创建一个更大的群集即可,这一过程只需几分钟时间,而且不会丢失任何数据。
· 企业级 Hadoop:HDInsight 具有企业级的安全性和可管理性。得益于专用 Secure Node,HDInsight 有助于更好地保护您的 Hadoop 群集。此外,我们还通过 PowerShell 脚本的扩展支持简化了 Hadoop 群集的管理。
· 丰富的开发人员体验:HDInsight 提供强大的编程功能及多个语言选项,包括 .NET、Java 以及其他语言。.NET 开发人员可将 LINQ 的语言集成查询的全部功能运用到 Hive 中。
HDInsight 入门
通过单击新建按钮并从 Data Services 菜单中选择 HDInsight,可从 Windows Azure 管理门户创建 HDInsight 群集。要创建 HDInsight 群集,请指定群集名称、群集大小(即数据节点数)和登录密码。
群集必须至少具有一个与其关联的存储帐户,以作为群集的永久存储机制,并且创建群集的区域始终与选择的存储帐户相同。正式发布时,存储帐户必须位于美国西部、美国东部或北欧才能与 HDInsight 群集相关联。可通过自定义创建选项将其他存储帐户与群集关联起来。

部署和配置群集将需要几分钟时间,准备就绪后您将看到一个开始屏幕,其中提供有关其他帮助内容的链接以及使用 HDInsight 运行第一个 Hadoop 作业的一些示例代码。
如果您在群集的 HDInsight 页上选择仪表板选项卡,您将看到以下屏幕,屏幕上提供了有关群集当前状态的一些基本信息,包括使用的内核数、作业历史记录以及链接到的存储帐户。

提交第一个 Map Reduce 作业
在提交第一个作业之前,必须先准备好开发环境以使用 HDInsight PowerShell cmdlet。PowerShell cmdlet 需要安装和配置以下两个主要组件:Windows Azure Powershell 和 HDInsight PowerShell 工具。按照开始屏幕步骤 1 中的链接设置您的环境。
开始页面上的屏幕显示了用于提交 Hive 或 MapReduce 作业的命令示例。现在,我们首先提交 MapReduce 作业。
使用这些命令来运行示例,以创建作业定义。作业定义包含有关作业的所有信息,例如要使用的映射程序和化简程序、用作输入的数据以及存储输出的位置。在此示例中,我们将使用群集中包含的示例 MapReduce 程序和示例文件。我们将在示例目录中创建一个输出目录来存储结果。
$jarFile= "/example/jars/hadoop-examples.jar"
$className= "wordcount"
$statusDirectory= "/samples/wordcount/status"
$outputDirectory= "/samples/wordcount/output"
$inputDirectory= "/example/data/gutenberg"
$wordCount= New-AzureHDInsightMapReduceJobDefinition -JarFile $jarFile -ClassName
$className-Arguments $inputDirectory, $outputDirectory -StatusFolder$statusDirectory
运行这些命令以获取订阅信息并开始执行 MapReduce 程序。MapReduce 作业通常要运行较长时间,因此示例中显示了如何使用异步命令开始执行作业。
$subscriptionId= (Get-AzureSubscription -Current).SubscriptionId
$wordCountJob= $wordCount | Start-AzureHDInsightJob -Cluster HadoopIsAwesome -
Subscription$subscriptionId | Wait-AzureHDInsightJob -Subscription $subscriptionId
最后,运行此命令以检索执行结果并在 PowerShell 命令行中显示这些结果。
Get-AzureHDInsightJobOutput-Subscription (Get-AzureSubscription -Current).SubscriptionId -
Clusterbc-newhdstorage -JobId $wordCountJob.JobId –StandardError
MapReduce 作业的结果是有关作业执行的信息,如下所示。

作业输出位于存储帐户的“/samples/wordcount/output”目录中。在 Windows Azure 门户中打开存储查看器并导航到该文件,以下载并查看输出文件。

提交第一个 Hive 作业
开始页面上的屏幕显示了用于连接到您的群集并提交 Hive 作业的命令示例。单击 Job type 部分的 Hive 按钮查看示例。

现在通过在 PowerShell 中执行以下命令来运行此示例,以连接到您的群集。
Use-AzureHDInsightClusterHadoopIsAwesome (Get-AzureSubscription -Current).SubscriptionID
接下来运行以下命令,将 HiveQL 语句提交到群集。该语句使用创建时在群集上默认设置的示例 Hive 表。
Invoke-Hive"select country, state, count(*) as records from hivesampletable group bycountry, state order by records desc limit 5"
该查询是一个相当简单的 select-groupby 操作,完成后将在 PowerShell 命令行中显示结果。

了解更多
在本博客中,我们向您展示了启动和运行 HDInsight 群集并对数据进行分析有多么简单。您还可以进一步了解有关 HDInsight 的其他信息,如上传自己的数据集、运行复杂的作业以及对结果进行分析。
有关使用 HDInsight 的更多详细信息,请访问 HDInsight 文档页或使用以下链接直接访问帮助文章。
· 使用 Power Query 将 Excel 连接到 Windows Azure HDInsight
有关定价的详细信息,请访问 HDInsight 定价详细信息页。
本文翻译自:
Windows Azure HDInsight 现已正式发布!的更多相关文章
- Windows Azure HDInsight 使用技巧
Windows Azure HDInsight是一个面向大数据的PaaS服务,是PaaS版本的Hadoop.HDInsight是微软与Hortonworks合作的产物.可以理解为Hortonworks ...
- Windows Azure HDInsight 支持预览版 Hadoop 2.2 群集
Windows Azure HDInsight 支持预览版 Hadoop 2.2 群集 继去年 10 月推出 Windows Azure HDInsight 之后,我们宣布 Windows Az ...
- 介绍Windows Azure HDInsight服务的Hadoop Storm的视频
介绍Windows Azure HDInsight服务的Hadoop Storm的原理,用例及开发入门的视频,收藏一下: http://channel9.msdn.com/Shows/Data-Exp ...
- Azure HDInsight 现已在中国正式发布
今年月,我们宣布微软成为全球首家在中国公开发布云 Hadoop 产品公共预览版的云提供商.今天,微软非常高兴地宣布 AzureHDInsight现已在中国正式发布.中国本土组织以及在中国设立了办 ...
- 宣布正式发布 Windows Azure 移动服务、网站及持续的服务创新
我们努力创新,向开发人员提供多样化平台以构建最好的云应用程序并在第一时间提供给世界各地的客户.许多新应用程序都属于"现代化应用程序",即始终基于 Web,且可以通过各种移动设备进行 ...
- 宣布发布 Windows Azure 导入/导出服务的预览版以及 Web 和移动解决方案场景的若干增强功能
客户评估基于云的存储解决方案时,面临的挑战之一是以经济高效.安全快速的方式从 Blob 存储区移进和移出大量数据.今天,我们很高兴地宣布发布 Windows Azure 导入/导出的预览版,这款新服务 ...
- 由世纪互联运营的 Windows Azure 现已在中国正式发布
我们非常高兴地公开发布由世纪互联运营的 Windows Azure,这标志着我们成为第一家在中国国内正式提供公共云平台技术的跨国公司.这一伟大成就的实现,得益于 Microsoft 与世纪互联的 ...
- 宣布 Windows Azure 通过 PCI DSS 合规性验证并且 ISO 认证范围扩大,同时正式发布 Windows Azure Hyper-V 恢复管理器和其他更新功能
今天,我们高兴地宣布两个重大里程碑事件,客户将能借此提高基于 Windows Azure 构建安全且合规的应用程序的能力.此外,我们还宣布正式发布 Windows Azure Hyper-V 恢复管理 ...
- Azure SQL 数据库新服务级别现已正式发布
T.K.Ranga Rengarajan 2014 年 9 月 10 日上午 11:00 我们很高兴地宣布,新的 SQL 数据库服务级被基本.标准和高级级别现已正式发布.这些服务级别中含有内置且可 ...
随机推荐
- cocos2d-X-3.X 场景与层
1场景与层的相关函数 1. void runWithScene(Scene * scene). 该函数可以运行场景.只能在启动第一个场景时调用该函数.如果已经有一个场景运行,则不能调用该函数. 2. ...
- 网络子系统48_ip协议数据帧的发送
//ip协议与l4协议接口,l4通过此接口向下l3传递数据帧 //函数主要任务: // 1.通过路由子系统路由封包 // 2.填充l3报头 // 3.ip分片 // 4.计算校验和 // 5.衔接邻居 ...
- ASPから広がり
ASP是动态服务器页面(Active Server Page)外语缩写.[1]是微软公司开发的代替CGI脚本程序的一种应用,它可以与数据库和其它程序进行交互,是一种简单.方便的编程工具.ASP的网页文 ...
- poj 2689 大范围内素数筛选
/** 给定一定范围求其内的素数 注意: **/ #include <iostream> #include <math.h> #include <cstring> ...
- Linux 中执行命令
第一步: 在txt文件(文件名为cmd_file)中写入代码:echo this is content! 第二步: 授权chmod 555 cmd_file 第三步: 运行 ./cmd_file -- ...
- Linux cd命令
1: cd 不加任何参数,它会自动跳到用户的家目录中去! 2: ~ 表示用户的家目录 3: cd ~userNmae/ 这样可以进入指定用户的家目录中去! 4: cd - 跳到上一次所在的目 ...
- Codeblock解决注释乱码问题及在ubuntu中程序运行时乱码问题。
(1)修改源文件保存编码在:settings->Editor->gernal settings>other settings 看到左边的Encoding group Box,改为WI ...
- Java的接口及实例
一.定义 Java接口(Interface),是一系列方法的声明,是一些方法特征的集合,一个接口只有方法的特征没有方法的实现,因此这些方法可以在不同的地方被不同的类实现,而这些实现可以具有不同的行为( ...
- 在wdcp环境下架设VSFTPD虚拟用户只上传功能服务器
检查系统是否已安装vsftp rpm -q vsftpd package vsftpd is not installed #说明系统没有安装vsftpd 如果生成虚拟用户数据文件的时候出现以下错误 u ...
- android UI跨线程操作
android应用程序也是单线程程序,主线程为UI线程. android 线程是非安全的,即不要在子线程中更新 UI. public class MasterActivity extends Acti ...