数据解析

XML是一种可扩展标记语言,它被设计用来传输和存储数据。XML是各种应用程序之间进行数据传输的最常用的工具。它与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,它仅仅是存储数据。事实上它与其他数据表现形式最大的不同是:它极其简单,这是一个看上去有点琐细的优点,但正是这点使它与众不同。

针对XML格式数据,R语言XML包可以对其进行数据导入与处理,详见下面的案例说明。

案例1

直接输入一段标记语言文本,使用XML包解析。

  1. library(XML)
  2. tt =
  3. '<x>
  4. <a>text</a>
  5. <b foo="1"/>
  6. <c bar="me">
  7. <d>a phrase</d>
  8. </c>
  9. </x>'
  10. doc = xmlParse(tt)
  11. xmlToList(doc)
  12. # use an R-level node representation
  13. doc = xmlTreeParse(tt)
  14. xmlToList(doc)

案例2

导入已有的xml格式数据并处理,本案例用到的是手机通讯录xml数据,按如下步骤操作:

  1. #读取xml格式数据并解析
  2. xmlfile=xmlParse(file.choose(),encoding="UTF-8")
  3. class(xmlfile)
  4. #形成根目录列表数据
  5. xmltop = xmlRoot(xmlfile)
  6. class(xmltop) #查看类
  7. xmlName(xmltop) #查看根目录名
  8. xmlSize(xmltop) #查看根目录总数
  9. xmlName(xmltop[[1]]) #查看子目录名
  10. # 查看第一个子目录
  11. xmltop[[1]]
  12. # 查看第二个子目录
  13. xmltop[[2]]
  14. #子目录节点
  15. xmlSize(xmltop[[1]]) #子目录节点数
  16. xmlSApply(xmltop[[1]], xmlName) #子目录节点名
  17. xmlSApply(xmltop[[1]], xmlAttrs) #子目录节点属性
  18. xmlSApply(xmltop[[1]], xmlSize) #子目录节点大小
  19. #查看第一个子目录的第一个节点
  20. xmltop[[1]][[1]]
  21. #查看第一个子目录的第二个节点
  22. xmltop[[1]][[2]]
  23. #第二个子目录
  24. xmltop[[2]][[1]]
  25. xmltop[[2]][[2]]
  26. xmltop[[1]][[3]][[1]][[1]] #查看联系人电话
  27. xmltop[['Contact']][['PhoneList']][[1]][[1]] #第二种方式
  28. getNodeSet(xmltop, "//Contact/PhoneList")[[1]][[1]][[1]] #第三种方式
  29. xmltop[[1]][[3]][[1]][[1]] = 13717232323 #更改联系人电话
  30. xmltop[[1]][[1]][[1]]= "zhangsan "#更改联系人姓名
  31. #保存
  32. saveXML(xmltop, file="out.xml",encoding="UTF-8")

xml格式转dataframe

按如下步骤操作:

  1. xmlToDataFrame(xmlfile) #第一种方式,直接用xmlToDataFrame()函数
  2. library("plyr") #第二种方式,数据格式处理专用包plyr
  3. MyContact=ldply(xmlToList(file.choose()), data.frame) #先转成list,再转dataframe
  4. View(MyContact)
  5. # 查看联系方式
  6. MyContact[,c("Name" ,"PhoneList.Phone.text")]
  7. # 联系方式保存
  8. write.csv(MyContact, "MyContact.csv", row.names=FALSE)

反馈与建议

R语言XML格式数据导入与处理的更多相关文章

  1. Android中解析XML格式数据的方法

    XML介绍:Extensible Markup Language,即可扩展标记语言 一.概述 Android中解析XML格式数据大致有三种方法: SAX DOM PULL 二.详解 2.1 SAX S ...

  2. [译]用R语言做挖掘数据《二》

    数据探索 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...

  3. R语言分析朝阳医院数据

    R语言分析朝阳医院数据 本次实践通过分析朝阳医院2016年销售数据,得出“月均消费次数”.“月均消费金额”.“客单价”.“消费趋势”等结果,并据此作出可视化图形. 一.读取数据: library(op ...

  4. iOS开发之解析XML格式数据

    XML格式的数据是一种数据的传输格式.因为它方便编写.结构清晰,所以深受程序猿的喜爱,非常多人都喜欢使用XML格式数据传输或者作为程序的配置信息. 如今我将来实如今iOS中解析XML格式数据,语言使用 ...

  5. PHP生成和获取XML格式数据

    在做数据接口时,我们通常要获取第三方数据接口或者给第三方提供数据接口,而这些数据格式通常是以XML或者JSON格式传输,本文将介绍如何使用PHP生成XML格式数据供第三方调用以及如何获取第三方提供的X ...

  6. R语言处理Web数据

    R语言处理Web数据 许多网站提供的数据,以供其用户的消费.例如,世界卫生组织(WHO)提供的CSV,TXT和XML文件的形式的健康和医疗信息报告.基于R程序,我们可以通过编程提取这些网站的具体数据. ...

  7. yii2 输出xml格式数据

    作者:白狼 出处:http://www.manks.top/yii2_xml_response.html.html本文版权归作者,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文 ...

  8. Android使用DOM生成和输出XML格式数据

    Android使用DOM生成和输出XML格式数据 本文主要简单解说怎样使用DOM生成和输出XML数据. 1. 生成和输出XML数据 代码及凝视例如以下: try { DocumentBuilderFa ...

  9. Controller接收处理json、xml格式数据

    1.RequestBody接收json格式的数据,并直接转为对象. User.java使用lombok依赖包 @Data @AllArgsConstructor @NoArgsConstructor ...

随机推荐

  1. Atitit 项目管理(5)----------后勤管理与工具链支持管理

    Atitit 项目管理(5)----------后勤管理与工具链支持管理 1.1. keyword1 1.2. 15个辅助软件1 1.3. 公共模块管理(100个即可)2 1.4. 第三方类库表2 1 ...

  2. FIR.im Weekly - 这是多产的一周

    前方干货颇多,请备好小板凳,泡好茶,慢慢看. 上周四到周六(23号-25号),由 infoQ 主办的 QCon 在北京召开,各技术大牛围绕敏捷开发.技术架构.开发实践等话题进行了技术分享与探讨. QC ...

  3. LigerUI学习使用

    LigerUI有如下主要特点: 使用简单,轻量级 控件实用性强,功能覆盖面大,可以解决大部分企业信息应用的设计场景 快速开发,使用LigerUI可以比传统开发减少极大的代码量 易扩展,包括默认参数.表 ...

  4. SQL Server中的版本号

        在SQL Server中,通常版本号的命名是大版本.小版本.累积更新这种形式,比如说9.X.XXX就是SQL Server 2005.下面我将把SQL Server中版本号对应的版本列出来,以 ...

  5. Oracle Concept

    1. Truncate Truncate是DDL命令.表的物理位置是保存在数据字典中表的定义的一部分.首次创建时,在数据库的数据文件内给表分配了一个固定大小的空间.这就是所谓的区间并且为空.那么当插入 ...

  6. 使用Ambari安装hadoop集群

    最近需要做些spark的工作,所以弄了几台dell7500就这么准备开始搭建集群,之前用过几台更破的台式机搭建过一次,折腾了半个月之久,终于成功搭建,这次不想走老路,所以网上查了一下,发现一个神器AM ...

  7. IP,路由,交换基础培训记录

    IP 掩码  子网划分 vlan划分(有助于减少广播压力) vlan之间互通通过交换机打通. 路由,静态路由,动态路由(学习到的),路由表,下一跳,网络位长的优先级高. 交换机,hub集线器. hub ...

  8. Rxjava基础

    现在很多Android App的开发开始使用Rxjava,但是Rxjava以学习曲线陡峭著称,入门有些困难.经过一段时间的学习和使用,这里来介绍一下我对Rxjava的理解. 说到Rxjava首先需要了 ...

  9. 电路相关知识--读<<继电器是如何成为CPU的>>

    电路相关知识–读<<继电器是如何成为CPU的>> */--> *///--> *///--> 电路相关知识–读<<继电器是如何成为CPU的> ...

  10. 微信支付v3发布到iis时的证书问题

    一开始报“出现了内部错误” 解决方法是 方法一 var cer = new X509Certificate(certpath, password,X509KeyStorageFlags.Machine ...