通知: Spark北京Meetup第六次活动(­机器学习专题) 将于北京时间3月21日 下午14:00-18:00 在微软亚太研发集团总部大厦1号楼举行,主题包括: Julien Pierre  Product Manager of the Shared Data Services team at Microsoft Opening remarks 白刚  新浪网广告算法部分高级工程师  multi-label classification 尹绪森  Intel研究院工程师 Recent new…
博客内容: 一.会议时间 二.会议地点 三.会议成员 四.会议内容 五.todo list 六.会议照片 七.燃尽图 八 .功能说明书 一.会议时间 2017年12月6日  11:20-12:00 二.会议地点: 一食堂二楼休息区 三.会议成员 陈建宇:              博客地址:http://www.cnblogs.com/chjy/ 方铭:                  博客地址:http://www.cnblogs.com/Mingezi/ 刘成志(我):    博客地址:h…
“Hello World!”团队第六周第六次会议   博客内容: 一.会议时间 二.会议地点 三.会议成员 四.会议内容 五.todo list 六.会议照片 七.燃尽图 八.checkout&push代码 一.会议时间 2017年11月22日  15:20-16:02 二.会议地点: 一食堂二楼休息区第二列最后一排 三.会议成员 陈建宇:              博客地址:http://www.cnblogs.com/chjy/ 方铭:                  博客地址:http:…
“Hello World!”团队第五周第六次会议   博客内容: 一.会议时间 二.会议地点 三.会议成员 四.会议内容 五.todo list 六.会议照片 七.燃尽图 八.checkout&push代码 一.会议时间 2017年11月15日  17:20-17:58 二.会议地点: 一食堂二楼休息区第二列最后一排靠墙桌子 三.会议成员 陈建宇:              博客地址:http://www.cnblogs.com/chjy/ 方铭:                  博客地址:h…
今天是我们团队“Hello World!”团队召开的第三周的第六次会议.博客内容: 一.会议时间 二.会议地点 三.会议成员 四.会议内容 五.todo list 六.会议照片 七.燃尽图 一.会议时间 2017年11月1日 11:30-12:13 二.会议地点: 计算机楼107教室 三.会议成员 陈建宇(组长):       博客地址:http://www.cnblogs.com/chjy/ 方铭 :                博客地址:http://www.cnblogs.com/Min…
团队“Hello World!”团队召开的第六次会议. 博客内容: 一.会议时间 二.会议地点 三.会议成员 四.会议内容 五.Todo List 六.会议照片 七.燃尽图 一.会议时间 2017年10月18日  18:30—20:00 二.会议地点: 一食堂二楼休息区第一列第一张桌子 三.会议成员: 刘成志:(我)                     博客地址:http://www.cnblogs.com/cherishcherry/ 陈建宇(组长):                  …
第六次会议 时间:2020.5.22 完成工作 姓名 任务 难度 完成度 xyq 1.编写技术博客 中 90% ltx 1.编写小程序2.添加全局变量之后页面无法加载的bug 中 90% lm(迟到) 1.在服务器部署自己前端新增代码 轻 80% xhj 1.完成覆盖性测试代码(已完成) 轻 90% zjr 1.完成xyq的api(50行) 中 90% yzx 1.构思图片上传思路 轻 80% 未来计划 完成图片上传和文件上传功能: 小程序debug. 会议截图和燃尽图…
最近从hadoop转向Spark了,学了一段时间了,准备写个专题,主要写pySpark的应用,主要计划是: 主题 内容概要 聚类(5.6) 1.几种常用的聚类算法:2.pyspark中聚类算法的应用(2-3个实例) 分类&回归 1.几种常用的分类和回归算法:2.pyspark中分类和回归算法的应用(各一例) 推荐 1.推荐常用算法:2.实例:音乐推荐和电商推荐 文本挖掘 1.潜在语义分析:2.垃圾文本过滤:3.文本分类 征信评估 1.金融风险评估 深度学习 1.常用的深度学习模型2.实例:神经网…
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 import sqlContext._ case class Person(name: String, age: Int) // 下面的 people 是含有 case 类型数据的 RDD,会默认由 Scala 的 implicit 机制将 RDD 转换为 SchemaRDD, SchemaRDD…
Spark最吸引开发者的就是简单易用.跨语言(Scala, Java, Python, and R)的API. 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API:它们各自适合的使用场景:它们的性能和优化:列举使用DataFrame和DataSet代替RDD的场景.本文聚焦DataFrame和Dataset,因为这是Apache Spark 2.0的API统一的重点. Apache Spark 2.0统一API的主要动机是:简化Spark.通过减少…