Using python to process Big Data】的更多相关文章

Pandas is a great lib to process BIg Data. 1) pandas.pivot_table(data,values=None,columns=None,aggfunc=func) func can be any function in python 2) pandas.merge(left,right,hpw='inner') combine left with right based on the inner columns. 3) pandas.read…
0.课程地址与说明 1.课程地址:https://www.coursera.org/learn/python-network-data/home/welcome 2.课程全名:Using Python to Access Web Data 3.建议使用Python2进行学习 4.仅第一周有中文字幕,其它的只有英文字幕,只要英语有四级基本没有太大问题 5.本人使用的工具是蓝灯,做作业时可以用Google翻译插件帮帮忙 注:第一周讲课程说明和安装Python,无笔记 1.Regular Expres…
1. 问题背景 使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器,运行python spark脚本时报错如下错误: 2018-09-12 23:56:00 ERROR Executor:91 - Exception in task 0.0 in stage 0.0 (TID 0)org.apache.spark.SparkException: Error from python worker: /usr/bin/python: can't decompress data…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week6 JSON and the REST Architecture 13.5 JavaScript Object Notation(JSON) JSON是一种相比于XML更简单的格式,而且现在在互联网上非常普遍.XML是很强大,但是很多时候我们并不需要使用这么强大的格式,我们就能完成我们的任务. import json data = '''{ "name": "…
Coursera课程<Using Python to Access Web Data > 密歇根大学 Charles Severance Week2 Regular Expressions 11.1 Regular Expressions 11.1.1 Python Regular Expression Quick Guide ^ 匹配一行的开头 $ 匹配一行的末尾 . 匹配任何字符 \s 匹配空白字符 \S 匹配任何非空白字符 ***** 重复一个字符0次或多次 *? 重复一个字符0次或多次…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week5 Web Services and XML 13.1 Data on the Web 在网络上我们需要用一种固定的模板进行交流,python将我们的内容serialize成这种模板,然后再de-serialize让另外一种语言读懂. 现在有两种交流模板:XML和JSON. 13.2 Extensible Markup Language(XML) XML也就是可扩展标记语言(Extens…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week4 Programs that Surf the Web 12.3 Unicode Characters and Strings Representing Simple Strings 使用ASCII码,每个字符都被一个0到256的数字表示来存在8bits的内存里. 使用ord()函数可以查询,指定字符所对应的ASCII码. >>> print(ord('H')) 72…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week3 Networks and Sockets 12.1 Networked Technology Transport Control Protocol(TCP) TCP端口就是为TCP协议通信提供服务的端口.TCP(Transmission Control Protocol),TCP是一种面向连接(连接导向)的.可靠的.基于字节流的运输层(Transport layer)通信协议. 在计…
5. Data Structures 这一章来说说Python的数据结构 5.1. More on Lists 之前的文字里面简单的介绍了一些基本的东西,其中就涉及到了list的一点点的使用.当然,它可不仅仅只有那么一点点,这里给出一个更详细一点的说明.来吧骚连,打开你的命令行窗口 >>>help(list) 看看会出来一些什么~~` list.append(x) 向一个序列里面追加元素 x a = [] a.append(x) # 假设x已经定义了 a[len(a):] = [x] l…
在使用Kafka-python时自己写的一个bug 我在一个进程的__init__中初始化了一个producer,但是一直不好用 但是在函数里直接new一个就好用了 why? 需要说明的是producer中新建了一个sender,这个sender是一个线程 这是一个相似的问题,作者给出了解答 https://github.com/dpkp/kafka-python/issues/570 为何在__init__中初始化一个实例成员和run()中初始化会不一样 init的时候进程还没创建,只是新建了…