这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753

1.列表,元组,字典,集合分别如何增删改查及遍历。

列表操作如下所示:

#列表
string = 'list'
#字符串->列表
list1 = list(string) # ['l', 'i', 's', 't']
#列表->字符串
string1 = ''.join(list1) #list
#列表的增删改查
list1 = list('this is a list')
#增加
list1.append('!') #末尾增加元素
list1.insert(2,'this is index 3') #指定index增加一个元素
#删除
list1.pop(-1) #删除指定index的元素 默认是-1 return被删除元素的值
del list1[-1]
if '!' in list1: #删除第一个匹配的元素,如果不存在会报错,没有返回值
list1.remove('!')
#修改
list1[0] = '' #元素赋值
list1[0:2] = list('') #分片赋值
list1[1:1] = list('') #分片赋值 插入新元素
list1[1:5] = [] #分片赋值 删除元素
#查找
if 'a' in list1:
index = list1.index('a') # 查找元素下标
#拼接
list2 = ['new','list']
list1.extend(list2) #从列表增加元素
print list1
#逆置
list1.reverse();
print list1
#去重
#1
l1 = ['b','c','d','c','a','a']
l2 = list(set(l1))
#2
l2.sort(key=l1.index) #保持原来的顺序
#3
l1 = ['b','c','d','c','a','a']
l2 = []
for i in l1: #[l2.append(i) for i in l1 if not i in l2]
if not i in l2:
l2.append(i)
print l2 #保持原来的顺序

集合操作如下所示:

 # 两种方法创建
set1 = set('kydaa')
set2 = {'abc', 'jaja', 'abc', 'kyda'}
print(set1)
print(set2)
# 结果:自动将重复元素去除
{'a', 'y', 'd', 'k'}
{'jaja', 'abc', 'kyda'}

字典操作如下所示:

 #字典
#创建
dict1 = {
'key':'value',
'key1':'value1'
}
a = [('key1','value1'),('key2','value2')]
dict1 = dict(a)
dict1 = {}.fromkeys(['key1','key2'],'default_value') #从键值创建dict
dict1 = dict(key1='value1',key2='value2')
#增加
dict1['key3']='value3' #字典可以自动添加
dict1.setdefault('key5','N/A') #如果不存在,就设置默认值
#删除
del dict1['key3']
print dict1.pop('key2') #popitem随机删除 和列表的pop一样
#dict1.clear() #深删除,即使有拷贝 也会被删除
#修改
if 'key1' in dict1:
dict1['key1']='new_value_1'
#查找
if 'key1' in dict1:
print dict1['key1']
if dict1.has_key('key1'):
print dict1['key1']
print dict1.get('key3','not exists') #宽松访问
print dict1.keys(),dict1.values()
#拼接
dict2 = dict(key4 = 'value4') #从字典更新另一个字典
dict1.update(dict2)

2.总结列表,元组,字典,集合的联系与区别。

(1)list是处理一组有序项目的数据结构,即可以在一个列表中存储一个序列的项目。列表中的项目应该包括在方括号中。一旦创建了一个列表,就可以添加,删除,或者是搜索列表中的项目。列表是可变的数据类型,并且列表是可以嵌套的。python里的列表用“[]”表示。列表的特点是可重复,类型可不同,类型不同也是跟数组最本质的区别了。 

(2)元组和列表十分相似,不过元组是不可变的,即不能修改元组。元组用“()”表示,元组可以嵌套。

(3)集合特性:与字典类似,但只包含键,而没有对应的值,包含的数据不重复。

创建:s=set(list or tuple or string),重复的值在集合中只存在一个。

(4)字典即把键(名字)和值(详细情况)联系在一起,键必须是唯一的。键值对在字典中以这样的方式标记:d={key1:value1 , key2:value2}。键/值对用冒号分割,而各个对用逗号分割,所有这些都包括在花括号中。

3.词频统计

  步骤如下:

(1)下载一长篇小说,存成utf-8编码的文本文件file;

(2)通过文件读取字符串str;

(3)对文本进行预处理;

(4)分解提取单词list;

(5)单词计数字典set,dict;

(6)按词频排序list.sort(key=lambda),turple;

(7)排除语法型词汇,代词、冠词、连词等无语义词;

(8)输出TOP(20);

(9)可视化:词云。

排序好的单词列表word保存成csv文件。

 exclude={'a','the','and','i','you','in','but','not','with','by','its','for','of','an','to'}  #定义数组#
#读取Harry Potter.txt文件中的英文内容#
def gettxt():
sep=".,:;?!-_'"
txt=open('Harry Potter.txt','r').read().lower()
for ch in sep :
txt=txt.replace(ch,' ')
return txt
#分解提取单词#
bigList=gettxt().split()
print(bigList);
print('big:',bigList.count('big'))
bigSet=set(bigList)
#过滤单词,包括一些冠词和连词等#
bigSet=bigSet-exclude
print(bigSet)
#单词计数#
bigDict={}
for word in bigSet:
bigDict[word]=bigList.count(word)
print(bigDict) print(bigDict.items())
word=list(bigDict.items())
#按词频排序#
word.sort(key=lambda x:x[1],reverse=True)
print(word)
#输出频率较高的词语top20#
for i in range(20):
print(word[i])
#排序好的单词列表word保存成csv文件#
import pandas as pd
pd.DataFrame(data=word).to_csv('Harry Potter.csv',encoding='utf-8')

运行结果如下所示:

python复合数据类型以及英文词频统计的更多相关文章

  1. 组合数据类型,英文词频统计 python

    练习: 总结列表,元组,字典,集合的联系与区别.列表,元组,字典,集合的遍历. 区别: 一.列表:列表给大家的印象是索引,有了索引就是有序,想要存储有序的项目,用列表是再好不过的选择了.在python ...

  2. Python——字符串、文件操作,英文词频统计预处理

    一.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 2.凯撒密码编码与解码 凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左 ...

  3. python字符串操作、文件操作,英文词频统计预处理

    1.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 解析身份证号:生日.性别.出生地等 def function3(): print('请输入身份证号') ...

  4. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  5. 1.字符串操作:& 2.英文词频统计预处理

    1.字符串操作: 解析身份证号:生日.性别.出生地等. ID = input('请输入十八位身份证号码: ') if len(ID) == 18: print("你的身份证号码是 " ...

  6. Programming | 中/ 英文词频统计(MATLAB实现)

    一.英文词频统计 英文词频统计很简单,只需借助split断句,再统计即可. 完整MATLAB代码: function wordcount %思路:中文词频统计涉及到对"词语"的判断 ...

  7. python瓦登尔湖词频统计

    #瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...

  8. python jieba分词小说与词频统计

    1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 ...

  9. python:Hamlet英文词频统计

    #CalHamletV1.py def getText(): #定义函数读取文件 txt = open("hamlet.txt","r").read() txt ...

随机推荐

  1. 基于web站点的xss攻击

    XSS(Cross Site Script),全称跨站脚本攻击,为了与 CSS(Cascading Style Sheet) 有所区别,所以在安全领域称为 XSS. XSS 攻击,通常指黑客通过 HT ...

  2. k8s资源清单基础

    资源清单介绍 创建资源的方法  apiserver仅接收JSON格式的资源定义  yaml格式提供配置清单 apiserver可自动把yaml转换成json格式数据 资源清单五个一级字段   1.ap ...

  3. Hive Lateral View

    一.简介 1.Lateral View 用于和UDTF函数[explode,split]结合来使用. 2.首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表. 3.主要解决在 ...

  4. [LeetCode] 114. 二叉树展开为链表 ☆☆☆(深度遍历)

    二叉树展开为链表(很详细) 描述 给定一个二叉树,原地将它展开为链表. 例如,给定二叉树 1 / \ 2 5 / \ \3 4 6将其展开为: 1 \ 2 \ 3 \ 4 \ 5 \ 6 解析 变形的 ...

  5. 04-JavaScript的操作

    本篇主要介绍获取元素的方法.操作元素.数组和字符串的操作方法.定时器和封闭函数.以及贪吃蛇案例: 一.获取元素的方法 1.document.getElementById:可以使用内置对象documen ...

  6. [SDIO].SDIO总线详解

    转自:https://blog.csdn.net/liuhan33025/article/details/51131848 SDIO接口是在SD内存卡接口的基础上发展起来的接口,SDIO接口兼容以前的 ...

  7. 详解Linux系统中10个最危险的命令

    概述 大多数的朋友都是主要用的windows系统,基本用鼠标就可以完成所有的操作,但是在Linux系统中很多都是键盘+命令操作电脑的,Linux命令行使用很有趣,但有时候也很危险,尤其是在你不确定你自 ...

  8. 个人第5次作业-Alpha2项目的测试

    这个作业属于哪个课程 系统分析与设计 这个作业要求在哪里 作业要求 团队名称 卓越Code 这个作业的目标 选取3个非自己所在团队进行项目测试,协助该团队进行项目改进 前言 魏家田 201731062 ...

  9. Nastya Hasn't Written a Legend(Codeforces Round #546 (Div. 2)E+线段树)

    题目链接 传送门 题面 题意 给你一个\(a\)数组和一个\(k\)数组,进行\(q\)次操作,操作分为两种: 将\(a_i\)增加\(x\),此时如果\(a_{i+1}<a_i+k_i\),那 ...

  10. 【原创】selenium+python+openpyxl实现登录自动化测试,自动读取excel用例数据,并将数据结果自动写入到excel

    # -*- coding: utf-8 -*- from selenium import webdriver from openpyxl import load_workbook from time ...