C++实现python标准库中的Counter

看python standard library by exmple里面提到一个Counter容器，它像muliset一样，能够维持一个集合，并在常量时间插入元素、查询某个元素的个数，而且还提供了一个

most_common(n)方法，用于统计频数最大的n个元素，这在读取文本并统计词频的时候显得非常实用。

考虑C++实现的时候，查到一个叫做LFU的东西，https://en.wikipedia.org/wiki/Least_frequently_used，是关于磁盘缓存策略的，基本想法跟这个counter有类似的地方。

http://dhruvbird.com/lfu.pdf 这里有相关的实现。

#include<iostream>

#include<list>

#include<vector>

#include<unordered_map>

using namespace std;

//关键字节点

template<typename T>

struct keyNode{

	typedef T value_type;

	keyNode(){}

	keyNode(T v, keyNode* p, keyNode* n) :val(v), prev(p), next(n){}

	T val;

	keyNode* prev;

	keyNode* next;

};

//计数器节点

template<typename T>

struct countNode{

	countNode(){

		keyhead = new keyNode<T> ;

		keyhead->prev = keyhead->next = NULL;

	}

	~countNode(){

		while (keyhead->next != NULL){

			keyNode<T>* p = keyhead->next;

			keyhead->next = p->next;

			delete p;

		}

		delete keyhead;

	}

	countNode(int f, countNode* p, countNode *n):

		freq(f),prev(p),next(n){

		keyhead = new keyNode<T>;

		keyhead->prev = keyhead->next = NULL;

	}

	keyNode<T>* insertKey(const T& v){

		keyNode<T>* node = new keyNode<T>(v, keyhead, keyhead->next);

		if (keyhead->next != NULL)

			keyhead->next->prev = node;

		keyhead->next = node;

		return node;

	}

	int freq;

	keyNode<T>* keyhead;

	countNode* prev;

	countNode* next;

};

//计数器容器

/***支持如下操作：

	插入(insert) 时间复杂度O(1)

	查找(lookup) 时间复杂度O(1)

	查询最频繁的n个元素(most_common(n)) 时间复杂度o(n)

	删除操作 时间复杂度o(1)

**/

template<typename T>

class Counter{

public:

	Counter(){

		head = new countNode<T>(0, NULL, NULL);

		tail = NULL;

	}

	~Counter(){

		while (head->next != NULL){

			countNode<T>* p = head->next;

			head->next = p->next;

			delete p;

		}

		delete head;

	}

	//插入一个关键字，如果已经存在，频数加1

	void insert(const T& v){

		if (dict.find(v) == dict.end()){

			//关键字是新插入的

			if (head->next == NULL || head->next->freq != 1){

				//需要新建count节点

				countNode<T>* node = new  countNode<T>(1, head, head->next);

				if (head->next == NULL)

					tail = node;

				head->next = node;

				dict[v] = pair<countNode<T>*, keyNode<T>*>(node, node->insertKey(v));

			}

			else{

				dict[v] =

					pair<countNode<T>*, keyNode<T>*>(head->next, head->next->insertKey(v));

			}

		}

		else{

			//关键字已经存在了

			//频数必然会有增加，这时对结构的改动较大

			countNode<T>* countAddr = dict[v].first;

			countNode<T>* nextCount = countAddr->next;

			keyNode<T>* keyAddr = dict[v].second;

			int freq = countAddr->freq;

			//首先从countAddr删除一个keyAddr节点

			keyAddr->prev->next = keyAddr->next;

			if (keyAddr->next != NULL)

				keyAddr->next->prev = keyAddr->prev;

			delete keyAddr;

			if (nextCount == NULL || nextCount->freq != freq + 1){

				//需要加一个countNode节点

				countNode<T>* node = new countNode<T>(freq + 1, countAddr, nextCount);

				if (nextCount != NULL)

					nextCount->prev = node;

				else

					tail = node;

				countAddr->next = node;

				dict[v] =

					pair<countNode<T>*, keyNode<T>*>(node, node->insertKey(v));

			}

			else{

				dict[v] =

					pair<countNode<T>*, keyNode<T>*>(nextCount, nextCount->insertKey(v));

			}

			//如果删除的keyNode节点是countNode中最后一个keyNode，就要把countAddr也删除了

			if (countAddr->keyhead->next == NULL){

				countAddr->prev->next = countAddr->next;

				if (countAddr->next != NULL)

					countAddr->next->prev = countAddr->prev;

				delete countAddr;

			}

		}

	}

	//返回关键字的频数

	int lookup(const T& v)const{

		return dict[v].first->freq;

	}

	/**返回频数最高的n个元素

	 返回形式为:(key,count)

	**/

	vector<pair<T, int>> most_common(int n){

		//链表的顺序是频数从低到高的，此时需要从尾节点逆向遍历n个元素

		vector<pair<T, int>> result;

		countNode<T>* countVisitor = tail;

		while (n > 0 && countVisitor != NULL){

			keyNode<T>* keyVisitor = countVisitor->keyhead->next;

			while (n > 0 && keyVisitor != NULL){

				result.emplace_back(keyVisitor->val, countVisitor->freq);

				n--;

				keyVisitor = keyVisitor->next;

			}

			countVisitor = countVisitor->prev;

		}

		return result;

	}

	vector<pair<T, int>> least_common(int n){

		vector<pair<T, int>> result;

		countNode<T>* countVisitor = head->next;

		while (n > 0 && countVisitor !=  NULL){

			keyNode<T>* keyVisitor = countVisitor->keyhead->next;

			while (n > 0 && keyVisitor != NULL){

				result.emplace_back(keyVisitor->val, countVisitor->freq);

				n--;

				keyVisitor = keyVisitor->next;

			}

			countVisitor = countVisitor->next;

		}

		return result;

	}

private:

	countNode<T>* head;

	countNode<T>* tail;

	unordered_map<T, pair<countNode<T>*, keyNode<T>*>> dict;

};

int main(){

	{

		Counter<char> wordCount;

		string s("jfoaedfrerlkmgvj9ejajiokl;fdaks");

		for (auto v : s){

			wordCount.insert(v);

		}

		auto result = wordCount.least_common(3);

	}

	return 0;

}

C++实现python标准库中的Counter的更多相关文章

Python 标准库中的装饰器
题目描述 1.简单举例 Python 标准库中的装饰器 2.说说你用过的 Python 标准库中的装饰器 1. 首先,我们比较熟悉,也是比较常用的 Python 标准库提供的装饰器有:property ...
(转)python标准库中socket模块详解
python标准库中socket模块详解 socket模块简介原文:http://www.lybbn.cn/data/datas.php?yw=71 网络上的两个程序通过一个双向的通信连接实现数据的 ...
Python标准库中的生成器函数
一.用于过滤的生成器函数 - 从输入的可迭代对象中产出元素的子集,而不修改元素本身 import itertools l1 = [1,2,3,4,5] l2 = [True,False,True,Fa ...
06.队列、python标准库中的双端队列、迷宫问题
class QueueUnderflow(ValueError): """队列为空""" pass class SQueue: def __ ...
python标准库中socket模块详解
包含原理就是tcp的三次握手 http://www.lybbn.cn/data/datas.php?yw=71 这篇讲到了socket和django的联系 https://www.cnblogs.co ...
Python标准库14 数据库 (sqlite3)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python自带一个轻量级的关系型数据库SQLite.这一数据库使用SQL语言.S ...
python标准库00 学习准备
Python标准库----走马观花 python有一套很有用的标准库.标准库会随着python解释器一起安装在你的电脑上的.它是python的一个组成部分.这些标准库是python为你准备的利器,可以 ...
python标准库xml.etree.ElementTree的bug
使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...
【python】Python标准库defaultdict模块
来源:http://www.ynpxrz.com/n1031711c2023.aspx Python标准库中collections对集合类型的数据结构进行了很多拓展操作,这些操作在我们使用集合的时候会 ...

随机推荐

[bootstrap] 实用的bootstrap模版下载
https://shapebootstrap.net/ http://shapebootstrap.net/item/1524915-adminlte-dashboard-and-control-pa ...
《Java程序设计》第八周学习总结
20145224 <Java程序设计>第八周学习总结教材学习内容总结第15章通用API 15.1.1 日志API简介 ·java.util.logging包提供了日志功能相关类与接口 ...
《Java程序设计》第二周学习总结
20145224陈颢文<Java程序设计>第二周学习总结教材学习内容总结一.类型.变量与运算符 1.类型整数: 可细分为为short整数(占2字节),int整数(占4字节),long ...
数据库中Schema（模式）概念的理解
在学习SQL的过程中,会遇到一个让你迷糊的Schema的概念.实际上,schema就是数据库对象的集合,这个集合包含了各种对象如:表.视图.存储过程.索引等.为了区分不同的集合,就需要给不同的集合起不 ...
SQL SERVER数据库索引、外键查找
1.索引查找 select a.name as tabname ,h.name as idname,h.type_descfrom sys.objects as a right join sys.in ...
java学习之协调同步的线程
当一个线程使用的同步方法中用到某个变量,而此变量有需要其他线程修改后才能符合本线程的需要, 那么可以在同步方法中使用wait(),wait方法可以中断线程的执行,使本线程等待,暂时让出CPU的使用权, ...
知名黑客组织Anonymous（匿名者）的装备库
原文出处: infosecinstitute 译文出处:freebuf 欢迎分享原创到伯乐头条本文关注的是世界著名的黑客组织Anonymous(匿名者).“我将描述他们的攻击方法和方式的计划 ...
前端面试题之nina分享
HTML相关 1.<!DOCTYPE>标签的定义与用法. <!DOCTYPE>的定义: <!DOCTYPE>声明位于文档中的最前面的位置,处于<html> ...
Windows API 文件处理
CloseHandle 关闭一个内核对象.其中包括文件.文件映射.进程.线程.安全和同步对象等 CompareFileTime 对比两个文件的时间 CopyFile 复制文件 CreateDirect ...
js使用正则表达式
参考慕课网示例: 使用js对html输入框内容进行校验: 1. 只能输入5-20个字符,必须以“字母”开头 2. 可以带“数字" “_” “.”的字串 <!DOCTYPE html P ...

C++实现python标准库中的Counter

C++实现python标准库中的Counter的更多相关文章

随机推荐

热门专题