STL MAP及字典树在关键字统计中的性能分析
在搜索引擎在通常会对关键字出现的次数进行统计,这篇文章分析下使用C++ STL中的map进行统计,及使用字典树进行统计在运行速度,空间及适用场合进行分析。首先随机生成100万个3-6长度的字符串。为了简化问题,字符串中仅由小写字母组成。另外随机生成10万个长度3-8的字符串用于测试map和字典树在查询方面的效率。
STL map实现统计的源码:
#include<iostream> #include<ctime> #include<fstream> #include<string> #include<map> using namespace std; int main() { clock_t start,end; map<string,int> dict; string word; ifstream in("data.dat"); start = clock(); while(in>>word) { if(dict[word]) { dict[word] = 1; } else { dict[word]++; } } in.close(); end = clock(); cout<<"STL MAP统计花费的时间为:"<<end-start<<"毫秒"<<endl; map<string,int>::iterator itr = dict.begin(); start = clock(); ofstream out("out.txt"); while(itr != dict.end() ) { out<<itr->first<<" "<<itr->second<<endl; itr++; } end = clock(); cout<<"STL MAP输出到文件花费时间为:"<<end-start<<"毫秒"<<endl; out.close(); start = clock(); int sum1=0,sum2=0; ifstream searchIn("search.dat"); while(searchIn>>word) { if(dict[word] != 0) { sum1++; } else { sum2++; } } end = clock(); cout<<"找到单词:"<<sum1<<"-->"<<"没有找到单词:"<<sum2<<endl; cout<<"查询花费时间:"<<end-start<<endl; return 0; }
#include<iostream> #include<string.h> #include<fstream> #include<ctime> using namespace std; char str[20];//用于在输出字典树中的单词时使用。 struct Node { int cnt; struct Node *child[26]; Node() { int i; for(i=0; i<26; i++) { child[i] = NULL; } cnt = 0; } }; /* * * 将一个字符串插入到字典树中 * */ void Insert(Node *root, char word[]) { Node *p = root; int i,index; int len = strlen(word); for(i=0; i<len; i++) { index = word[i] - 'a';//这里是一个hash算法,只考虑小写字母的情况 if(p->child[index] == NULL) { p->child[index] = new Node(); } p = p->child[index]; } p->cnt++;//单词数加1。 } /* * * 字符串输出到文件 */ void OutToFile(char *word,int cnt) { ofstream out("out.txt",ios::app); out<<word<<" "<<cnt<<endl; out.close(); } /* *将字典树中的单词及其出现次数输出 * */ void OutputWord(Node *p,int length) { int i; if(p->cnt != 0)//找到了一个字符串 { str[length] = '\0'; OutToFile(str,p->cnt); } for(i=0; i<26; i++) { if(p->child[i] != NULL) { str[length] = i+'a';//根据下标还原字符 OutputWord(p->child[i],length+1); } } } /** * 查询word是否在字典树中 * */ int SearchWord(Node *p,char word[]) { int i,index; int len = strlen(word); for(i=0; i<len; i++) { index = word[i]-'a'; if(p->child[index] == NULL)//没有找到 { return 0; } p = p->child[index]; } if(p->cnt > 0) { return 1;//找到 } else//前缀字符串不能算是有这个单词 { return 0; } } /* * *销毁字典树 * */ void DestroyTrieTree(Node *p) { int i; for(i=0; i<26; i++) { if(p->child[i] != NULL) { DestroyTrieTree(p->child[i]); } } delete p; } int main() { Node *Root = new Node(); char word[20]; clock_t start,end; start = clock(); ifstream in("data.dat"); while(in>>word) { Insert(Root,word); } end = clock(); cout<<"使用字典树进行统计花费时间:"<<end-start<<"毫秒"<<endl; start = clock(); OutputWord(Root,0); end = clock(); cout<<"输出到文件花费时间:"<<end-start<<"毫秒"<<endl; in.close(); int sum1=0,sum2=0; start = clock(); ifstream searchIn("search.dat"); while(searchIn>>word)// { if(SearchWord(Root,word) ) { sum1++; } else { sum2++; } } searchIn.close(); end = clock(); cout<<"找到单词:"<<sum1<<"-->"<<"没有找到单词:"<<sum2<<endl; cout<<"查询花费时间:"<<end-start<<endl; /** 销毁字典树 */ for(int i=0; i<26; i++) { if(Root->child[i] != NULL) { DestroyTrieTree(Root->child[i]);//销毁字典树 } } return 0; }
