

整个项目都托管在了 Github 上:https://github.com/ikesnowy/Algorithms-4th-Edition-in-Csharp


这一节内容可能会用到的库文件有 SymbolTable,同样在 Github 上可以找到。

善用 Ctrl + F 查找题目。







和上一章节用过的方法类似,先定义了一个接口 IST<Key, Value> ,包含书中提到的基本 API。

然后定义类 ST ,用标准库里面的 Dictionary 实现了 IST

  1. using System.Collections;
  2. using System.Collections.Generic;
  3. namespace SymbolTable
  4. {
  5. /// <summary> 利用库函数实现的标准符号表。 </summary>
  6. public class ST<Key, Value> : IST<Key, Value>, IEnumerable<Key>
  7. {
  8. private Dictionary<Key, Value> st;
  9. /// <summary> 新建一个符号表。 </summary>
  10. public ST() => this.st = new Dictionary<Key, Value>();
  11. /// <summary> 检查符号表中是否存在与键 <paramref name="key"/> 对应的值。 </summary>
  12. public virtual bool Contains(Key key) => this.st.ContainsKey(key);
  13. /// <summary> 从符号表中删除键 <paramref name="key"/> 及对应的值。 </summary>
  14. public virtual void Delete(Key key) => this.st.Remove(key);
  15. /// <summary> 获取键 <paramref name="key"/> 对应的值,不存在时返回 null。 </summary>
  16. public virtual Value Get(Key key) => this.st[key];
  17. /// <summary> 获取枚举器。 </summary>
  18. public IEnumerator<Key> GetEnumerator() => this.st.Keys.GetEnumerator();
  19. /// <summary> 检查符号表是否为空。 </summary>
  20. public virtual bool IsEmpty() => this.st.Count == 0;
  21. /// <summary> 获得符号表中所有键的集合。 </summary>
  22. public virtual IEnumerable<Key> Keys() => this.st.Keys;
  23. /// <summary> 向符号表中插入新的键值对。 </summary>
  24. public virtual void Put(Key key, Value value) => this.st.Add(key, value);
  25. /// <summary> 获取符号表中键值对的数量。 </summary>
  26. public virtual int Size() => this.st.Count;
  27. /// <summary> 获取枚举器。 </summary>
  28. IEnumerator IEnumerable.GetEnumerator() => GetEnumerator();
  29. }
  30. }

SymbolTable 库







  1. using System;
  2. using System.Collections.Generic;
  3. namespace SymbolTable
  4. {
  5. /// <summary>
  6. /// 符号表(数组实现)。
  7. /// </summary>
  8. /// <typeparam name="Key">键类型。</typeparam>
  9. /// <typeparam name="Value">值类型。</typeparam>
  10. public class ArrayST<Key, Value> : IST<Key, Value>
  11. {
  12. private Key[] keys; // 键数组
  13. private Value[] values; // 值数组
  14. private int n = 0; // 键值对数目
  15. /// <summary>
  16. /// 建立基于数组实现的符号表。
  17. /// </summary>
  18. public ArrayST() : this(8) { }
  19. /// <summary>
  20. /// 建立基于数组实现的符号表。
  21. /// </summary>
  22. /// <param name="initCapacity">初始大小。</param>
  23. public ArrayST(int initCapacity)
  24. {
  25. this.keys = new Key[initCapacity];
  26. this.values = new Value[initCapacity];
  27. }
  28. /// <summary>
  29. /// 检查键 <typeparamref name="Key"/> 是否存在。
  30. /// </summary>
  31. /// <param name="key">需要检查是否存在的键。</param>
  32. /// <returns></returns>
  33. public bool Contains(Key key) => Get(key).Equals(default(Key));
  34. /// <summary>
  35. /// 删除键 <paramref name="key"/> 及对应的值。
  36. /// </summary>
  37. /// <param name="key">需要删除的键。</param>
  38. public void Delete(Key key)
  39. {
  40. for (int i = 0; i < this.n; i++)
  41. {
  42. if (key.Equals(this.keys[i]))
  43. {
  44. this.keys[i] = this.keys[this.n - 1];
  45. this.values[i] = this.values[this.n - 1];
  46. this.keys[this.n - 1] = default(Key);
  47. this.values[this.n - 1] = default(Value);
  48. this.n--;
  49. if (this.n > 0 && this.n == this.keys.Length / 4)
  50. Resize(this.keys.Length / 2);
  51. return;
  52. }
  53. }
  54. }
  55. /// <summary>
  56. /// 获取键对应的值,若键不存在则返回 null。
  57. /// </summary>
  58. /// <param name="key">需要查找的键。</param>
  59. /// <returns></returns>
  60. public Value Get(Key key)
  61. {
  62. for (int i = 0; i < this.n; i++)
  63. if (this.keys[i].Equals(key))
  64. return this.values[i];
  65. return default(Value);
  66. }
  67. /// <summary>
  68. /// 检查符号表是否为空。
  69. /// </summary>
  70. /// <returns></returns>
  71. public bool IsEmpty() => this.n == 0;
  72. /// <summary>
  73. /// 获得包含全部键的集合。
  74. /// </summary>
  75. /// <returns></returns>
  76. public IEnumerable<Key> Keys()
  77. {
  78. Key[] result = new Key[this.n];
  79. Array.Copy(this.keys, result, this.n);
  80. return result;
  81. }
  82. /// <summary>
  83. /// 向符号表中插入新元素,若键存在将被替换。
  84. /// </summary>
  85. /// <param name="key">键。</param>
  86. /// <param name="value">值。</param>
  87. public void Put(Key key, Value value)
  88. {
  89. Delete(key);
  90. if (this.n >= this.values.Length)
  91. Resize(this.n * 2);
  92. this.keys[this.n] = key;
  93. this.values[this.n] = value;
  94. this.n++;
  95. }
  96. /// <summary>
  97. /// 返回符号表中键值对的数量。
  98. /// </summary>
  99. /// <returns>键值对数量。</returns>
  100. public int Size() => this.n;
  101. /// <summary>
  102. /// 为符号表重新分配空间。
  103. /// </summary>
  104. /// <param name="capacity">新分配的空间大小。</param>
  105. private void Resize(int capacity)
  106. {
  107. Key[] tempKey = new Key[capacity];
  108. Value[] tempValue = new Value[capacity];
  109. for (int i = 0; i < this.n; i++)
  110. tempKey[i] = this.keys[i];
  111. for (int i = 0; i < this.n; i++)
  112. tempValue[i] = this.values[i];
  113. this.keys = tempKey;
  114. this.values = tempValue;
  115. }
  116. }
  117. }

SymbolTable 库




有序符号表的 API 见书中表 3.1.4(中文版 P230,英文版 P366)。

在官方实现的基础上修改 Put 方法,先找到合适位置再插入新的键值对,保证链表有序。



  1. using System;
  2. using System.Collections.Generic;
  3. namespace SymbolTable
  4. {
  5. /// <summary>
  6. /// 基于有序链表的有序符号表实现。
  7. /// </summary>
  8. /// <typeparam name="Key">符号表键类型。</typeparam>
  9. /// <typeparam name="Value">符号表值类型。</typeparam>
  10. public class OrderedSequentialSearchST<Key, Value> : IST<Key, Value>, IOrderedST<Key, Value>
  11. where Key : IComparable<Key>
  12. {
  13. /// <summary>
  14. /// 符号表结点。
  15. /// </summary>
  16. private class Node
  17. {
  18. public Key Key { get; set; } // 键。
  19. public Value Value { get; set; } // 值。
  20. public Node Next { get; set; } // 后继。
  21. public Node Prev { get; set; } // 前驱。
  22. }
  23. private Node first = null; // 起始结点。
  24. private Node tail = null; // 末尾结点。
  25. private int n = 0; // 键值对数量。
  26. /// <summary>
  27. /// 构造基于有序链表的有序符号表。
  28. /// </summary>
  29. public OrderedSequentialSearchST() { }
  30. /// <summary>
  31. /// 大于等于 key 的最小值。
  32. /// </summary>
  33. /// <returns></returns>
  34. public Key Ceiling(Key key)
  35. {
  36. Node pointer = this.tail;
  37. while (pointer != null && Greater(key, pointer.Key))
  38. pointer = pointer.Prev;
  39. return pointer == null ? default(Key) : pointer.Key;
  40. }
  41. /// <summary>
  42. /// 键 <paramref name="key"/> 在表中是否存在对应的值。
  43. /// </summary>
  44. /// <param name="key">键。</param>
  45. /// <returns></returns>
  46. public bool Contains(Key key) => Floor(key).Equals(key);
  47. /// <summary>
  48. /// 从表中删去键 <paramref name="key"/> 对应的值。
  49. /// </summary>
  50. /// <param name="key">键。</param>
  51. public void Delete(Key key)
  52. {
  53. Node pointer = this.first;
  54. while (pointer != null && !pointer.Key.Equals(key))
  55. pointer = pointer.Next;
  56. if (pointer == null)
  57. return;
  58. Delete(pointer);
  59. }
  60. /// <summary>
  61. /// 从链表中删除结点 <paramref name="node"/>。
  62. /// </summary>
  63. /// <param name="node">待删除的结点。</param>
  64. private void Delete(Node node)
  65. {
  66. Node prev = node.Prev;
  67. Node next = node.Next;
  68. if (prev == null)
  69. this.first = next;
  70. else
  71. prev.Next = next;
  72. if (next == null)
  73. this.tail = prev;
  74. this.n--;
  75. }
  76. /// <summary>
  77. /// 删除最大的键。
  78. /// </summary>
  79. public void DeleteMax()
  80. {
  81. if (this.n == 0)
  82. throw new Exception("ST Underflow");
  83. Delete(this.tail);
  84. }
  85. /// <summary>
  86. /// 删除最小的键。
  87. /// </summary>
  88. public void DeleteMin()
  89. {
  90. if (this.n == 0)
  91. throw new Exception("ST Underflow");
  92. Delete(this.first);
  93. }
  94. /// <summary>
  95. /// 小于等于 Key 的最大值。
  96. /// </summary>
  97. /// <returns></returns>
  98. public Key Floor(Key key)
  99. {
  100. Node pointer = this.first;
  101. while (pointer != null && Less(key, pointer.Key))
  102. pointer = pointer.Next;
  103. return pointer == null ? default(Key) : pointer.Key;
  104. }
  105. /// <summary>
  106. /// 获取键 <paramref name="key"/> 对应的值,不存在则返回 null。
  107. /// </summary>
  108. /// <param name="key">键。</param>
  109. /// <returns></returns>
  110. public Value Get(Key key)
  111. {
  112. Node pointer = this.first;
  113. while (pointer != null && Greater(key, pointer.Key))
  114. pointer = pointer.Next;
  115. if (pointer == null)
  116. return default(Value);
  117. else if (pointer.Key.Equals(key))
  118. return pointer.Value;
  119. else
  120. return default(Value);
  121. }
  122. /// <summary>
  123. /// 符号表是否为空。
  124. /// </summary>
  125. /// <returns></returns>
  126. public bool IsEmpty() => this.n == 0;
  127. /// <summary>
  128. /// 获得符号表中所有键的集合。
  129. /// </summary>
  130. /// <returns></returns>
  131. public IEnumerable<Key> Keys() => this.n == 0 ? new List<Key>() : Keys(this.first.Key, this.tail.Key);
  132. /// <summary>
  133. /// 获得符号表中 [<paramref name="lo"/>, <paramref name="hi"/>] 之间的键。
  134. /// </summary>
  135. /// <param name="lo">范围起点。</param>
  136. /// <param name="hi">范围终点。</param>
  137. /// <returns></returns>
  138. public IEnumerable<Key> Keys(Key lo, Key hi)
  139. {
  140. List<Key> list = new List<Key>();
  141. Node pointer = this.first;
  142. while (pointer != null && Less(pointer.Key, lo))
  143. pointer = pointer.Next;
  144. while (pointer != null && Less(pointer.Key, hi))
  145. {
  146. list.Add(pointer.Key);
  147. pointer = pointer.Next;
  148. }
  149. if (pointer.Key.Equals(hi))
  150. list.Add(pointer.Key);
  151. return list;
  152. }
  153. /// <summary>
  154. /// 最大的键。
  155. /// </summary>
  156. /// <returns></returns>
  157. public Key Max() => this.tail == null ? default(Key) : this.tail.Key;
  158. /// <summary>
  159. /// 最小的键。
  160. /// </summary>
  161. /// <returns></returns>
  162. public Key Min() => this.first == null ? default(Key) : this.first.Key;
  163. /// <summary>
  164. /// 向符号表插入键值对,重复值将被替换。
  165. /// </summary>
  166. /// <param name="key">键。</param>
  167. /// <param name="value">值。</param>
  168. public void Put(Key key, Value value)
  169. {
  170. Delete(key);
  171. Node temp = new Node()
  172. {
  173. Key = key,
  174. Value = value,
  175. Prev = null,
  176. Next = null
  177. };
  178. Node left = null, right = this.first;
  179. while (right != null && Less(right.Key, temp.Key))
  180. {
  181. left = right;
  182. right = right.Next;
  183. }
  184. Insert(left, right, temp);
  185. if (left == null)
  186. this.first = temp;
  187. if (right == null)
  188. this.tail = temp;
  189. this.n++;
  190. }
  191. /// <summary>
  192. /// 小于 Key 的键的数量。
  193. /// </summary>
  194. /// <returns></returns>
  195. public int Rank(Key key)
  196. {
  197. int counter = 0;
  198. Node pointer = this.first;
  199. while (pointer != null && Less(pointer.Key, key))
  200. {
  201. pointer = pointer.Next;
  202. counter++;
  203. }
  204. return counter;
  205. }
  206. /// <summary>
  207. /// 获得排名为 k 的键(从 0 开始)。
  208. /// </summary>
  209. /// <param name="k">排名</param>
  210. /// <returns></returns>
  211. public Key Select(int k)
  212. {
  213. if (k >= this.n)
  214. throw new Exception("k must less than ST size!");
  215. Node pointer = this.first;
  216. for (int i = 0; i < k; i++)
  217. pointer = pointer.Next;
  218. return pointer.Key;
  219. }
  220. /// <summary>
  221. /// 获得符号表中键值对的数量。
  222. /// </summary>
  223. /// <returns></returns>
  224. public int Size() => this.n;
  225. /// <summary>
  226. /// [<paramref name="lo"/>, <paramref name="hi"/>] 之间键的数量。
  227. /// </summary>
  228. /// <param name="lo">范围起点。</param>
  229. /// <param name="hi">范围终点。</param>
  230. /// <returns></returns>
  231. public int Size(Key lo, Key hi)
  232. {
  233. int counter = 0;
  234. Node pointer = this.first;
  235. while (pointer != null && Less(pointer.Key, lo))
  236. pointer = pointer.Next;
  237. while (pointer != null && Less(pointer.Key, hi))
  238. {
  239. pointer = pointer.Next;
  240. counter++;
  241. }
  242. return counter;
  243. }
  244. /// <summary>
  245. /// 键 <paramref name="a"/> 是否小于 <paramref name="b"/>。
  246. /// </summary>
  247. /// <param name="a">检查是否较小的键。</param>
  248. /// <param name="b">检查是否较大的键。</param>
  249. /// <returns></returns>
  250. private bool Less(Key a, Key b) => a.CompareTo(b) < 0;
  251. /// <summary>
  252. /// 键 <paramref name="a"/> 是否大于 <paramref name="b"/>。
  253. /// </summary>
  254. /// <param name="a">检查是否较大的键。</param>
  255. /// <param name="b">检查是否较小的键。</param>
  256. /// <returns></returns>
  257. private bool Greater(Key a, Key b) => a.CompareTo(b) > 0;
  258. /// <summary>
  259. /// 将结点 <paramref name="k"/> 插入到 <paramref name="left"/> 和 <paramref name="right"/> 之间。
  260. /// </summary>
  261. /// <param name="left">作为前驱的结点。</param>
  262. /// <param name="right">作为后继的结点。</param>
  263. /// <param name="insert">待插入的结点。</param>
  264. private void Insert(Node left, Node right, Node k)
  265. {
  266. k.Prev = left;
  267. k.Next = right;
  268. if (left != null)
  269. left.Next = k;
  270. if (right != null)
  271. right.Prev = k;
  272. }
  273. }
  274. }

SymbolTable 库



利用 Time 类型记录时间,用 Event 来记录事件内容。

Time 类型包含时分秒三个 int 变量,同时实现 IComparable 接口。

Event 类型只包含事件的名称,相当于对 string 做了一个封装。

随后以 Time 为键类型,Event 为值类型,利用上一题编写的有序符号表进行操作。


Time 类

  1. using System;
  2. using System.Text;
  3. namespace _3._1._4
  4. {
  5. /// <summary>
  6. /// 时间类。
  7. /// </summary>
  8. public class Time : IComparable<Time>
  9. {
  10. public int Hour { get; set; }
  11. public int Minute { get; set; }
  12. public int Second { get; set; }
  13. public Time() : this(0, 0, 0) { }
  14. public Time(int hour, int minute, int second)
  15. {
  16. this.Hour = hour;
  17. this.Minute = minute;
  18. this.Second = second;
  19. }
  20. public int CompareTo(Time other)
  21. {
  22. int result = this.Hour.CompareTo(other.Hour);
  23. if (result == 0)
  24. result = this.Minute.CompareTo(other.Minute);
  25. if (result == 0)
  26. result = this.Second.CompareTo(other.Second);
  27. return result;
  28. }
  29. public override bool Equals(object obj)
  30. {
  31. if (this == obj)
  32. return true;
  33. return CompareTo((Time)obj) == 0;
  34. }
  35. public override int GetHashCode()
  36. {
  37. int result = 1;
  38. result += this.Hour;
  39. result *= 31;
  40. result += this.Minute;
  41. result *= 31;
  42. result += this.Second;
  43. return result;
  44. }
  45. public override string ToString()
  46. {
  47. StringBuilder sb = new StringBuilder();
  48. sb.Append(this.Hour < 10 ? "0" + this.Hour : this.Hour.ToString());
  49. sb.Append(":");
  50. sb.Append(this.Minute < 10 ? "0" + this.Minute : this.Minute.ToString());
  51. sb.Append(":");
  52. sb.Append(this.Second < 10 ? "0" + this.Second : this.Second.ToString());
  53. return sb.ToString();
  54. }
  55. }
  56. }

Event 类

  1. namespace _3._1._4
  2. {
  3. public class Event
  4. {
  5. public string EventMessage { get; set; }
  6. public Event() : this(null) { }
  7. public Event(string message)
  8. {
  9. this.EventMessage = message;
  10. }
  11. public override string ToString()
  12. {
  13. return this.EventMessage;
  14. }
  15. }
  16. }

SymbolTable 库




size() 方法只需要直接返回当前的 n 值即可。

delete() 方法需要遍历链表,找到对应结点并删除。

keys() 方法只需要根据当前的 n 新建一个数组,把链表中的键值存入即可。

  1. /// <summary>
  2. /// 从表中删去键 <paramref name="key"/> 及其对应的值。
  3. /// </summary>
  4. /// <param name="key">要删除的键。</param>
  5. public void Delete(Key key)
  6. {
  7. if (key == null)
  8. throw new ArgumentNullException("key can't be null");
  9. Node before = null, target = this.first;
  10. while (target != null && !target.Key.Equals(key))
  11. {
  12. before = target;
  13. target = target.Next;
  14. }
  15. if (target != null)
  16. Delete(before, target);
  17. }
  18. /// <summary>
  19. /// 从链表中删除指定的结点。
  20. /// </summary>
  21. /// <param name="before"><paramref name="target"/> 的前驱。</param>
  22. /// <param name="target">准备删除的结点。</param>
  23. /// <exception cref="ArgumentNullException">当 <paramref name="target"/> 为 <c>null</c> 时抛出此异常。</exception>
  24. private void Delete(Node before, Node target)
  25. {
  26. if (target == null)
  27. throw new ArgumentNullException("target can't be null");
  28. if (before == null)
  29. this.first = target.Next;
  30. else
  31. before.Next = target.Next;
  32. this.n--;
  33. }
  34. /// <summary>
  35. /// 获得所有的键。
  36. /// </summary>
  37. /// <returns>包含所有键的集合。</returns>
  38. public IEnumerable<Key> Keys()
  39. {
  40. Key[] keys = new Key[this.n];
  41. Node pointer = this.first;
  42. for (int i = 0; i < this.n; i++)
  43. {
  44. keys[i] = pointer.Key;
  45. pointer = pointer.Next;
  46. }
  47. return keys;
  48. }
  49. /// <summary>
  50. /// 获取符号表中的键值对数量。
  51. /// </summary>
  52. /// <returns>当前符号表中的键值对数量。</returns>
  53. public int Size() => this.n;

SymbolTable 库



FrequencyCounter 的官方实现:https://algs4.cs.princeton.edu/31elementary/FrequencyCounter.java.html


因此 Put 的调用次数就等于单词总数 W +1(注意寻找最大值的时候有一次 Put 调用)

对于重复的单词,输入时会先调用 Get 获得当前计数之后再 Put 回去。

寻找最大值时,对于符号表中的每个键值都会调用两次 Get。

重复的单词数量 = (W - D)。

因此 Get 方法的调用次数 = (W - D) + 2D



FrequencyCounter 中添加一个 CountDistinct 方法,计算不重复的键数。

  1. public static int CountDistinct<TKey>(TKey[] keys, IST<TKey, int> st)
  2. {
  3. int distinct = 0;
  4. for (int i = 0; i < keys.Length; i++)
  5. {
  6. if (!st.Contains(keys[i]))
  7. st.Put(keys[i], distinct++);
  8. }
  9. return distinct;
  10. }



SymbolTable 库



FrequencyCounter 的官方实现:https://algs4.cs.princeton.edu/31elementary/FrequencyCounter.java.html


官网给出的数据末尾有完整的版权说明,因此使用频率最高的单词变成了版权方的名字 Gutenberg-tm。



SymbolTable 库



FrequencyCounter 的官方实现:https://algs4.cs.princeton.edu/31elementary/FrequencyCounter.java.html


对 FrequencyCounter 做修改,在调用 Put 方法之前,将单词记录在字符串变量 lastPut 中。

在读入单词结束之后输出 lastPutwords 变量。


  1. public static string MostFrequentlyWord(string filename, int minLength, IST<string, int> st)
  2. {
  3. int distinct = 0, words = 0;
  4. StreamReader sr = new StreamReader(File.OpenRead(filename));
  5. string[] inputs =
  6. sr
  7. .ReadToEnd()
  8. .Split(new char[] { ' ', '\r', '\n' },
  9. StringSplitOptions.RemoveEmptyEntries);
  10. string lastPut = "";
  11. foreach (string s in inputs)
  12. {
  13. if (s.Length < minLength)
  14. continue;
  15. words++;
  16. if (st.Contains(s))
  17. {
  18. lastPut = s;
  19. st.Put(s, st.Get(s) + 1);
  20. }
  21. else
  22. {
  23. lastPut = s;
  24. st.Put(s, 1);
  25. distinct++;
  26. }
  27. }
  28. Console.WriteLine("Last Put: " + lastPut + "\t words count: " + words);
  29. string max = "";
  30. st.Put(max, 0);
  31. foreach (string s in st.Keys())
  32. if (st.Get(s) > st.Get(max))
  33. max = s;
  34. return max;
  35. }

SymbolTable 库






共比较 0 + 1 + 2 + 3 + 4 + 5 + 6 + 4 + 6 + 7 + 8 + 9 = 55 次。





共进行了 0 + 1 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 4 = 29 次比较。



建立类 Item

  1. public class Item<TKey, TValue> : IComparable<Item<TKey, TValue>>
  2. where TKey : IComparable<TKey>
  3. {
  4. public TKey Key { get; set; }
  5. public TValue Value { get; set; }
  6. public int CompareTo(Item<TKey, TValue> other)
  7. {
  8. return this.Key.CompareTo(other.Key);
  9. }
  10. }

之后修改 BinarySearchST,将其中的 TKey[] keysTValue[] values 数组用 Item[] items 数组代替。

例如 keys[i] 变为 items[i].Keyvalues[i] 变为 items[i].Value


  1. /// <summary>
  2. /// 根据已有的键值对构造一个符号表。
  3. /// </summary>
  4. /// <param name="items">已有的键值对。</param>
  5. public ItemBinarySearchST(Item<TKey, TValue>[] items)
  6. {
  7. this.items = new Item<TKey, TValue>[items.Length];
  8. Array.Copy(items, this.items, items.Length);
  9. this.n = items.Length;
  10. MergeSort merge = new MergeSort();
  11. merge.Sort(this.items);
  12. }

Merge 库

SymbolTable 库



Get() 调用次数比 Put() 调用次数多了三个数量级,

BinarySearchSTSequentialSearchST 的平均 Put() 开销是一样的,

因此选择平均 Get() 开销更小的 BinarySearchST



根据上题给出的结论,选择 BinarySearchST

由于 BinarySearchSTSequentialSearchST 执行 Put() 的开销相同

因此选择 Get() 开销更低的 BinarySearchST



假设先全部 Put(),再进行查找操作。

即分别进行 $ 1 $, $ 10 ^ 3 $, $ 10 ^ 6 $ 次插入

$ N = 1 $ 时,可以直接得出比例 $ 0.1 % \(。
\) N = 10 ^ 3 $ 时,

插入耗时 $ = 1 + 2 + ... + 10 ^ 3 = 500500 $,

查询耗时 $ = 10 ^ 6 * \lg(10 ^ 3) = 9965784 $,

比例为 $ 4.782 % \(。
\) N = 10 ^ 6 $ 时

插入耗时 $ = 1 + 2 + ... + 10 ^ 6 = 500000500000 $,

查询耗时 $ = 10 ^ 9 * \lg(10 ^ 6) = 19931568569 $,

比例为 $ 96.17 % ​$。





  1. public void Delete(TKey key)
  2. {
  3. if (key == null)
  4. throw new ArgumentNullException("argument to Delete() is null");
  5. if (IsEmpty())
  6. return;
  7. int i = Rank(key);
  8. if (i == this.n && this.keys[i].CompareTo(key) != 0)
  9. return;
  10. for (int j = i; j < this.n - 1; j++)
  11. {
  12. this.keys[j] = this.keys[j + 1];
  13. this.values[j] = this.values[j + 1];
  14. }
  15. this.n--;
  16. this.keys[this.n] = default(TKey);
  17. this.values[this.n] = default(TValue);
  18. if (this.n > 0 && this.n == this.keys.Length / 4)
  19. Resize(this.n / 2);
  20. }

SymbolTable 库




先通过二分查找大于等于 key 的键下标 i

如果 keys[i]key 相等则直接返回 keys[i]

否则返回 keys[i-1]

  1. public TKey Floor(TKey key)
  2. {
  3. if (key == null)
  4. throw new ArgumentNullException("argument to Floor() is null");
  5. int i = Rank(key);
  6. if (i < this.n && this.keys[i].CompareTo(key) == 0)
  7. return this.keys[i];
  8. if (i == 0)
  9. return default(TKey);
  10. else
  11. return this.keys[i - 1];
  12. }

SymbolTable 库



设 key 为目标键。

算法初始时 lo = 0, hi = n - 1,数组已排序。

当找到目标键时,返回的下标 mid 显然是正确的。

(0...a[mid - 1] 都小于 a[mid],同时 a[mid] = key)

接下来证明:当目标键不存在时,lo 可以代表小于 key 的键的个数。

由算法内容,当循环退出时,一定有 lo 和 hi 交叉,即 lo > hi。

考虑最后一次循环,必然执行了 lo = mid + 1 或者 hi = mid - 1。

即最后一次循环之后 lo = mid + 1 > hi 或 hi = mid - 1 < lo。

又由于 mid = (lo + hi) / 2,代入有:

即(lo + hi) / 2 + 1 > hi 或(lo + hi) / 2 - 1 < lo

(lo - hi) / 2 + 1 > 0 或(hi - lo) / 2 - 1 < 0

(hi - lo) / 2 < 1

hi - lo < 2

由于 hi 和 lo 都是整数,故有 hi -lo <= 1


下标小于 lo 的元素都小于 key,下标大于 hi 的元素都大于 key

且下标小于 lo 的元素正好有 lo 个 (0...lo - 1)。

当 lo = hi 时,mid = lo

若 key > lo,则 lo = lo + 1,即 a[lo] 本身也小于 key。

若 key < lo,lo 不变,即 a[lo] 就是大于 key 的第一个元素。

当 lo = hi - 1 时,mid = lo

若 key > lo,则 lo = lo + 1 = hi,变为上一种情况。

若 key < lo,则 hi = lo - 1,a[lo] 是大于 key 的第一个元素。

综上,Rank() 是正确的。




  1. string max = "";
  2. Queue<string> queue = new Queue<string>();
  3. st.Put(max, 0);
  4. foreach (string s in st.Keys())
  5. {
  6. if (st.Get(s) > st.Get(max))
  7. {
  8. max = s;
  9. queue.Clear();
  10. queue.Enqueue(s);
  11. }
  12. else if (st.Get(s) == st.Get(max))
  13. {
  14. queue.Enqueue(s);
  15. }
  16. }

SymbolTable 库



国内的书中关于命题 B 的证明有错误,新版的证明如下:

虽然新版还是有个小错误,$ n-2 $ 应该改为 $ k-2 $。



已知对于 $ N=0 ​$,满足 $ C(0) \le C(1) ​$。

假设对于 $ N=n ​$,满足 $ C(n) \le C(n+1) ​$。


& C(n) & \le C(\lfloor n/2 \rfloor) + 1 \\
& C(n+1) & \le
C(\lfloor n/2 \rfloor) +1 & \text{$ n $ 是偶数} \\
C(\lfloor n/2 \rfloor + 1) + 1 & \text{$ n $ 是奇数}
& C(n+2) & \le C(\lfloor n/2 \rfloor + 1) + 1

又 $ C(n) \le C(n+1) ​$ ,推出 $ C(\lfloor n/2 \rfloor) + 1 \le C(\lfloor n/2 \rfloor + 1) + 1 ​$。

故 $ C(n+1) \le C(n+2) ​\(,由数学归纳法,\) C(n) \le C(n+1) ​$ 成立。

已知当 $ N = 2^k - 1 $ 时,有 $ C(N) \le k = \lg(N+1) \le \lg N + 1$。

接下来证明在 $ (2^k - 1, 2^{k + 1} -1) $ 范围内上式仍然成立。

不妨设 $ 0 < M < 2^k $ ,则有 $ 2^k - 1 < N + M < 2^{k + 1} -1 \(。
转变为证:\) C(N+M) \le \lg (N+M) + 1 $ 。

由于 $ C(N+M) $ 是一个整数,则 $ \lfloor \lg(N+M) +1\rfloor = k+1 $。

即求证: $ C(N+M) \le k+1 $。

由单调性可得 $ C(N+M) \le C(2^{k+1} - 1) \le k+1 ​$,得证。




包含一个键数组和一个值数组,以及一个 int 变量。

数组长度变化范围为 N~4N ,故总大小:

从 2 × (24 + 8N) +4 = 52 + 16N 字节 (100 %),

到 2 × (24 + 32N) +4 = 52 + 64N 字节(25 %)之间变动。


包含 N 个结点以及一个 int 变量

(16 + 8 + 8 + 8)N + 4 = 4 + 40N 字节



Get() 做修改,得到 MoveToFrontArrayST

  1. public TValue Get(TKey key)
  2. {
  3. int i;
  4. for (i = 0; i < this.n; i++)
  5. if (this.keys[i].Equals(key))
  6. break;
  7. if (i == this.n)
  8. return default(TValue);
  9. TKey toFrontKey = this.keys[i];
  10. TValue toFrontValue = this.values[i];
  11. for (int j = i; j > 0; j--)
  12. this.keys[j] = this.keys[j - 1];
  13. for (int j = i; j > 0; j--)
  14. this.values[j] = this.values[j - 1];
  15. this.keys[0] = toFrontKey;
  16. this.values[0] = toFrontValue;
  17. return this.values[0];
  18. }

SymbolTable 库



这里的右移操作可以理解为 「小数点前移一位」


对于十进制,小数点前移一位会使 $ n $ 变为 $ \lfloor n / 10 \rfloor $。

同样对于二进制就会使 $ n $ 变为 $ \lfloor n / 2 \rfloor $。

当需要除以 $ 2 $ 的 $ k $ 次幂的时候,可以用右移 $ k $ 位代替并减少时间开销。

同理可以用左移 $ k $ 位来代替乘以 $ 2 $ 的 $ k $ 次幂。



并且某些语言(C / C++)的编译器已经可以自动执行这项优化了。


二分查找的最大查找次数 = $ \lg N + 1$ (见 3.1.20 的证明)

一个数最多被左移的次数也正好等于 $ \lfloor \lg N \rfloor + 1 $

(任意正整数都能被表示为 $ 2 ^ k + m $ 的形式,即 $ k +1 $ 位二进制数)

因此一次二分查找所需的最大比较次数正好是 $ N $ 的二进制表示的位数。



FrequencyCounter 的官方实现:https://algs4.cs.princeton.edu/31elementary/FrequencyCounter.java.html

二分查找总是与中间值进行比较,现在改为与数组中第 x% 位置上的元素比较。

具体而言,$ \frac{k_x-k_{lo}}{k_{hi}-k_{lo}} $ 代表数组在均匀情况下目标值 $ k_x $ 的相对位置(一个比率,在数组第 x% 的位置上)。

那么相对应的下标就等于 $ lo+\frac{k_x-k_{lo}}{k_{hi}-k_{lo}} \times (hi - lo) $。

用这个式子代替原来的 $ mid=lo + (hi-lo)/2 $ 即可。



实验结果也证实了这一判断,就随机数组而言,插值查找相对于二分查找只有 1% 左右的性能提升。


SearchCompare 在书中没有出现,但可以简单的实现为调用 FrequencyCounter 并计时的方法:

  1. public static long Time<TKey>(IST<TKey, int> st, TKey[] keys)
  2. {
  3. Stopwatch sw = new Stopwatch();
  4. sw.Start();
  5. FrequencyCounter.MostFrequentlyKey(st, keys);
  6. sw.Stop();
  7. return sw.ElapsedMilliseconds;
  8. }

由于这里需要使用数字而非字符串作为键值,需要对官方给出的 FrequencyCounter 做一些修改:

  1. public static TKey MostFrequentlyKey<TKey> (IST<TKey, int> st, TKey[] keys)
  2. {
  3. foreach (TKey s in keys)
  4. {
  5. if (st.Contains(s))
  6. st.Put(s, st.Get(s) + 1);
  7. else
  8. st.Put(s, 1);
  9. }
  10. TKey max = keys[0];
  11. foreach (TKey s in st.Keys())
  12. if (st.Get(s) > st.Get(max))
  13. max = s;
  14. return max;
  15. }

SymbolTable 库



英文原文指的是 most recently accessed key,因此指的是最近访问的键。

实现比较简单,先在类中定义一个新的成员 cache 作为缓存,

然后修改 Get 方法,在实际查找之前先检查缓存,如果缓存未命中则在查找之后更新它。





cache 是一个 int 类型的变量,代表下标。



  1. public TValue Get(TKey key)
  2. {
  3. if (key == null)
  4. throw new ArgumentNullException("argument to Get() is null");
  5. if (IsEmpty())
  6. return default(TValue);
  7. if (this.cache < this.n && this.keys[this.cache].Equals(key)) // 缓存检查
  8. return this.values[this.cache];
  9. int rank = Rank(key);
  10. if (rank < this.n && this.keys[rank].Equals(key))
  11. {
  12. this.cache = rank; // 更新缓存
  13. return this.values[rank];
  14. }
  15. return default(TValue);
  16. }


cache 是一个结点类型的变量,代表一个键值对。


要注意的是如果缓存的结点被删除,需要将缓存置为 null

Get() 方法

  1. public TValue Get(TKey key)
  2. {
  3. if (key == null)
  4. throw new ArgumentNullException("key can't be null");
  5. if (this.cache != null && this.cache.Key.Equals(key)) // 检查缓存
  6. return this.cache.Value;
  7. for (Node pointer = this.first; pointer != null; pointer = pointer.Next)
  8. {
  9. if (pointer.Key.Equals(key))
  10. {
  11. this.cache = pointer; // 更新缓存
  12. return pointer.Value;
  13. }
  14. }
  15. return default(TValue);
  16. }

Delete() 方法

  1. public void Delete(TKey key)
  2. {
  3. if (key == null)
  4. throw new ArgumentNullException("key can't be null");
  5. Node before = null, target = this.first;
  6. while (target != null && !target.Key.Equals(key))
  7. {
  8. before = target;
  9. target = target.Next;
  10. }
  11. if (target == this.cache) // 删除缓存
  12. this.cache = null;
  13. if (target != null)
  14. Delete(before, target);
  15. }

SymbolTable 库





浏览器可能会直接打开 txt,此时右键链接-目标另存为即可下载。

FrequencyCounter 的官方实现:https://algs4.cs.princeton.edu/31elementary/FrequencyCounter.java.html

我们利用 BinarySearchST 会自动对键排序的性质来实现字典序排序。

首先将字典存到一个符号表中,按照 “单词-序号” 的形式保存。


则将其以 “序号-单词” 的形式存到 BinarySearchST 中去。

读入完毕后,遍历 BinarySearchST 即可获得字典序的单词列表。




测试结果,取 minLength = 13,只截取了部分。

  1. public static void LookUpDictionary(string filename, string dictionaryFile, int minLength)
  2. {
  3. // 初始化字典
  4. StreamReader sr = new StreamReader(File.OpenRead(dictionaryFile));
  5. string[] words = sr.ReadToEnd().Split(new char[] { ' ', '\r', '\n' }, StringSplitOptions.RemoveEmptyEntries);
  6. BinarySearchST<string, int> dictionary = new BinarySearchST<string, int>();
  7. for (int i = 0; i < words.Length; i++)
  8. {
  9. if (words[i].Length > minLength)
  10. dictionary.Put(words[i], i);
  11. }
  12. sr.Close();
  13. // 读入单词
  14. StreamReader srFile = new StreamReader(File.OpenRead(filename));
  15. string[] inputs = srFile.ReadToEnd().Split(new char[] { ' ', '\r', '\n' }, StringSplitOptions.RemoveEmptyEntries);
  16. srFile.Close();
  17. BinarySearchST<int, string> stDictionary = new BinarySearchST<int, string>();
  18. BinarySearchST<string, int> stFrequency = new BinarySearchST<string, int>();
  19. foreach (string s in inputs)
  20. {
  21. if (stFrequency.Contains(s))
  22. stFrequency.Put(s, stFrequency.Get(s) + 1);
  23. else if (dictionary.Contains(s))
  24. {
  25. stFrequency.Put(s, 1);
  26. stDictionary.Put(dictionary.Get(s), s);
  27. }
  28. }
  29. // 输出字典序
  30. Console.WriteLine("Alphabet");
  31. foreach (int i in stDictionary.Keys())
  32. {
  33. string s = stDictionary.Get(i);
  34. Console.WriteLine(s + "\t" + stFrequency.Get(s));
  35. }
  36. // 频率序
  37. Console.WriteLine("Frequency");
  38. int n = stFrequency.Size();
  39. for (int i = 0; i < n; i++)
  40. {
  41. string max = "";
  42. stFrequency.Put(max, 0);
  43. foreach (string s in stFrequency.Keys())
  44. if (stFrequency.Get(s) > stFrequency.Get(max))
  45. max = s;
  46. Console.WriteLine(max + "\t" + stFrequency.Get(max));
  47. stFrequency.Delete(max);
  48. }
  49. }

SymbolTable 库



事实上就是说,先构造一个包含 N 个不重复键的符号表,然后进行 S 次查找。

给出 S 的增长数量级,使得构造符号表的成本和查找的成本相同。


先考虑构造符号表的成本,一次 Put() 需要调用一次 Rank() 和一次插入操作。

2.1 节插入排序的命题 B 给出了每次插入平均需要移动一半的数组元素的结论。

于是构造符号表所需的成本约为:$n\lg n + \frac{1}{2}\sum_{k=1}^{n} k=n\lg n + \frac{n(n-1)}{4} $ 。

这里查找的成本是这么计算的:$ \lg0+\lg1+\cdots+\lg n < n\lg n $

查找所需的成本比较简单,一次二分查找的比较次数约为 $ \lg n $,总成本就是 $ S\lg n $ 。

令两边相等,解方程即可得到 $ S=n+\frac{n(n-1)}{4\lg n} $ 。

如果用大 O 记法,也可以记为 $ O(n^2 / \lg n) $,如果要选择一个比较常用的上界则可以选择 $ O(n^2) $。



SymbolTable 库





  1. /* 省略 */
  2. if (this.n == this.keys.Length)
  3. Resize(this.n * 2);
  4. // 如果插入的键比所有键都大则直接插入末尾。
  5. if (this.n == 0 || this.keys[this.n - 1].CompareTo(key) < 0)
  6. {
  7. this.keys[this.n] = key;
  8. this.values[this.n] = value;
  9. this.n++;
  10. return;
  11. }
  12. int i = Rank(key);
  13. /* 省略 */

SymbolTable 库





  1. /* 省略 */
  2. Console.WriteLine("Testing Select()");
  3. Console.WriteLine("-----------------------------------");
  4. for (int i = 0; i < st.Size(); i++) // 循环条件不能有 '='
  5. Console.WriteLine(i + " " + st.Select(i));
  6. Console.WriteLine();
  7. /* 省略 */
  8. while (!st.IsEmpty())
  9. st.Delete(st.Select(st.Size() / 2));
  10. Console.WriteLine("After deleting the remaining keys");
  11. Console.WriteLine("-----------------------------------");
  12. // 异常处理
  13. try
  14. {
  15. foreach (string s in st.Keys())
  16. Console.WriteLine(s + " " + st.Get(s));
  17. }
  18. catch (Exception ex)
  19. {
  20. Console.WriteLine("Exception: " + ex.Message);
  21. }
  22. Console.WriteLine();
  23. /* 省略 */


  1. size = 10
  2. min = A
  3. max = X
  4. Testing Keys()
  5. -----------------------------------
  6. A 8
  7. C 4
  8. E 12
  9. H 5
  10. L 11
  11. M 9
  12. P 10
  13. R 3
  14. S 0
  15. X 7
  16. Testing Select()
  17. -----------------------------------
  18. 0 A
  19. 1 C
  20. 2 E
  21. 3 H
  22. 4 L
  23. 5 M
  24. 6 P
  25. 7 R
  26. 8 S
  27. 9 X
  28. key Rank Floor Ceil
  29. -----------------------------------
  30. A 0 A A
  31. B 1 A C
  32. C 1 C C
  33. D 2 C E
  34. E 2 E E
  35. F 3 E H
  36. G 3 E H
  37. H 3 H H
  38. I 4 H L
  39. J 4 H L
  40. K 4 H L
  41. L 4 L L
  42. M 5 M M
  43. N 6 M P
  44. O 6 M P
  45. P 6 P P
  46. Q 7 P R
  47. R 7 R R
  48. S 8 S S
  49. T 9 S X
  50. U 9 S X
  51. V 9 S X
  52. W 9 S X
  53. X 9 X X
  54. Y 10 X
  55. Z 10 X
  56. After deleting the smallest 3 keys
  57. -----------------------------------
  58. H 5
  59. L 11
  60. M 9
  61. P 10
  62. R 3
  63. S 0
  64. X 7
  65. After deleting the remaining keys
  66. -----------------------------------
  67. Exception: called Min() with empty table
  68. After adding back N keys
  69. -----------------------------------
  70. A 8
  71. C 4
  72. E 12
  73. H 5
  74. L 11
  75. M 9
  76. P 10
  77. R 3
  78. S 0
  79. X 7

SymbolTable 库




首先在 BinarySearchST 中添加如下方法。

  1. /// <summary> 检查符号表结构是否有效。 </summary>
  2. private bool Check() => IsSorted() && RankCheck();
  3. /// <summary> 检查 <see cref="keys"/> 数组是否有序。 </summary>
  4. private bool IsSorted()
  5. {
  6. for (int i = 1; i < Size(); i++)
  7. if (this.keys[i].CompareTo(this.keys[i - 1]) < 0)
  8. return false;
  9. return true;
  10. }
  11. /// <summary> 检查 Rank(Select(i)) = i 是否成立。 </summary>
  12. private bool RankCheck()
  13. {
  14. for (int i = 0; i < Size(); i++)
  15. if (i != Rank(Select(i)))
  16. return false;
  17. for (int i = 0; i < Size(); i++)
  18. if (keys[i].CompareTo(Select(Rank(this.keys[i]))) != 0)
  19. return false;
  20. return true;
  21. }

然后在 Put()Delete() 方法的末尾添加:Debug.Assert(Check()); 即可。


SymbolTable 库




先编写一个随机字符串方法,生成一个长度大于 50 的字符串(作为未命中访问)。


然后遍历 10 次生成的字符串数组,对于数组中的每个元素都进行一次命中查询。




按照要求编写代码,在 SearchCompare 类里添加一个 Random random 成员,并添加如下方法:


  1. public static string GetRandomString(int minLength, int maxLength)
  2. {
  3. int length = random.Next(minLength, maxLength);
  4. StringBuilder sb = new StringBuilder();
  5. for (int i = 0; i < length; i++)
  6. {
  7. double choice = random.NextDouble();
  8. if (choice < 0.333)
  9. sb.Append((char)random.Next('A', 'Z'));
  10. else if (choice < 0.666)
  11. sb.Append((char)random.Next('a', 'z'));
  12. else
  13. sb.Append((char)random.Next('0', '9'));
  14. }
  15. return sb.ToString();
  16. }


  1. public static string[] GetRandomArrayString(int n, int minLength, int maxLength)
  2. {
  3. string[] result = new string[n];
  4. for (int i = 0; i < n; i++)
  5. {
  6. result[i] = GetRandomString(minLength, maxLength);
  7. }
  8. return result;
  9. }


  1. public static long Performance(IST<string, int> st, int n, int averageHit)
  2. {
  3. string[] keys = GetRandomArrayString(n, 2, 50);
  4. string keyNotExist = GetRandomString(51, 52);
  5. Stopwatch sw = Stopwatch.StartNew();
  6. // 构建
  7. for (int i = 0; i < n; i++)
  8. st.Put(keys[i], i);
  9. // 查询
  10. for (int i = 0; i < averageHit; i++)
  11. {
  12. for (int j = 0; j < n; j++)
  13. {
  14. st.Get(keys[j]);
  15. st.Get(keyNotExist);
  16. }
  17. }
  18. sw.Stop();
  19. return sw.ElapsedMilliseconds;
  20. }

SymbolTable 库




对于保持键有序的 BinarySearchST 来说,逆序输入是最坏情况,顺序输入则是最好情况。

而对于键无序的 SequentialSearchST 来说,输入顺序对于性能的影响不大。

只有一种键的时候,每次 Put 都只需要比较一次,值一直在被替换。



测试方法,IST 代表一个符号表。

  1. static void Test(IST<string, int>[] sts, int n)
  2. {
  3. Stopwatch sw = new Stopwatch();
  4. string[] data = SearchCompare.GetRandomArrayString(n, 3, 10);
  5. string item1 = "item1";
  6. Array.Sort(data);
  7. // 有序的数组
  8. Console.Write("Sorted Array: ");
  9. sw.Start();
  10. for (int i = 0; i < n; i++)
  11. {
  12. sts[0].Put(data[i], i);
  13. }
  14. sw.Stop();
  15. Console.WriteLine(sw.ElapsedMilliseconds);
  16. // 逆序的数组
  17. Console.Write("Sorted Array Reversed: ");
  18. sw.Restart();
  19. for (int i = n - 1; i >= 0; i--)
  20. {
  21. sts[1].Put(data[i], i);
  22. }
  23. sw.Stop();
  24. Console.WriteLine(sw.ElapsedMilliseconds);
  25. // 只有一种键
  26. Console.Write("One Distinct Key: ");
  27. sw.Restart();
  28. for (int i = 0; i < n; i++)
  29. {
  30. sts[2].Put(item1, i);
  31. }
  32. sw.Stop();
  33. Console.WriteLine(sw.ElapsedMilliseconds);
  34. // 只有两种值
  35. Console.Write("Two Distinct Values: ");
  36. sw.Restart();
  37. for (int i = 0; i < n; i++)
  38. {
  39. sts[3].Put(data[i], i % 2);
  40. }
  41. sw.Stop();
  42. Console.WriteLine(sw.ElapsedMilliseconds);
  43. }

SymbolTable 库




假设存有键的数组为 keys,对 keys 排序。

然后再建立一个长度为 10N 的数组 querys

前 1/2 置为 keys[0],1/2 到 3/4 置为 keys[1],以此类推,直到数组填满。

然后遍历 query 数组,对符号表进行 Get() 操作。


  1. static void Main(string[] args)
  2. {
  3. int n = 1000;
  4. int multiplyBy10 = 3;
  5. for (int i = 0; i < multiplyBy10; i++)
  6. {
  7. Console.WriteLine("n=" + n);
  8. // 构造表
  9. BinarySearchST<string, int> bst = new BinarySearchST<string, int>(n);
  10. MoveToFrontArrayST<string, int> mst = new MoveToFrontArrayST<string, int>(n);
  11. string[] keys = SearchCompare.GetRandomArrayString(n, 3, 20);
  12. for (int j = 0; j < n; j++)
  13. {
  14. bst.Put(keys[j], j);
  15. mst.Put(keys[j], j);
  16. }
  17. // 构造查询
  18. Array.Sort(keys);
  19. string[] querys = new string[10 * n];
  20. int queryIndex = 0, keyIndex = 0;
  21. while (queryIndex < querys.Length)
  22. {
  23. int searchTimes = (int)Math.Ceiling((Math.Pow(0.5, keyIndex + 1) * querys.Length));
  24. for (int j = 0; j < searchTimes && queryIndex < querys.Length; j++)
  25. {
  26. querys[queryIndex++] = keys[keyIndex];
  27. }
  28. keyIndex++;
  29. }
  30. Shuffle(querys);
  31. Stopwatch sw = new Stopwatch();
  32. // 测试 MoveToFrontArrayST
  33. sw.Start();
  34. for (int j = 0; j < querys.Length; j++)
  35. {
  36. mst.Get(querys[j]);
  37. }
  38. sw.Stop();
  39. Console.WriteLine("MoveToFrontArrayST: " + sw.ElapsedMilliseconds);
  40. // 测试 BinarySearchST
  41. sw.Restart();
  42. for (int j = 0; j < querys.Length; j++)
  43. {
  44. bst.Get(querys[j]);
  45. }
  46. sw.Stop();
  47. Console.WriteLine("BinarySearchST: " + sw.ElapsedMilliseconds);
  48. n *= 10;
  49. }
  50. }
  51. static void Shuffle<T>(T[] data)
  52. {
  53. for (int i = 0; i < data.Length; i++)
  54. {
  55. int r = i + random.Next(data.Length - i);
  56. T temp = data[r];
  57. data[r] = data[i];
  58. data[i] = temp;
  59. }
  60. }

SymbolTable 库



在上一题的基础上进行修改即可,链接:{% post_link 3.1.33 %}。

调和级数 $ H_n = 1+\frac{1}{2}+\frac{1}{3} + \cdots+\frac{1}{n} $ 。

查询数组变为前 1/2 为 key[0],随后的 1/3 为 key[1],以此类推。





  1. // 调和级数
  2. double[] harmonicNumber = new double[1000 * (int)Math.Pow(10, 4)];
  3. harmonicNumber[0] = 1;
  4. for (int i = 1; i < harmonicNumber.Length; i++)
  5. {
  6. harmonicNumber[i] = harmonicNumber[i - 1] + 1 / (i + 1);
  7. }


  1. // 构造查询
  2. Array.Sort(keys);
  3. string[] queryZipf = new string[10 * n];
  4. int queryIndex = 0, keyIndex = 0;
  5. while (queryIndex < queryZipf.Length)
  6. {
  7. int searchTimes = (int)Math.Ceiling(queryZipf.Length / (harmonicNumber[keyIndex + 1] * (i + 1)));
  8. for (int j = 0; j < searchTimes && queryIndex < queryZipf.Length; j++)
  9. {
  10. queryZipf[queryIndex++] = keys[keyIndex];
  11. }
  12. keyIndex++;
  13. }

SymbolTable 库




由于包含重复单词,因此结果会比 4 略低一些。

需要对 FrequencyCounter 做一些修改,令其只取前 n 个单词。

  1. static void Main(string[] args)
  2. {
  3. int n = 8000;
  4. int multiplyBy2 = 5;
  5. int repeatTimes = 5;
  6. double lastTime = -1;
  7. Console.WriteLine("n\ttime\tratio");
  8. for (int i = 0; i < multiplyBy2; i++)
  9. {
  10. Console.Write(n + "\t");
  11. long timeSum = 0;
  12. for (int j = 0; j < repeatTimes; j++)
  13. {
  14. SequentialSearchST<string, int> st = new SequentialSearchST<string, int>();
  15. Stopwatch sw = Stopwatch.StartNew();
  16. FrequencyCounter.MostFrequentlyWord("tale.txt", n, 0, st);
  17. sw.Stop();
  18. timeSum += sw.ElapsedMilliseconds;
  19. }
  20. timeSum /= repeatTimes;
  21. Console.Write(timeSum + "\t");
  22. if (lastTime < 0)
  23. Console.WriteLine("--");
  24. else
  25. Console.WriteLine(timeSum / lastTime);
  26. lastTime = timeSum;
  27. n *= 2;
  28. }
  29. }

SymbolTable 库



实验结果如下,增长级为 O(N) ,但速度很快。




  1. static void Main(string[] args)
  2. {
  3. int n = 8000;
  4. int multiplyBy2 = 5;
  5. int repeatTimes = 5;
  6. double lastTime = -1;
  7. Console.WriteLine("n\ttime\tratio");
  8. for (int i = 0; i < multiplyBy2; i++)
  9. {
  10. Console.Write(n + "\t");
  11. long timeSum = 0;
  12. for (int j = 0; j < repeatTimes; j++)
  13. {
  14. BinarySearchST<string, int> st = new BinarySearchST<string, int>();
  15. Stopwatch sw = Stopwatch.StartNew();
  16. FrequencyCounter.MostFrequentlyWord("tale.txt", n, 0, st);
  17. sw.Stop();
  18. timeSum += sw.ElapsedMilliseconds;
  19. }
  20. timeSum /= repeatTimes;
  21. Console.Write(timeSum + "\t");
  22. if (lastTime < 0)
  23. Console.WriteLine("--");
  24. else
  25. Console.WriteLine(timeSum / lastTime);
  26. lastTime = timeSum;
  27. n *= 2;
  28. }
  29. }

SymbolTable 库




M=10 的时候随机的数字集中在 1024 到 2048 之间,重复值较多,因此 Put 耗时较少。

随着重复值的减少 Put 的耗时会大幅度提高,和实验结果显示的一样。

M=20 的时候数字在 1048576~2097152 之间随机,基本上没有重复值了。

M=30 的时候和 M=20 的情况类似,都是重复值几乎没有的情况。


  1. result[i] = min + (long)(random.NextDouble() * (max - min));

这里构造了 BinarySearchSTAnalysis 类,在类中声明了两个 Stopwatch 对象,

一个在 Put 方法的开始和结束部分进行计时,

另一个在 Get 方法的开始和结束部分进行计时。

  1. static void Main(string[] args)
  2. {
  3. int n = 1000000;
  4. int m = 10;
  5. int addBy10 = 3;
  6. for (int i = 0; i < addBy10; i++)
  7. {
  8. BinarySearchSTAnalysis<long, int> bst = new BinarySearchSTAnalysis<long, int>(n);
  9. long[] data = SearchCompare.GetRandomArrayLong(n, (long)Math.Pow(2, m), (long)Math.Pow(2, m + 1));
  10. FrequencyCounter.MostFrequentlyKey(bst, data);
  11. Console.WriteLine("m=" + m + "\t" + bst.GetTimer.ElapsedMilliseconds + "\t" + bst.PutTimer.ElapsedMilliseconds + "\t" + bst.PutTimer.ElapsedMilliseconds / (double)bst.GetTimer.ElapsedMilliseconds);
  12. m += 10;
  13. }
  14. BinarySearchSTAnalysis<string, int> st = new BinarySearchSTAnalysis<string, int>();
  15. FrequencyCounter.MostFrequentlyWord("tale.txt", 0, st);
  16. Console.WriteLine("tales\t" + st.GetTimer.ElapsedMilliseconds + "\t" + st.PutTimer.ElapsedMilliseconds + "\t" + st.PutTimer.ElapsedMilliseconds / (double)st.GetTimer.ElapsedMilliseconds);
  17. Console.ReadLine();
  18. }

SymbolTable 库






对于 BinarySearchST ,每次比较之后以及移动元素时令 Cost 增加。

对于 SequentialSearchST,统计每次的查找次数即可。



有关绘图的函数,传入的参数为第 iPut() 的开销。

  1. public void Draw(int[] data)
  2. {
  3. Graphics panel = this.CreateGraphics();
  4. float unitX = (float)this.ClientRectangle.Width / data.Length;
  5. float unitY = (float)this.ClientRectangle.Height / data.Max();
  6. int accumulation = 0;
  7. for (int i = 0; i < data.Length; i++)
  8. {
  9. // Gray
  10. panel.FillEllipse(Brushes.Gray, (i + 1) * unitX, this.ClientRectangle.Bottom - data[i] * unitY, 2, 2);
  11. // Red
  12. panel.FillEllipse(Brushes.Red, (i + 1) * unitX, this.ClientRectangle.Bottom - accumulation / (i + 1) * unitY, 2, 2);
  13. accumulation += data[i];
  14. }
  15. }

SymbolTable 库







第一段两个图像的形状类似(注意它们的 y 轴比例不同)。

第二段中 BinarySearchST 的表现要比 SequentialSearchST 稳定的多。



  1. public void Draw(int[] x, long[] y)
  2. {
  3. Graphics panel = this.CreateGraphics();
  4. float unitX = (float)this.ClientRectangle.Width / x.Max();
  5. float unitY = (float)this.ClientRectangle.Height / y.Max();
  6. for (int i = 0; i < x.Length; i++)
  7. {
  8. panel.FillEllipse(
  9. Brushes.Black,
  10. x[i] * unitX,
  11. this.ClientRectangle.Height - y[i] * unitY,
  12. 2, 2);
  13. }
  14. }

SymbolTable 库



顺序查找平均需要进行 $ N/2 $ 次比较,二分查找则是 $ \lg N $ 次。

列出方程可以解出 N 的大小

\[\begin {eqnarray*}
1000 \log_2 N &=& N / 2 \\
\log_2 N &=& N / 2000\\
\frac{\ln N}{\ln 2} &=& N/2000 \\
N &=& e^{\frac{\ln 2}{2000}N}\\
1 &=& Ne^{-\frac{\ln 2}{2000}N}\\
N_1 = e^{-W(-\frac{\ln 2}{2000})}=1 &\ & N_2= e^{-W_{-1}(-\frac{\ln 2}{2000})}=29718\\ \\
\end {eqnarray*}

这个方程是一个超越方程,最后的结果中出现了朗伯 W 函数。

同理可以求得 10000 倍的 N=369939。





朗伯 W 函数-维基百科



英文版描述为 1, 2, and 10 times faster。



插值查找的平均查找次数为 $ \lg(\lg(N)) $。

可以解得 N = 1, 4, 58。


由于 N 太小,可以看到插值查找的运行时间几乎没有变化。

