算法:N-gram语法
一、N-gram介绍
n元语法(英语:N-gram)指文本中连续出现的n个语词。n元语法模型是基于(n - 1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学(如基于统计的自然语言处理NLP)、计算生物学(如序列分析)、数据压缩等领域。
N-gram文本广泛用于文本挖掘和自然语言处理任务。它们基本上是给定窗口内的一组同时出现的单词,在计算n元语法时,通常会将一个单词向前移动(尽管在更高级的场景中可以使X个单词向前移动)。
例如,对于句子"The cow jumps over the moon" ,N = 2(称为二元组),则 ngram 为:
- the cow
- cow jumps
- jumps over
- over the
- the moon
因此,在这种情况下,有 5 个 n-gram。
再来看看 N = 3,ngram 将为:
- the cow jumps
- cow jumps over
- jumps over the
- over the moon
因此,在这种情况下,有 4 个 n-gram。
所以,在一个句子中 N-grams 的数量有:
Ngrams(K) = X - (N - 1)
其中,X 为给定句子K中的单词数,N 为 N-gram 的N,指的是连续出现的 N 个单词。
N-gram用于各种不同的任务。例如,在开发语言模型时,N-grams不仅用于开发unigram模型,而且还用于开发bigram和trigram模型。谷歌和微软已经开发了网络规模的 n-gram模型,可用于多种任务,例如拼写校正、分词和文本摘要。N-gram的另一个用途是为受监督的机器学习模型(例如SVM,MaxEnt模型,朴素贝叶斯等)开发功能。其想法是在特征空间中使用标记(例如双字母组),而不是仅使用字母组合。
下面简单介绍一下如何用 Java 生成 n-gram。
二、用 Java 生成 n-gram
这个是生成 n-gram 的主要方法,方法首先是对传进来的句子 sentence 进行单词拆分,这个正则表达式“\\s+”是能匹配任何空白字符,包括空格、制表符、换页符等等, 等价于 [ \f\n\r\t\v]。拆分完后对单词进行拼接。算法时间复杂度为 O(X - (N - 1)),X 为给定句子K中的单词数,N 为 N-gram 的 N。
1 /**
2 * 生成n元语法
3 * <p>
4 * 一个句子中有多少个N-gram?
5 * 如果 X = 给定句子K中的单词数,则句子K的 N-gram数为:
6 * N(grams<K>) = X - (N - 1)
7 *
8 * @param n 连续 n个单词
9 * @param sentence 句子级别的文本
10 * @return 存着ngram的列表
11 */
12 public static List<String> ngrams(int n, String sentence) {
13 List<String> ngrams = new ArrayList<>();
14 String[] words = sentence.split("\\s+");
15 for (int i = 0; i < words.length - n + 1; i++)
16 ngrams.add(concat(words, i, i + n));
17 return ngrams;
18 }
进行单词拼接,这里使用 StringBuilder(线程不安全,效率相对StringBuffer高点)对拆分好的单词进行拼接并返回拼接好的字符串。
1 /**
2 * 拼接单词
3 *
4 * @param words 单词
5 * @param start 开始位置
6 * @param end 结束位置
7 * @return 拼接好的字符串
8 */
9 public static String concat(String[] words, int start, int end) {
10 StringBuilder sb = new StringBuilder();
11 for (int i = start; i < end; i++)
12 sb.append(i > start ? " " : "").append(words[i]);
13 return sb.toString();
14 }
对 n-gram 的出现次数进行统计,使用 HashMap<String, Integer> 来存储 n-gram 的出现次数,并且按照 value 的逆序排序 Map,次数较多的在前面先打印。这里使用 Java 8 Stream API 按照 value 降序顺序进行 Map 排序。
在 Java 8 中,Map.Entry类具有静态方法 comparingByValue() 来帮助按 value 排序,此方法返回以自然顺序 Comparator 比较 Map.Entry值的。还有,你可以传递自定义Comparator 以用于排序。
下面是根据 value 进行排序的方法:
1 /**
2 * 按 value对 HashMap进行逆序排序
3 * <p>
4 * 使用 Java 8 Stream API按照降序对Value进行Map排序
5 * 逻辑的中心是按自然顺序 Map.Entry.comparingByValue()比较 Map.Entry值的方法。
6 *
7 * @param unSortedMap 未排序的HashMap
8 * @return 按照value降序排序的HashMap
9 */
10 public static HashMap<String, Integer> sortByValue(HashMap<String, Integer> unSortedMap) {
11 // System.out.println("Unsorted Map : " + unSortedMap);
12
13 // LinkedHashMap保留插入元素的顺序
14 LinkedHashMap<String, Integer> reverseSortedMap = new LinkedHashMap<>();
15
16 // 使用 Comparator.reverseOrder() 进行反向排序
17 unSortedMap.entrySet()
18 .stream()
19 .sorted(Map.Entry.comparingByValue(Comparator.reverseOrder()))
20 .forEachOrdered(x -> reverseSortedMap.put(x.getKey(), x.getValue()));
21
22 // System.out.println("Reverse Sorted Map : " + reverseSortedMap);
23
24 return reverseSortedMap;
25 }
主函数测试代码:
1 public static void main(String[] args) {
2 HashMap<String, Integer> count = new HashMap<>();
3 String text = "I can go to the supermarket to buy spicy bars or go to the store to buy spicy bars.";
4
5 // 生成n为1~3的N元语法
6 // for (int n = 1; n <= 3; n++) {
7 // for (String ngram : ngrams(n, text)) {
8 // System.out.println(ngram);
9 // }
10 // System.out.println();
11 // }
12
13 for (String ngram : ngrams(3, text)) {
14 // counting ngram by using HashMap
15 if (!count.containsKey(ngram)) {
16 count.put(ngram, 1);
17 } else if (count.containsKey(ngram)) {
18 count.replace(ngram, count.get(ngram) + 1);
19 }
20 System.out.println(ngram);
21 }
22
23 // 按出现次由多到少的顺序打印ngram
24 System.out.println("\nCounting Result: ");
25 for (Map.Entry<String, Integer> entry : sortByValue(count).entrySet()) {
26 System.out.println(entry.getKey() + ": " + entry.getValue());
27 }
28
29 }
算法:N-gram语法的更多相关文章
- acm算法模板(2)
数学问题: 1.精度计算——大数阶乘 2.精度计算——乘法(大数乘小数) 3.精度计算——乘法(大数乘大数) 4.精度计算——加法 5.精度计算——减法 6.任意进制转换 7.最大公约数.最小公倍数 ...
- Lua学习系列(二)
资源整理: 风云老师博客: http://blog.codingnow.com/eo/luaoeeeaeau/ 知乎: https://www.zhihu.com/question/20736660 ...
- STL 小白学习(1) 初步认识
#include <iostream> using namespace std; #include <vector> //动态数组 #include <algorithm ...
- 学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
- J2EE开发实战基础系列之开卷有益
2014.10.24[致歉]{抱歉,从7.4号接到朋友的请求,一直忙到现在,最近又有新的CASE要忙,很抱歉教程要延误,开课时间请大家关注Q群} 时隔七年再次接触培训有关的事情,是兴奋,更多的是恐惧, ...
- boost开发指南
C++确实很复杂,神一样的0x不知道能否使C++变得纯粹和干爽? boost很复杂,感觉某些地方有过度设计和太过于就事论事的嫌疑,对实际开发工作的考虑太过于理想化.学习boost本身就是一个复杂度,有 ...
- 2019年10月13日 spss习题 wangqingchao
1.spss发行版本的说法,正确的是:B a.两年发行一个新版本 b.一年发行一个新版本 c.没有任何规律 d.三年发行一个新版本 2.哪些是spss统计分析软件的基本窗口:A a.结果查看 ...
- SPSS数据分析基础考题
选择题 1. SPSS发行版本的说法,正确的是: B A. 两年发行一个新版本 B.一年发行一个新版本 C.没有任何规律 D.三年发行三个新版本 2.哪些是SPSS统计分析软件的基本窗口: A A.结 ...
- 关于一些JS的运算符
首先呢,什么是JavaScript:JavaScript是一种脚本语言,也是一种解释型语言,更是一种由数据值决定变量类型的弱类型语言 JavaScript主要由三部分组成 ECMAScript 这个 ...
随机推荐
- vue-cli3项目中使用vue-ueditor-wrap
Vue + UEditor + v-model 双向绑定 一.安装 1 npm i vue-ueditor-wrap 2 # 或者 3 yarn add vue-ueditor-wrap 二.下载文件 ...
- 获取发布版SHA1和调试版SHA1
总结 调试版: 常见问题 | 高德地图API (amap.com) 发布版: 首先需要生成签名 Android Studio生成签名文件,自动签名,以及获取SHA1和MD5值_donkor_的博客-C ...
- 数据结构逆向分析-Vector
数据结构逆向分析-Vector 这个应该是家喻户晓了的东西把,如果说C/C++程序员Vector都不用的话,可能就是一个不太好的程序员. Vector就是一个STL封装的动态数组,数组大家都知道是通过 ...
- js屏蔽右键代码
<script type="text/javascript"> document.body.oncontextmenu=document.body.ondragstar ...
- Jmeter系列(11)- 自动化压力测试逻辑思路及例子
为什么需要进行自动化压力测试 手动逐步加压,需要人工改变并发数,还要等待.所有,我们完全可以制定好策略,让程序自动加压,自动等待,输出报告 实现思路 Jmeter脚本(.jmx文件)- 压测逻辑 Sh ...
- MySQL&ES连接池
数据库的连接池建议放在类似settings.py的配置模块中,因为基本都是配置项,方便统一管理. 1) 连接池类#settings.py import os from DBUtils.PooledDB ...
- lua自写限制并发访问模块
注意:ngx.say跟ngx.exit是不可以共存,否则会出现ngx.exit无法正常执行 1.定义lua共享内存20m lua_shared_dict ceshi 20m; 2.再location ...
- P3964-[TJOI2013]松鼠聚会【计算几何】
正题 题目链接:https://www.luogu.com.cn/problem/P3964 题目大意 给出\(n\)个点,求一个点使得它到所有点的切比雪夫距离和最小. \(0\leq n\leq 1 ...
- P4756-Added Sequence【斜率优化】
正题 题目链接:https://www.luogu.com.cn/problem/P4756 题目大意 给出序列\(a\),设\(f(l,r)=|\sum_{i=l}^ra_i|\). \(m\)次询 ...
- 从零开始部署 Yapi(Windows+Nginx)
一.环境准备及安装 本文中是以本地 Windows 作为安装环境,Nginx 做反向代理,亲测验证可用. Yapi 运行需要的环境: Nodejs,MongoDB 安装包都在文档末尾处 1.1 安装 ...