一、两种分词标准:

1. 粗粒度。

  • 将词作为最小基本单位。比如:浙江大学。
  • 主要用于自然语言处理的各种应用。

2. 细粒度。

  • 不仅对词汇继续切分,也对词汇内部的语素进行切分。比如:浙江/大学。
  • 主要用于搜索引擎。一种常用方案是:
    • 索引的时候使用细粒度的分词以保证召回,比如浙江/大学
    • 询的时候使用粗粒度的分词以保证精度

二、歧义

1.分类:

  • 交集型切分歧义。对于AJB,AJ和JB都成词
  • 组合型切分歧义。对于AB,A、B、AB都成词
  • 多义组合型切分歧义。对于AB,(1)A、B、AB同时为词;(2)文本中至少存在一个上下文语境c,在c的约束下,A、B在语法和语义上都成立
  • PS:语法与语义
    • 语法:语言符号之间的关系
    • 语义:语言符号与所指事物之间的关系

2. 解决方法(分词算法)

  • 机械分词系统

    • 基于最大匹配方法MM(The Maximum Matching Method)

      • 设词典中的最长词条为L,每次先取L个词尝试匹配,若失败,就去掉最后一个字,取前L-1个词尝试匹配,以此类推
    • 双向匹配法
      • MM的改进算法,分为正向最佳匹配法和逆向最佳匹配法
      • 两个方向得到的结果必然不同
      • 缺陷:只能正向或逆向得找出最长的词,而不能找出所有的候选词条
    • 双向扫描法
      • 以上的改进算法,能更快速的检测出歧义产生的位置
    • 整体缺点:没有考虑词汇上下文相关性,分词准确度不高
  • 机械分词系统揭示了一个语言规律:
    • 一个词汇的出现与其上下文环境中出现的词汇序列存在着紧密的联系
    • 上下文相关性:
      • 文本中第n个词的出现与其前后n-m和n+m个词有高度相关性,这个范围[-m,m]称为窗口范围
      • 计算:Markov假设+最大似然估计,看笔记

三、未登录词识别(Named Entity Recognition, NER)

  • 未登录词中,九成是专有名词,其余为通用新词或专业术语。所以未登录词识别就是包括中国人名、译名、日本人名、地理位置名称、组织机构等专有名词的识别。
  • 在NLP中,通常将上述专有名词和数字、日期等词称为命名实体。
  • 算法
    • 基于构词编码的方法

      • 缺点:只适用于狭窄的专门领域等,在处理大规模不同领域的未登录词上存在很大的障碍
    • 基于语义的方法
      • 认为:不同语义类下的未登录词,在统计学规律上具有相似性。
      • 算法:基于半监督的条件随机场算法(semi-CRF)

【NLP汉语自然语言处理与实践】分词_笔记的更多相关文章

  1. 郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》

    郑捷2017年电子工业出版社出版的图书<NLP汉语自然语言处理原理与实践> 第1章 中文语言的机器处理 1 1.1 历史回顾 2 1.1.1 从科幻到现实 2 1.1.2 早期的探索 3 ...

  2. NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现

    1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以 ...

  3. Exp2后门原理与实践_20154305 _ 齐 帅

    Exp2后门原理与实践 20154305 _ 齐 帅 2.1简单后门 一.后门工具介绍 1.netcat(nc.ncat) 是一个底层工具,进行基本的TCP UDP数据收发.常被与其他工具结合使用,起 ...

  4. 实验三《敏捷开发与XP实践》_实验报告

    实验三<敏捷开发与XP实践>_实验报告 一.实验内容和步骤 提交点1: 任务要求: 实验三 敏捷开发与XP实践 http://www.cnblogs.com/rocedu/p/479577 ...

  5. 在TensorFlow中基于lstm构建分词系统笔记

    在TensorFlow中基于lstm构建分词系统笔记(一) https://www.jianshu.com/p/ccb805b9f014 前言 我打算基于lstm构建一个分词系统,通过这个例子来学习下 ...

  6. RESTful接口设计原则/最佳实践(学习笔记)

    RESTful接口设计原则/最佳实践(学习笔记) 原文地址:http://www.vinaysahni.com/best-practices-for-a-pragmatic-restful-api 1 ...

  7. 《疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践》学习笔记

    <疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践>学习笔记 二〇一九年二月十三日星期三2时28分54秒 前提:本书适合有初步HTML.CSS.JavaScri ...

  8. 20180929 北京大学 人工智能实践:Tensorflow笔记04

    20180929 北京大学 人工智能实践:Tensorflow笔记03(2018-09-30 00:01)

  9. 20180929 北京大学 人工智能实践:Tensorflow笔记01

    北京大学 人工智能实践:Tensorflow笔记 https://www.bilibili.com/video/av22530538/?p=13 (完)

随机推荐

  1. Loadrunner—关联知识点

    一.关联定义 把脚本中某些写死的数据,转变成是撷取自服务器所发送的.动态的.每次都不一样的数据 二.什么时候需要做关联 要想弄清这个问题,我们首先要知道客户端与服务器端的请求与响应的过程 过程说明: ...

  2. 转:JVM系列三:JVM参数设置、分析

    转自:http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html 不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断 ...

  3. document.referrer的使用和window.opener 跟 window.parent 的区别

    偶尔看到了document.referrer,之前一直有点疑惑与window.opener 和 window.parent之间的区别 首先查了一下w3cSCHOOL, 上面的解释:referrer 属 ...

  4. Log4j 2.0读取配置文件的方法

    log4j中配置日志文件存放的位置不一定在src下面,即根目录下.这个时候我们需要解决如何加载配置文件的问题.在log4j1.x中解决的方法就比较多了.如:PropertyConfigurator.c ...

  5. ACS蚁群算法求解对称TSP旅行商问题的JavaScript实现

    本来以为在了解蚁群算法的基础上实现这道奇怪的算法题并不难,结果实际上大相径庭啊.做了近三天时间,才改成现在这能勉强拿的出手的模样.由于公式都是图片,暂且以截图代替那部分内容吧,mark一记. 1 蚁群 ...

  6. Bootstrap使用模态框modal实现表单提交弹出框

    Bootstrap 模态框(Modal)插件 模态框(Modal)是覆盖在父窗体上的子窗体.通常,目的是显示来自一个单独的源的内容,可以在不离开父窗体的情况下有一些互动.子窗体可提供信息.交互等.如果 ...

  7. HDU 5690——All X——————【快速幂 | 循环节】

    All X Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Submi ...

  8. window.open()被浏览器拦截问题汇总

    一.问题描述 最近在做项目的时候碰到了使用window.open被浏览器拦截的情况,虽然在自己的环境可以对页面进行放行,但是对用户来说,不能要求用户都来通过拦截.何况当出现拦截时,很多用户根本不知道发 ...

  9. mysql8.0 安装 修改密码 允许远程连接

    转自:https://www.cnblogs.com/xyabk/p/8967990.html mysql从5.7一下子跳跃到了8.0,其中的改变还是很大,有点这里就不说了,小伙伴们自己去百度了解一下 ...

  10. Oracle 数据库字典 sys.obj$ 表中关于type#的解释

    sys.obj$ 表是oracle 数据库字典表中的对象基础表,所有对象都在该表中有记录,其中type#字段表明对象类型,比如有一个表 test ,则该对象在sys.obj$ 中存在一条记录,name ...