对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站!http://www.tensorflownews.com.我们的公众号:磐创AI. 一. 介绍 世界上每天都在生成数量惊人的文本数据.Google每秒处理超过40,000次搜索,而根据福布斯报道,每一分钟我们都会发送1600万条短信,并在Facebook上发布510,00条评论.那么一个外行人来说,是否真的很难处理如此庞大的数据量? 仅新闻网站和其他在线媒体每小时就会产生大量的文本内容.如果没有合适的工具,分析文本数据的模…
NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码)       七月,酷暑难耐,认识的几位同学参加知乎看山杯,均取得不错的排名.当时天池AI医疗大赛初赛结束,官方正在为复赛进行平台调试,复赛时间一拖再拖.看着几位同学在比赛中排名都还很不错,于是决定抽空试一试.结果一发不可收拾,又找了两个同学一起组队(队伍init)以至于整个暑假都投入到这个比赛之中,并最终以一定的优势夺得第一名. 1. 比赛介绍 这是一个文本多分类的问题:目标是“参赛者根据知乎给出的问题及话题标签的绑定关系的训…
来源 | TowardsDataScience 译者 | Revolver 在我们的商业世界中,存在着许多需要对文本进行分类的情况.例如,新闻报道通常按主题进行组织; 内容或产品通常需要按类别打上标签; 根据用户在线上谈论产品或品牌时的文字内容将用户分到不同的群组...... 但是,互联网上的绝大多数文本分类文章和教程都是二文本分类,如垃圾邮件过滤(垃圾邮件与正常邮件),情感分析(正面与负面).在大多数情况下,我们的现实世界问题要复杂得多.因此,这就是我们今天要做的事情:将消费者在金融方面的投诉…
因为需要将命名实体中的组织机构名进一步区分为政府.企业.社会组织等,在easydl上做了一个文本分类模型,但是要用这个接口时候发现, 官方文档中竟然还在用urllib2的库,且不完整.好多地方会报错,坑太多,摸索了一会终于解决了,成功访问我的模型. 代码如下: 获取密钥 import urllib, urllib.request, sys import ssl # client_id 为官网获取的AK, client_secret 为官网获取的SK host = 'https://aip.bai…
雷锋网按:本文作者陆池,原文载于作者个人博客,雷锋网已获授权. 引言 学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用tensorflow实现了一下,感觉和之前使用的theano还是有很大的区别,有必要总结mark一下. 模型说明 这个分类的模型其实也是很简单,主要就是一个单层的LSTM模型,当然也可以实现多层的模型,多层的模型使用Tensorflow尤其简单,下面是这个模型的图 简单解释一下这个图,每个word经…
KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1.KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法. 机器学习,算法本身不是最难的,最难的是: 1.数学建模:把业务中的特性抽象成向量的过程: 2.选取适合模型的数据样本. 这两个事都不是简单的事.算法反而是比较简单的事. 本质上,KNN算法就是用距离来衡量样本之间的相似度. 2.算法图示 ◊ 从训练集中找到和新数据最接近的k条记录,然后根据多数类来决定新数据类…
决策树分类算法 1.概述 决策树(decision tree)——是一种被广泛使用的分类算法. 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置 在实际应用中,对于探测式的知识发现,决策树更加适用. 2.算法思想 通俗来说,决策树分类的思想类似于找对象.现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢…
乳腺癌是全球第二常见的女性癌症.2012年,它占所有新癌症病例的12%,占所有女性癌症病例的25%. 当乳腺细胞生长失控时,乳腺癌就开始了.这些细胞通常形成一个肿瘤,通常可以在x光片上直接看到或感觉到有一个肿块.如果癌细胞能生长到周围组织或扩散到身体的其他地方,那么这个肿瘤就是恶性的. 以下是报告: 大约八分之一的美国女性(约12%)将在其一生中患上浸润性乳腺癌. 2019年,美国预计将有268,600例新的侵袭性乳腺癌病例,以及62,930例新的非侵袭性乳腺癌. 大约85%的乳腺癌发生在没有乳…
0. 引言 0x1:为什么会有条件随机场?它解决了什么问题? 在开始学习CRF条件随机场之前,我们需要先了解一下这个算法的来龙去脉,它是在什么情况下被提出的,是从哪个算法演进而来的,它又解决了哪些问题,它有哪些优缺点. 实际上我们可以不太严谨地这么说,HMM -> HEMM -> CRF,它们之间是逐渐演进的结果. 隐马尔可夫模型(Hidden Markov Model,HMM).最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM).以及条件随机场(Cond…
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) 文本分词 正向/逆向/双向最大匹配; 基于理解的句法和语义分析消歧: 基于统计的互信息/CRF方法: WordEmbedding + Bi-LSTM+CRF方法 去停用词:维护一个停用词表 (2)特征提取 特征选择的基本思路是根据某个评价指标独立的对原始特征项(词项)进行评分排序,从中选择得分最高的…