fasttext的基本使用 java 、python为例子
fasttext的基本使用 java 、python为例子
今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类,到公司试了下情况在GitHub上找了下,最开始是c++版本的实现,不过有Java、Python版本的实现了,正好拿下来试试手,
python情况:
python版本参考,作者提供了详细的实现,并且提供了中文分词之后的数据,正好拿下来用用,感谢作者,代码提供的数据作者都提供了,点后链接在上面有百度盘,可下载,java接口用到的数据也一样:
- http://blog.csdn.net/lxg0807/article/details/52960072
- import logging
- import fasttext
- logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
- #classifier = fasttext.supervised("fasttext/news_fasttext_train.txt","fasttext/news_fasttext.model",label_prefix="__label__")
- #load训练好的模型
- classifier = fasttext.load_model('fasttext/news_fasttext.model.bin', label_prefix='__label__')
- result = classifier.test("fasttext/news_fasttext_test.txt")
- print(result.precision)
- print(result.recall)
- labels_right = []
- texts = []
- with open("fasttext/news_fasttext_test.txt") as fr:
- lines = fr.readlines()
- for line in lines:
- labels_right.append(line.split("\t")[1].rstrip().replace("__label__",""))
- texts.append(line.split("\t")[0])
- # print labels
- # print texts
- # break
- labels_predict = [e[0] for e in classifier.predict(texts)] #预测输出结果为二维形式
- # print labels_predict
- text_labels = list(set(labels_right))
- text_predict_labels = list(set(labels_predict))
- print(text_predict_labels)
- print(text_labels)
- A = dict.fromkeys(text_labels,0) #预测正确的各个类的数目
- B = dict.fromkeys(text_labels,0) #测试数据集中各个类的数目
- C = dict.fromkeys(text_predict_labels,0) #预测结果中各个类的数目
- for i in range(0,len(labels_right)):
- B[labels_right[i]] += 1
- C[labels_predict[i]] += 1
- if labels_right[i] == labels_predict[i]:
- A[labels_right[i]] += 1
- print(A )
- print(B)
- print( C)
- #计算准确率,召回率,F值
- for key in B:
- p = float(A[key]) / float(B[key])
- r = float(A[key]) / float(C[key])
- f = p * r * 2 / (p + r)
- print ("%s:\tp:%f\t%fr:\t%f" % (key,p,r,f))
java版本情况:
- https://github.com/ivanhk/fastText_java
- package test;
- import java.util.List;
- import fasttext.FastText;
- import fasttext.Main;
- import fasttext.Pair;
- public class Test {
- public static void main(String[] args) throws Exception {
- String[] text = {
- "supervised",
- "-input",
- "/Users/shuubiasahi/Documents/python/fasttext/news_fasttext_train.txt",
- "-output", "/Users/shuubiasahi/Documents/faste.model", "-dim",
- "10", "-lr", "0.1", "-wordNgrams", "2", "-minCount", "1",
- "-bucket", "10000000", "-epoch", "5", "-thread", "4" };
- Main op = new Main();
- op.train(text);
- FastText fasttext = new FastText();
- String[] test = { "就读", "科技", "学生" ,"学生","学生"};
- fasttext.loadModel("/Users/shuubiasahi/Documents/faste.model.bin");
- List<Pair<Float, String>> list = fasttext.predict(test, 6); //得到最大可能的六个预测概率
- for (Pair<Float, String> parir : list) {
- System.out.println("key is:" + parir.getKey() + " value is:"
- + parir.getValue());
- }
- System.out.println(Math.exp(list.get(0).getKey())); //得到最大预测概率
- }
- }
key is:0.0 value is:__label__edu
key is:-17.75125 value is:__label__affairs
key is:-17.75125 value is:__label__economic
key is:-17.75125 value is:__label__ent
key is:-17.75125 value is:__label__fashion
key is:-17.75125 value is:__label__game
1.0
注意fasttext对输入格式有要求,label标签使用 “__label__”+实际标签的形式, over
有问题联系我
2016年5月26 我的模型已经上线了 效果还不错
fasttext的基本使用 java 、python为例子的更多相关文章
- 梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
- 编程开发(C/C++&Java&Python&JavaScript&Go&PHP&Ruby&Perl&R&Erlang)
使用Docker快速部署主流编程语言的开发.编译环境及其常用框架,包括C.C++.Java.Python.JavaScript.Go.PHP.Ruby.Perl.R.Erlang等. 在今后采用编程语 ...
- (八)map,filter,flatMap算子-Java&Python版Spark
map,filter,flatMap算子 视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的J ...
- 芒果TV招聘研发工程师(JAVA PYTHON),地点长沙
长沙芒果TV招聘高级 JAVA Python 工程师,工作地点:湖南广电 有兴趣的邮件0xmalloc@gmail.com; zealotyin@qq.com 公司有一大批从北京上海一线互联网企业 ...
- paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较
paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较 ##java ----------- 在JDK1.7中,摒弃了Java集合接口的实现类,如:Ar ...
- paip.复制文件 文件操作 api的设计uapi java python php 最佳实践
paip.复制文件 文件操作 api的设计uapi java python php 最佳实践 =====uapi copy() =====java的无,要自己写... ====php copy ...
- paip.获取文件名从路径uapi java python php总结...
paip.获取文件名从路径uapi java python php总结... =====uapi basename_noext($fname); =============java 自己写.. St ...
- paip.日期时间操作以及时间戳uapi php java python 总结
paip.日期时间操作以及时间戳uapi php java python 总结 ///uapi Date 函数 | Day 函数 | Hour 函数 | Minute 函数 | Month 函数 | ...
- paip.文件读写api php java python总结.txt
paip.文件读写api php java python总结.txt 一.多种方式读文件内容. 1.按字节读取文件内容 以字节为单位读取文件,常用于读二进制文件,如图片.声音.影像等文件. ...
随机推荐
- 根据ID查询实体
//查询实体 $scope.findOne=function(id){ $http.get('../brand/findOne.do?id='+id).success( function(respon ...
- sql update语句
如果要更新数据库表中的记录,我们就必须使用UPDATE语句. UPDATE语句的基本语法是: UPDATE <表名> SET 字段1=值1, 字段2=值2, ... WHERE ...; ...
- 「ZJOI2019」语言 解题报告
「ZJOI2019」语言 3个\(\log\)做法比较简单,但是写起来还是有点麻烦的. 大概就是树剖把链划分为\(\log\)段,然后任意两段可以组成一个矩形,就是个矩形面积并,听说卡卡就过去了. 好 ...
- NX二次开发-BlockUI的Tree树控件
关于BlockUI的Tree树控件只要研究UGOPEN里西门子官方的那个例子在结合去查NXOPEN的帮助基本就可以了.[不过我是看唐工的视频学会的,没办法自己领悟性不太强] //=========== ...
- tp5使用jwt生成token,做api的用户认证
首先 composer 安装 firebase/php-jwt github:https://github.com/firebase/php-jwt composer require firebas ...
- 用java进行测试php写的接口
<?php /* * @Author: anchen * @Date: 2018-07-06 13:53:19 * @Last Modified by: anchen * @Last Modif ...
- (动态改变数据源遇到的问题)ORACLE11g:No Dialect mapping for JDBC type: -9解决方案
在动态改变数据源时 hibernate配置不能使用Oracle官方的方言(org.hibernate.dialect.Oracle10gDialect) 做法写一个方言扩展类,缺什么类型,添加什么类型 ...
- (¥1011)->(一千零一拾一元整)输出
public class RenMingBi { /** * @param args add by zxx ,Nov 29, 2008 */ private static final char[] d ...
- Maven项目上有小红叉咋办
Maven项目上有小红叉咋办 创建maven项目之后,war工程如果目录不全的话会出现错误.这种情况就是把目录补全就可以了. 这种情况版本问题,点击那个最新版本的,会自动给加一段代码.(如果没有就自己 ...
- HDU 6693 Valentine's Day (概率)
2019 杭电多校 10 1003 题目链接:HDU 6693 比赛链接:2019 Multi-University Training Contest 10 Problem Description O ...