目前自动分类算法是参考网上的思路和想法个人自主研发的。

当然互联网上有很多人采用不同的方式去解决自动分类问题,也有不同的算法和论文支持去做,但纵观自动分类这块工作是属于机器学习这块工作内容,总结出来比较简单的实现方式就是本文档采用的方式(如果有其他方式,欢迎交流)。

自动分类算法主要分为样本训练和余弦算法判别两块内容。

1) 采用已经做好归类的高质量的文档(理论上文档要越多,分类的精准度更会更加趋向精准),使用自动分类算法进行训练归类的学习, 产生分类数据模型。

2)输入一篇文章,使用余弦算法,采用分类数据模型进行自动判别。

样本训练

1)采用中文分词(或者其他分词方式,IK,庖丁,盘古等都可以)对文档进行分词处理,产生分词数据字典。(词典频率统计)

所产生的数据字典,即为分类数据模型。(不断保存分类数据模型)

余弦算法

1)新的一篇文章采用相同的分词方式,进行分词数据字典生成。根据该数据字典和分类的数据字典进行相似度判别(余弦算法),从而自动判定文章的归类。

自动分类算法的效果

个人认为效果取决于:分词的效果 ,训练文本的质量,算法本身的效果;未充分验证!!!

分词的效果:如果采用特定行业的词和一些行业相关的词,可能会对自动分类的效果产生影响。

训练文本:如果训练的文本的质量足够高,文本数量足够多,应该会对自动分类的效果产生影响。

算法效果:目前采用余弦进行相似度判别,从而自动区别分类。如果有更好的算法,效果会更加。

影响优先级:算法>训练文本>分词效果

【限定字典:是指行业特定的字典;在分词的结果基础上对行业特定字典进行过滤。】

限于目前的时间这块,没有深入研究和验证,以及优化算法和一些其他的改进。仅仅根据理论,用C#进行编写。

 /// <summary>
/// 自动分类算法 欢迎交流 by 车江毅 开源QQ群: .net 开源基础服务  238543768
/// </summary>
public class AutoCategoryAlgorithm
{
/// <summary>
/// 限定字典
/// </summary>
public List<string> Words = new List<string>();
/// <summary>
/// 获取样本训练结果
/// </summary>
public Dictionary<string, Dictionary<string, int>> CategorySampleDic { get { return categorySampleDic; } } /// <summary>
/// 样本分类训练集
/// </summary>
private Dictionary<string, Dictionary<string, int>> categorySampleDic = new Dictionary<string, Dictionary<string, int>>();
public AutoCategoryAlgorithm(Dictionary<string, Dictionary<string, int>> categorysampledic)
{
categorySampleDic = categorysampledic;
}
public AutoCategoryAlgorithm()
{ }
/// <summary>
/// 自动分类
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
public string AutoCategory(string text)
{
var dic = Token(text);
Dictionary<string, double> scores = new Dictionary<string, double>(); foreach (var c in categorySampleDic)
{
var s= CosineSimilar(dic,c.Value);
scores.Add(c.Key, s);
}
var max = scores.OrderByDescending(c => c.Value).FirstOrDefault();
return max.Key;
}
/// <summary>
/// 自动分类
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
public Dictionary<string, double> AutoCategoryScores(string text)
{
var dic = Token(text);
Dictionary<string, double> scores = new Dictionary<string, double>(); foreach (var c in categorySampleDic)
{
var s = CosineSimilar(dic, c.Value);
scores.Add(c.Key, s);
}
return scores;
}
/// <summary>
/// 样本训练
/// </summary>
public void Train(string category,List<string> samples)
{
if (categorySampleDic.ContainsKey(category))
{
if (categorySampleDic[category] == null)
categorySampleDic[category] = new Dictionary<string, int>();
}
else
categorySampleDic.Add(category,new Dictionary<string, int>());
var cdic = categorySampleDic[category];//上次样本训练集
foreach (var s in samples)
{
var dic= Token(s);
foreach (var kv in dic)
{
if (cdic.ContainsKey(kv.Key))
cdic[kv.Key] += kv.Value;
else
cdic.Add(kv.Key, kv.Value);
}
}
} private Dictionary<string, int> Token(string text)
{
ChineseAnalyer ca = new ChineseAnalyer();
var dic = ca.Token(text);
if (Words.Count > )
{
var r = new Dictionary<string, int>();
foreach (var w in Words)
{
if (dic.ContainsKey(w))
{
r.Add(w,dic[w]);
}
}
return r;
}
return dic;
}
/// <summary>
/// 余弦算法
/// </summary>
/// <param name="map1"></param>
/// <param name="map2"></param>
/// <returns></returns>
private double CosineSimilar(Dictionary<string, int> map1, Dictionary<string, int> map2)
{
var AlgorithmMap = new Dictionary<int, int[]>();
foreach (var m in map1)
{
int key = m.Key.GetHashCode();
AlgorithmMap.Add(key,new int[] { m.Value,});
}
foreach (var m in map2)
{
int key = m.Key.GetHashCode();
if (AlgorithmMap.ContainsKey(key))
AlgorithmMap[key][] = m.Value;
else
AlgorithmMap.Add(key, new int[] { ,m.Value });
} double sqdoc1 = ;
double sqdoc2 = ;
double denominator = ;
foreach (var kv in AlgorithmMap)
{
int[] c = kv.Value;
denominator += c[] * c[];
sqdoc1 += c[] * c[];
sqdoc2 += c[] * c[];
} return denominator / Math.Sqrt(sqdoc1 * sqdoc2);
}
}

by 车江毅

.net 自动分类算法【原创】的更多相关文章

  1. 信息安全-2:python之hill密码算法[原创]

    转发注明出处:http://www.cnblogs.com/0zcl/p/6106513.html 前言: hill密码算法我打算简要介绍就好,加密矩阵我用教材上的3*3矩阵,只做了加密,解密没有做, ...

  2. Twitter面试题蓄水池蓄水量算法(原创 JS版,以后可能会补上C#的)

    之前在群里有人讨论Twitter的面试题,蓄水池蓄水量计算,于是自己写了个JS版的(PS:主要后台代码还要编译,想想还是JS快,于是就使用了JS了.不过算法主要还是思路嘛,而且JS应该都没问题吧^_^ ...

  3. Sunday算法[原创]

    一.应用: 同样的,sunday算法也是在一个字符串中查找另一个字符串出现的首地址,是Daniel M.Sunday于1990年提出的,从销量上讲,Sunday>BM>KMP,是这类问题的 ...

  4. 《zw版·Halcon-delphi系列原创教程》 水果自动分类脚本(机器学习、人工智能)

    <zw版·Halcon-delphi系列原创教程> 水果自动分类脚本(机器学习.人工智能) 前面介绍了超市,流水线,酸奶的自动分类算法,下面再介绍一个水果的自动分类算法. Halcon强大 ...

  5. 信息安全-5:RSA算法详解(已编程实现)[原创]

    转发注明出处:http://www.cnblogs.com/0zcl/p/6120389.html 背景介绍 1976年以前,所有的加密方法都是同一种模式: (1)甲方选择某一种加密规则,对信息进行加 ...

  6. 【特征检测】BRISK特征提取算法

    [特征检测]BRISK特征提取算法原创hujingshuang 发布于2015-07-24 22:59:21 阅读数 17840 收藏展开简介        BRISK算法是2011年ICCV上< ...

  7. 人工智能头条(公开课笔记)+AI科技大本营——一拨微信公众号文章

    不错的 Tutorial: 从零到一学习计算机视觉:朋友圈爆款背后的计算机视觉技术与应用 | 公开课笔记 分享人 | 叶聪(腾讯云 AI 和大数据中心高级研发工程师) 整    理 | Leo 出   ...

  8. 【洛谷P1318积水面积】最小生成树

    我写一篇绝对原创的题解,算法原创,求洛谷通过!!!(让更多人看到这篇题解) 绝大多数人肯定认为这道题是一道模拟题 以下为正解 我们来看一下这一道题,其实就是找到左右高点,在模拟. 但是这个是正常人的想 ...

  9. 《zw版·Halcon-delphi系列原创教程》 酸奶自动分类脚本(机器学习、人工智能)

    <zw版·Halcon-delphi系列原创教程>酸奶自动分类脚本(机器学习.人工智能) Halcon强大的图像处理能力,令人往往会忽视其内核,是更加彪悍的机器学习.人工智能.       ...

随机推荐

  1. git clone https://github.com/istester/ido.git ,确提示“Failed to connect to 192.168.1.22 port 8080: Connection refused” 的解决办法 。

    不知道是否有同学遇到如下的问题: p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo } span.s1 { } git clone ...

  2. checkbox全选、全不选实现

    <form   name=aa1   >         <p>           <input   type=checkbox   name="radiot ...

  3. 原生ajax异步请求基础知识

    一.同步交互与异步交互的概念: * 同步交互:客户端向服务器端发送请求,到服务器端进行响应,这个过程中,用户不能做任何其他事情(只能等待响应完才能继续其他请求). * 异步交互:客户端向服务器端发送请 ...

  4. jmeter 实现DB数据与接口数据的匹配校验

    前言:接口出参数据与DB数据结合校验,使校验力度更准确~ jmeter自带插件JDBC Request Sampler 这个Sampler可以向数据库发送一个jdbc请求(sql语句),并获取返回的数 ...

  5. AVAudioFoundation(2):音视频播放

    本文转自:AVAudioFoundation(2):音视频播放 | www.samirchen.com 本文主要内容来自 AVFoundation Programming Guide. 要播放 AVA ...

  6. 关于MATLAB处理大数据坐标文件201762

    经过头脑风暴法想出了很多特征,目前经过筛选已经提交了两次数据,数据提交结果不尽如人意,但是收获很大. 接下来继续提取特征,特征数达到27时筛选出20条特征,并找出最佳搭配

  7. LinCode 刷题 之二叉树最小深度

    http://www.lintcode.com/zh-cn/problem/minimum-depth-of-binary-tree/  题目描述信息 /** * Definition of Tree ...

  8. Loadrunner12解决无法录制chrome及脚本为空问题

    首先,得安装LR12,一般用LR12录制,由于未破解,用LR11跑并发. LR12官方文档说明里是支持chrome及火狐的,但是实际录制起来,还是有一定的问题,目前发现的问题主要有两个: (1)LR录 ...

  9. 如何离线安装Visual Studio 2017

    1. 官方下载在线安装文件 vs_community.exe https://www.visualstudio.com/zh-hans/thank-you-downloading-visual-stu ...

  10. linux下安装QT5:error: unrecognized command line option ‘-fuse-ld=gold’

    安装qt时在执行./configure时报错:error: unrecognized command line option '-fuse-ld=gold' 这个错误是qt的一个bug. 在装有gol ...