易百教程人工智能python修正-人工智能NLTK性别发现器

在这个问题陈述中，将通过提供名字来训练分类器以找到性别(男性或女性)。我们需要使用启发式构造特征向量并训练分类器。这里使用scikit-learn软件包中的标签数据。以下是构建性别查找器的Python代码 -

导入必要的软件包 -

import random

from nltk import NaiveBayesClassifier

from nltk.classify import accuracy as nltk_accuracy

from nltk.corpus import names

现在需要从输入字中提取最后的N个字母。这些字母将作为功能 -

def extract_features(word, N = 2):

   last_n_letters = word[-N:]

   return {'feature': last_n_letters.lower()}

if __name__=='__main__':

使用NLTK中提供的标签名称(男性和女性)创建培训数据 -

male_list = [(name, 'male') for name in names.words('male.txt')]

female_list = [(name, 'female') for name in names.words('female.txt')]

data = (male_list + female_list)

random.seed(5)

random.shuffle(data)

现在，测试数据将被创建如下 -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

使用以下代码定义用于列车和测试的样本数 -

train_sample = int(0.8 * len(data))

现在，需要迭代不同的长度，以便可以比较精度 -

for i in range(1, 6):

   print('\nNumber of end letters:', i)

   features = [(extract_features(n, i), gender) for (n, gender) in data]

   train_data, test_data = features[:train_sample],

features[train_sample:]

   classifier = NaiveBayesClassifier.train(train_data)

分类器的准确度可以计算如下 -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)

   print('Accuracy = ' + str(accuracy_classifier) + '%')

现在，可以预测输出结果 -

for name in namesInput:

   print(name, '==>', classifier.classify(extract_features(name, i))

上述程序将生成以下输出 -

Number of end letters: 1

Accuracy = 74.7%

Rajesh -> female

Gaurav -> male

Swati -> female

Shubha -> female

Number of end letters: 2

Accuracy = 78.79%

Rajesh -> male

Gaurav -> male

Swati -> female

Shubha -> female

Number of end letters: 3

Accuracy = 77.22%

Rajesh -> male

Gaurav -> female

Swati -> female

Shubha -> female

Number of end letters: 4

Accuracy = 69.98%

Rajesh -> female

Gaurav -> female

Swati -> female

Shubha -> female

Number of end letters: 5

Accuracy = 64.63%

Rajesh -> female

Gaurav -> female

Swati -> female

Shubha -> female

在上面的输出中可以看到，结束字母的最大数量的准确性是两个，并且随着结束字母数量的增加而减少。

完整代码

import random

from nltk import NaiveBayesClassifier

from nltk.classify import accuracy as nltk_accuracy

from nltk.corpus import names

def extract_features(word, N=2):

    last_n_letters = word[-N:]

    return {'feature': last_n_letters.lower()}

if __name__ == '__main__':

    male_list = [(name, 'male') for name in names.words('male.txt')]

    female_list = [(name, 'female') for name in names.words('female.txt')]

    data = (male_list + female_list)

    random.seed(5)

    random.shuffle(data)

    namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

    train_sample = int(0.8 * len(data))

    for i in range(1, 6):

        print('\nNumber of end letters:', i)

        features = [(extract_features(n, i), gender) for (n, gender) in data]

        train_data, test_data = features[:train_sample], features[train_sample:]

        classifier = NaiveBayesClassifier.train(train_data)

        accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)

        print('Accuracy = ' + str(accuracy_classifier) + '%')

        for name in namesInput:

            print(name, '==>', classifier.classify(extract_features(name, i)))

易百教程人工智能python修正-人工智能NLTK性别发现器的更多相关文章

易百教程人工智能python修正-人工智能无监督学习（聚类）
无监督机器学习算法没有任何监督者提供任何指导. 这就是为什么它们与真正的人工智能紧密结合的原因. 在无人监督的学习中,没有正确的答案,也没有监督者指导. 算法需要发现用于学习的有趣数据模式. 什么是聚 ...
易百教程人工智能python修正-人工智能监督学习（回归）
回归是最重要的统计和机器学习工具之一. 我们认为机器学习的旅程从回归开始并不是错的. 它可以被定义为使我们能够根据数据做出决定的参数化技术,或者换言之,允许通过学习输入和输出变量之间的关系来基于数据做 ...
易百教程人工智能python修正-人工智能监督学习(分类)
分类技术或模型试图从观测值中得出一些结论. 在分类问题中,我们有分类输出,如“黑色”或“白色”或“教学”和“非教学”. 在构建分类模型时,需要有包含数据点和相应标签的训练数据集. 例如,如果想检查图像 ...
易百教程人工智能python修正-人工智能数据准备-标记数据
我们已经知道,某种格式的数据对于机器学习算法是必需的. 另一个重要的要求是,在将数据作为机器学习算法的输入发送之前,必须正确标记数据. 例如,如果所说的分类,那么数据上会有很多标记. 这些标记以文字, ...
易百教程人工智能python修正-人工智能数据准备-预处理数据
预处理数据在我们的日常生活中,需要处理大量数据,但这些数据是原始数据. 为了提供数据作为机器学习算法的输入,需要将其转换为有意义的数据. 这就是数据预处理进入图像的地方. 换言之,可以说在将数据提供 ...
易百教程人工智能python补充-NLTK包
自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统进行通信的AI方法. 如果您希望智能系统(如机器人)按照您的指示执行操作,希望听取基于对话的临床专家系统的决策时,则需要处理自然语言. N ...
MyBatis整合Spring MVC(易百教程）
MyBatis是ibatis的升级版,作为hibernate的老对手,它是一个可以自定义SQL.存储过程和高级映射的持久层框架.与Hibernate 的主要区别就是 Mybatis 是半自动化的,而 ...
Mybatis与Spring集成（易百教程）
整个Mybatis与Spring集成示例要完成的步骤如下: 1.示例功能描述 2.创建工程 3.数据库表结构及数据记录 4.实例对象 5.配置文件 6.测试执行,输出结果 1.示例功能描述在本示例中 ...
Mybatis 多对多（易百教程）
mybatis3.0 添加了association和collection标签专门用于对多个相关实体类数据进行级联查询,但仍不支持多个相关实体类数据的级联保存和级联删除操作.因此在进行实体类多对多映射表 ...

随机推荐

Unity制作棋牌手游之斗地主
目录大小7.2GB,MP4格式扫码时备注或说明中留下邮箱付款后如未回复请至https://shop135452397.taobao.com/ 联系店主
Hash算法及java HashMap底层实现原理理解（含jdk 1.7以及jdk 1.8）
现在很多公司面试都喜欢问java的HashMap原理,特在此整理相关原理及实现,主要还是因为很多开发集合框架都不甚理解,更不要说各种其他数据结构了,所以造成面子造飞机,进去拧螺丝. 1.哈希表结构的优 ...
【Eclipse】Eclipse如何导出java项目为jar包
1.首先确定要导出的项目从项目结构可以看出,笔者的项目是一个Dynamic Java Project.com/db下面有一个config的数据库配置文件.WEB-INF/lib文件夹下面有依赖的ja ...
springboot项目使用 apollo 配置中心
1. 引入 apollo 配置依赖 <dependency> <groupId>com.ctrip.framework.apollo</groupId> <a ...
Java基础 awt Button 点击按钮后在控制台输出文字
JDK :OpenJDK-11 OS :CentOS 7.6.1810 IDE :Eclipse 2019‑03 typesetting :Markdown code ...
如何将本地jar包放入本地maven仓库和远程私服仓库
1.将本地jar包放入本地仓库.只需执行如下命令即可: mvn install:install-file -Dfile=D:/demo/fiber.jar -DgroupId=com.sure -Da ...
Python实用日期时间处理方法汇总
这篇文章主要介绍了Python实用日期时间处理方法汇总,本文讲解了获取当前datetime.获取当天date.获取明天/前N天.获取当天开始和结束时间(00:00:00 23:59:59).获取两个d ...
chrome 报错 ERR_CERT_AUTHORITY_INVALID
场景: 本地调试https/wss程序,使用了openssl自签名的证书,解决方法:添加到信任证书根据以下图片流程操作然后打开selfsigned.cer 清空该网站缓存参考资料: https ...
EasyNVR摄像机网页无插件直播方案H5前端构建之：使用BootstrapPagination以分页形式展示数据信息
背景介绍 EasyNVR核心在于摄像机的音视频流的获取.转换.转码与高性能分发,同时同步完成对实时直播流的录像存储,在客户端(PC浏览器.Android.iOS.微信)进行录像文件的检索.回放和下载. ...
An unexpected exception occurred while binding a dynamic operation 错误的一种情况
这种错误,出现在dynamic传值的时候,无法动态访问变量. 出错原因是: 使用了嵌套类,class里面又定义了class

易百教程人工智能python修正-人工智能NLTK性别发现器

易百教程人工智能python修正-人工智能NLTK性别发现器的更多相关文章

随机推荐

热门专题