译者 | 小韩

来源 | analyticsvidhya.com
【磐创AI导读】:让我们一起来看下近期热门的机器学习Github仓库,包括了自然语言处理(NLP)、计算机视觉(CV)与大数据等多个领域。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

Pytorch-Transformers(NLP)

https://github.com/huggingface/pytorch-transformers

PyTorch-Transformers是最新的一系列最先进的NLP库。它打败了之前各种NLP任务的基准。我真正喜欢pytorch-transformers的是它包含PyTorch实现,预训练模型权重和其他重要组件,可以帮助你快速入门。

你可能会觉得运行复杂的模型需要巨大的计算能力。但是PyTorch-Transformers没有这个问题,使大多数人都可以建立最优秀的NLP模型。

NeuralClassifer(NLP)

https://github.com/Tencent/NeuralNLP-NeuralClassifier

文本数据的多标签分类是一个相当大的挑战。当我们处理早期的NLP问题时,我们通常会处理单一标签任务。该级别在实际数据上增加了几个级别。

在多标签分类问题中,实例或记录可以具有多个标签,并且每个实例的标签数量不固定。

NeuralClassifier使我们能够快速实现分层多标签分类任务的神经模型。NeuralClassifier提供了我们熟悉的各种文本编码器,如FastText,RCNN,Transformer编码器等。

我们可以使用NeuralClassifier执行以下分类任务:

  • 二进制文本分类

  • 多级文本分类

  • 多标签文本分类

  • 分层(多标签)文本分类

TDEngine(大数据)

https://github.com/taosdata/TDengine

TDengine

TDEngine在上个月的星星数超过了GitHub上所有其他的新项目。在不到一个月的时间内收到了将近10000颗星。

TDEngine是一个用于下列领域的开源大数据平台:

  • 物联网(IoT)

  • 联网汽车

  • 工业物联网

  • IT基础设施等等。

TDEngine提供了与数据工程相关的一整套任务。我们可以以超快的速度完成所有这些工作(处理查询速度提高10倍,计算使用率为1/5)。

有一点目前需要注意,TDEngine仅支持在Linux上执行。这个GitHub存储库包含了完整的文档和带有代码的入门指南。

视频对象删除(CV)

https://github.com/zllrunning/video-object-removal

您是否操作过图像数据?用于操作和处理图像的计算机视觉技术非常先进,其中图像物体检测被认为是成为计算机视觉专家的基本步骤。

但是操作视频会怎么样?当我们需要在视频中的对象周围绘制边界框时,难度会提高几个级别。对象的动态特征使整个概念更加复杂。

所以,当我看到这个GitHub存储库时非常高兴。我们只需在视频中的对象周围绘制一个边界框即可将它删除。 真的非常容易!下面是该项目的一个例子:

Python自动补全(编程)

https://github.com/vpj/python_autocomplete

你会喜欢上这个机器学习项目。作为数据科学家,我们的工作大多数就是围绕着算法做实验。这是一个可以自动完成简单的LSTM模型的Python代码的项目。

下面灰色突出显示的代码是LSTM模型填写的内容(结果位于图像的底部):

正如开发人员所说:

我们在python代码中删除注释、字符串和空行后进行训练和预测。在对python代码进行标记化之后训练模型。它似乎比使用字节对编码的字符级预测更有效。

如果你曾经花费或浪费时间写了很差的Python代码,那么你可能需要它。它现在处于在非常早期的阶段,所以还存在一些问题。

tfpyth – TensorFlow to PyTorch to TensorFlow(编程)

https://github.com/BlackHC/tfpyth

TensorFlow和PyTorch都拥有强大的用户社区。但令人难以置信的是PyTorch的使用率可能会在未来一两年内超越TensorFlow。这不是打击TensorFlow,而是相当可靠的。

因此,如果你使用TensorFlow编写了一部分代码并用PyTorch中编写了另一部分代码,并希望将两者结合起来训练模型,那么tfpyth框架非常适合你。tfpyth最好的地方是不需要重写之前的代码。

这个GitHub存储库包含了一个结构良好的示例,说明了如何使用tfpyth。这绝对是TensorFlow与PyTorch之间的一种新的看法,不是吗?

安装tfpyth:

python pip install tfpyth

MedicalNet

https://github.com/Tencent/MedicalNet

将迁移学习与NLP联系起来。当我看到这个精彩的MedicalNet项目时,我感到很激动。

这个GitHub存储库包含了“Med3D: Transfer Learning for 3D Medical Image Analysis”论文的PyTorch实现。该机器学习项目将医学数据集与不同的模态,目标器官和病理进行聚合,以构建相对较大的数据集。

众所周知,深度学习模型通常需要大量的训练数据。因此,TenCent发布的MedicalNet是一个出色的开源项目,我希望很多人能够继续在它上面工作。MedicalNet的开发人员已经发布了基于23个数据集的四个预训练模型。

欢迎关注磐创博客资源汇总站:

http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:

http://pytorch.panchuang.net/

七大Github机器学习热门项目的更多相关文章

  1. 近期 github 机器学习热门项目top5

    磐创智能-专注机器学习深度学习的教程网站 http://panchuang.net/ 磐创AI-智能客服,聊天机器人,推荐系统 http://panchuangai.com/ [导读]:Github是 ...

  2. 近期 github 机器学习热门项目 top5

    欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 作者:Walker No1:NVIDIA's vid2vid Technique( ...

  3. 盘点当下大热的7大Github机器学习创新项目

    哪个平台有最新的机器学习发展现状和最先进的代码?没错——Github!本文将会分享近期发布的七大GitHub机器学习项目.这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP).计算机视觉. ...

  4. github上热门深度学习项目

    github上热门深度学习项目 项目名 Stars 描述 TensorFlow 29622 使用数据流图进行可扩展机器学习的计算. Caffe 11799 Caffe:深度学习的快速开放框架. [Ne ...

  5. 2016年GitHub排名前20的Python机器学习开源项目(转)

    当今时代,开源是创新和技术快速发展的核心.本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们 ...

  6. 如何找GitHub上热门的开源项目

    访问:https://github.com/trending,选择时间段和关联语言就可以查看最近热门的项目. Java最近一个月热门项目如下:

  7. 机器学习开源项目精选TOP30

    本文共图文结合,建议阅读5分钟. 本文为大家带来了30个广受好评的机器学习开源项目. 640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 最近,Mybridge发布了 ...

  8. 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。

    百度为何开源深度机器学习平台?   有一系列领先优势的百度却选择开源其深度机器学习平台,为何交底自己的核心技术?深思之下,却是在面对业界无奈时的远见之举.   5月20日,百度在github上开源了其 ...

  9. 机器学习新手项目之N-gram分词

    概述 对机器学习感兴趣的小伙伴,可以借助python,实现一个N-gram分词中的Unigram和Bigram分词器,来进行入门, github地址 此项目并将前向最大切词FMM和后向最大切词的结果作 ...

随机推荐

  1. Kubernetes搭建过程中使用k8s.gcr.io、quay.io、docker.io的镜像加速

    前言 因为众所周知的原因,在使用Kubernetes和docker的时候会出现一些镜像无法拉取或者速度较慢的情况,错误信息类似以下: [ERROR ImagePull]: failed to pull ...

  2. Python——12类的继承

    */ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...

  3. 性能测试之Mysql数据库调优

    一.前言 性能调优前提:无监控不调优,对于mysql性能的监控前几天有文章提到过,有兴趣的朋友可以去看一下 二.Mysql性能指标及问题分析和定位 1.我们在监控图表中关注的性能指标大概有这么几个:C ...

  4. JDBC大数据的采取

    ## JDBC的大类型数据的存取 ## # 基本概念: |-- 大文本类型数据和大二进制数据: 主要思想用于将大型的二进制数据(字节) 或是大型的文本数据(字符)从磁盘文件中读取 到数据库中,或是从数 ...

  5. 分享到微信,QQ等各大网络媒体网站代码

    http://www.jiathis.com/ 打开此网站,如果没有账号,请注册一下,然后登陆账号,进入网页以后直接可以复制代码到页面的标签,进行css样式布局,直接可以在页面测试,如果方便的话直接百 ...

  6. [译]HTML&CSS Lesson7: 设置背景和渐变色

    背景对网站的设计有重大的影响.它有利于建立网站的整体感觉,设置分组,分配优先级,对网站的可用性也有相当大的影响. 在CSS中,元素的背景可以是一个纯色,一张图,一个渐变色或者它们的组合.在我们决定如何 ...

  7. 浅析SIEM、态势感知平台、安全运营中心

    近年来SIEM.态势感知平台.安全运营中心等概念炒的火热,有的人认为这都是安全管理产品,这些产品就是一回事,有人认为还是有所区分.那么到底什么是SIEM.什么是态势感知平台.什么是安全运营中心,他们之 ...

  8. 一次 Druid 连接池泄露引发的血案!

    最近某个应用程序老是卡,需要重启才能解决问题,导致被各种投诉,排查问题是 Druid 连接池泄露引发的血案.. 异常日志如下: ERROR - com.alibaba.druid.pool.GetCo ...

  9. 2653 区间xor

    前言 这个题目在我之前那篇c++位运算的的随笔中提到过. 有兴趣的话去看看吧! 飞机场:https://www.cnblogs.com/laoguantongxiegogofs/p/12444517. ...

  10. Python模块三

    collections模块 在内置数据类型(dict.list.set.tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter.deque.defaultdict. ...