date: 2024/01/08

这个网站用可视化的方式讲解概率和统计基础知识,很多内容还是可交互的,非常生动形象。

大家好,欢迎收看第五期机器学习周刊

本期介绍7个内容,涉及Python、概率统计、机器学习、大模型等,目录如下:

  • 一个离谱的Python库
  • 看见概率,看见统计
  • 2024机器学习最强文档
  • Gradio
  • 顶级程序员如何使用LLM
  • TinyLlama
  • 微软宣布利用大型语言模型改进文本嵌入

1、一个离谱的Python库

地址:https://www.visidata.org/docs/

pip3 install visidata

VisiData是一款免费的开源工具,可让您在计算机终端中快速打开、探索、汇总和分析数据集。VisiData 可处理 CSV 文件、Excel 电子表格、SQL 数据库和许多其他数据源。

界面如下所示:

甚至还能在命令行中做可视化,酷是真酷,就是看了半天不清楚有什么使用场景。

2、看见概率,看见统计

地址:https://seeing-theory.brown.edu/basic-probability/cn.html

这个网站用可视化的方式讲解概率和统计基础知识,很多内容还是可交互的,非常生动形象。

章节目录如下:

  • 基础概率论
  • 进阶概率论
  • 概率分布
  • 统计推断:频率学派
  • 统计推断:贝叶斯学派
  • 回归分析

3、2024机器学习最强文档

地址:https://huggingface.co/tasks

HuggingFace这个页面我愿称之为机器学习最强文档,囊括了各种机器学习任务,比如表格数据预测、NLP、机器视觉、音频、多模态、强化学习等任务所需的全部内容(演示、用例、模型、数据集等等)

4、G

地址:https://www.gradio.app/

Gradio是一个可以快速部署机器学习应用的开源项目,我用它做过很多小工具。如果你第一次听说gradio,强烈建议赶快用起来。最近它更新到了4.13版,完美兼容Python 3.12 。

5、Redis 之父的最新文章

地址:http://antirez.com/news/140

翻译:https://blog.zhanglearning.com/posts/2024年初的LLMs与编程/

Redis 作者写了篇文章,非常详细地分享他在工作中使用 LLM 编程的体验,我们可以一窥顶级程序员是如何使用大模型的。这篇文章很我让ChatGPT提取了摘要,用Claude-2-100K完成了翻译,我没有做校对:

  • 在2023年,人工智能尤其是可以在设备上本地使用的LLMs取得了显著的进步,作者广泛利用这项技术来加速他的编程能力。
  • 起初,作者主要使用LLMs来处理文档和避免在编程中的无聊/不感兴趣的部分。然而,随着时间的推移,他学会了何时使用LLMs最有帮助,以及何时它们可能会减慢他的速度。
  • LLMs在推理和插值方面的能力有限,它们不能超越它们被训练的内容。虽然它们不能替代人类程序员,但如果适当使用,它们可以是有用的辅助工具。
  • 作者提供了几个例子,展示了LLMs如何帮助他更快地编写代码,例如在框架之间切换、用一种不熟悉的语言编程,或分析他不完全理解的网络输出时。
  • 当任务虽然无聊但对作者的目标有用时,LLMs也适用于编写一次性/临时脚本。
  • 系统编程需要更强的推理能力,这通常是LLMs所缺乏的。作者提供了一个例子,其中LLMs在提供相关代码时,仍然难以解释一个低级别的数据格式。
  • 总之,LLMs最好被用作程序员的辅助工具而不是替代品。有了经验,人们可以学习如何以及何时有效地利用它们来处理不同的编程任务。但它们的能力仍然有限,并且可能不会扩展到所有领域,比如系统编程。

6、TinyLlama

模型地址:https://huggingface.co/TinyLlama

TinyLlama 发布1.0版本,1.1B 参数,基于3万亿 tokens 训练,与 LLaMa 2 完全相同的架构和分词器,

从他们的Github能看到完整的训练过程。

7、微软宣布利用大型语言模型改进文本嵌入

论文: https://arxiv.org/pdf/2401.00368.pdf

最后推荐一篇微软最近发布的论文,介绍了一种新颖且简单的方法,该方法不需要构建复杂的训练管道或依赖于手动收集的数据集,仅使用合成数据和少于 1k 的训练步骤即可获得高质量的文本嵌入。

机器学习周刊第五期:一个离谱的数据可视化Python库、可交互式动画学概率统计、机器学习最全文档、快速部署机器学习应用的开源项目、Redis 之父的最新文章的更多相关文章

  1. 一个交互式可视化Python库——Bokeh

    本篇为<Python数据可视化实战>第十篇文章,我们一起学习一个交互式可视化Python库--Bokeh. Bokeh基础 Bokeh是一个专门针对Web浏览器的呈现功能的交互式可视化Py ...

  2. 机器学习——logistic回归,鸢尾花数据集预测,数据可视化

    0.鸢尾花数据集 鸢尾花数据集作为入门经典数据集.Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理.Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集.数据集包含150个数 ...

  3. 第五篇:R语言数据可视化之散点图

    散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制 ...

  4. 使用 Sealos 在 3 分钟内快速部署一个生产级别的 Kubernetes 高可用集群

    本文首发于:微信公众号「运维之美」,公众号 ID:Hi-Linux. 「运维之美」是一个有情怀.有态度,专注于 Linux 运维相关技术文章分享的公众号.公众号致力于为广大运维工作者分享各类技术文章和 ...

  5. 2016年GitHub排名前20的Python机器学习开源项目(转)

    当今时代,开源是创新和技术快速发展的核心.本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们 ...

  6. 有趣的开源项目集结完毕,HelloGitHub 月刊第 63 期发布啦!

    兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 分享 GitHub 上有趣.入门级的开源项目. 这里有实战项目.入门教程.黑科技.开源书籍.大厂开源项目等,涵盖多种编程语言 Pyt ...

  7. 使用 js 实现一个简易版的 drag & drop 库

    使用 js 实现一个简易版的 drag & drop 库 具有挑战性的前端面试题 H5 DnD js refs https://www.infoq.cn/article/0NUjpxGrqRX ...

  8. 想要快速上手 Spring Boot?看这些教程就足够了!| 码云周刊第 81 期

    原文:https://blog.gitee.com/2018/08/19/weekly-81/ 想要快速上手 Spring Boot?看这些教程就足够了!| 码云周刊第 81 期 码云周刊 | 201 ...

  9. PoPo数据可视化周刊第2期

    羡辙在bilibili开课啦 就在这个月,不知道是不是受了 @Jannchie见齐 的影响,羡辙竟然在bilibili开授Echarts课程,目前已开课两节. [滚城一团]的 ECharts 训练营 ...

  10. PaperWeekly 第五期------从Word2Vec到FastText

    PaperWeekly 第五期------从Word2Vec到FastText 张俊 10 个月前 引 Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小.形形色色的D ...

随机推荐

  1. python列表之索引及len()函数

    我们在刚开始使用列表的时候,经常会遇到这种错误 list_1 = ['one', 'two', 'three', 'four', 'five'] print(list_1[5]) 这段代码看上去是没有 ...

  2. Python有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?

    n = 0 for i in range(1, 5): for j in range(1, 5): for k in range(1, 5): if(i != k) and (i != j) and ...

  3. 用友vs金蝶产品分析(云星空与YonSuite)

    产品定位 用友与金蝶二者面对的客户群体是相同的:都是为成长型企业提供一体化服务,由于金蝶云星空发展较早,在部分产品功能上具备一定的先发优势:在产品的架构上,由于YS采用目前最先进的云原生和微服务架构, ...

  4. Codeforces Round #691 (Div. 2) D - Glass Half Spilled(DP)

    题目 补下因实验漏掉的CF(还以为是晚上,没想到是下午开始).前三题过的很顺利,到D题时想了会发现数据很小爆搜貌似能过,就以为是道水题,交了一发T了,胡乱加了点剪枝还是T.逐渐意识到事情的严重性.考虑 ...

  5. STM32外设:专用定时器 IWDG、WWDG、RTC

    主要外设: IWDG:Independent Watch DoG 独立看门狗 WWDG:Window Watch DoG 窗口看门狗 RTC: Real-Time Clock 实时时钟 IWDG 主要 ...

  6. libGDX游戏开发之AssetManager资源管理(十)

    libGDX游戏开发之AssetManager资源管理(十) libGDX系列,游戏开发有unity3D巴拉巴拉的,为啥还用java开发?因为我是Java程序员emm-国内用libgdx比较少,多数情 ...

  7. vue3 + element-plus 的 upload + axios + django 文件上传并保存

    之前在网上搜了好多教程,一直没有找到合适自己的,要么只有前端部分没有后端,要么就是写的不是很明白.所以还得靠自己摸索出来后,来此记录一下整个过程. 其实就是不要用默认的 action,要手动实现上传方 ...

  8. 实时数据流无忧:用 SpringBoot 和 SSE 打造动态前端更新的终极指南

    用 SpringBoot 和 SSE 打造动态前端更新的终极指南 你知道什么是开发者的梦魇吗?慢!慢!慢!在一个需要实时数据更新的应用中,如果数据像乌龟一样慢吞吞地爬行,那用户体验就会像坐过山车一样直 ...

  9. ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

    目录 Kafka表集成引擎 配置 Kerberos 支持 虚拟列 资料分享 参考文章 Kafka表集成引擎 此引擎与Apache Kafka结合使用. Kafka 特性: 发布或者订阅数据流. 容错存 ...

  10. 神经网络基础篇:详解导数(Derivatives)

    导数 一个函数\(f(a)=3a\),它是一条直线.下面来简单理解下导数.让 看看函数中几个点,假定\(a=2\),那么\(f(a)\)是\(a\)的3倍等于6,也就是说如果\(a=2\),那么函数\ ...