首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
lightgbm与贷款违约预测项目
】的更多相关文章
Lending Club—构建贷款违约预测模型
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://blog.csdn.net/arsenal0435/article/details/80446829(原文链接) 1.本项目需解决的问题 本项目通…
Datawhale 人工智能培养方案
版本号:V0.9 阅读须知 每个专业方向对应一个课程表格 课程表格里的课程排列顺序即为本培养方案推荐的学习顺序 诚挚欢迎为本培养方案贡献课程,有意向的同学请联系Datawhale开源项目管理委员会 本培养方案持续修订更新中,获取最新版请关注微信公众号:Datawhale,回复"培养方案" 数据分析 课程类型 课程性质 课程名 课程资料 必修 Python基础 聪明办法学Python 文字教程:https://github.com/datawhalechina/learn-python-…
R语言-来自Prosper的贷款数据探索
案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测哪些人贷款后会还款.哪些人会赖账. 1.探索数据集 loandata = read.csv("prosperLoanData.csv") str(loandata) 结论:一共有81个变量,113937个对象 2.选择分析的变…
kaggle 欺诈信用卡预测——Smote+LR
from:https://zhuanlan.zhihu.com/p/30461746 本项目需解决的问题 本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件. 建模思路 项目背景 数据集包含由欧洲持卡人于2013年9月使用信用卡进行交的数据.此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷.数据集非常不平衡,积极的类(被盗刷)占所有交易的0.172%. 它只包含作为PCA转换结果的数字输入变量.不幸的是,由于保密问题…
基于Spark.NET和ML.NET Automated ML (自动学习)进行餐厅等级的检查预测
简介 Apache Spark是一个开源.分布式.通用的分析引擎.多年来,它一直是大数据生态系统中对大型数据集进行批量和实时处理的主要工具.尽管对该平台的本地支持仅限于JVM语言集,但其他通常用于数据处理和分析的语言(如Python和R)已经加入了Spark的互操作层,以利用其功能.在2019年的Build大会上,微软发布了Spark.NET.Spark.NET提供了为Spark互操作层编写的绑定,允许您在.NET应用程序中使用诸如Spark SQL和Spark Streaming之类的组件.因…
数据挖掘项目之---通过对web日志的挖掘来实现内容推荐系统
先说一说问题,不知道大家有没有这样的经验,反正我是经常碰到. 举例1,某些网站每隔几天就发邮件给我,每次发的邮件内容都是一些我根本不感兴趣的东西,我不甚其扰,对其深恶痛绝. 举例2,添加具有某功能的一个msn机器人,每天都有几次突然蹦出一个窗口,推荐一堆我根本不想知道的内容,烦不烦啊, 我只好将你阻止掉. 每一个观众只想看他感兴趣的东西,而不是一下与之无关的事物,那么如何才能知道观众的兴趣所在呢,还是数据挖掘,经过一番思考,终于有点思路,即根据用户以往的浏览历史来预测用户将来的行…
由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依然存在下面的问题: 对于个人来说,没有足够的资源让这些框架发挥其优势: 从处理数据的库丰富程度上,还是pandas等更具有优势: 很多时候并不是pandas无法处理,只是数据未经优化: 所以这里还是考…
【SVM】kaggle之澳大利亚天气预测
项目目标 由于大气运动极为复杂,影响天气的因素较多,而人们认识大气本身运动的能力极为有限,因此天气预报水平较低,预报员在预报实践中,每次预报的过程都极为复杂,需要综合分析,并预报各气象要素,比如温度.降水等.本项目需要训练一个二分类模型,来预测在给定天气因素下,城市是否下雨. 数据说明 本数据包含了来自澳大利亚多个气候站的日常共15W的数据,项目随机抽取了1W条数据作为样本.特征如下: 特征 含义 Date 观察日期 Location 获取该信息的气象站的名称 MinTemp 以摄氏度为单位的低…
Python爱好者社区历史文章列表(每周append更新一次)
2月22日更新: 0.Python从零开始系列连载: Python从零开始系列连载(1)——安装环境 Python从零开始系列连载(2)——jupyter的常用操作 Python从零开始系列连载(3)——Python的基本数据类型(上) Python从零开始系列连载(4)——Python的基本数据类型(下) Python从零开始系列连载(5)——Python的基本运算和表达式(上) Python从零开始系列连载(6)——Python的基本运算和表达式(下) Python从零开始系列连载(7)…
【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一.笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作.此文分享笔者在…