这篇论文非常适合工业界的人(比如我)去读,有很多的借鉴意义. 强烈建议自己去读. title:五年微软经验的点击欺诈检测 摘要:1.微软很厉害.2.本文描述了大规模数据挖掘所面临的独特挑战.解决这一问题的技术的设计选择和原理,并举例说明了该系统在打击点击欺诈方面的有效性和一些定量结果. 1.What is Click Fraud? 什么是点击欺诈 Click fraud is the term used to describe artificial clicks generated on adv…
title:新的基于集成学习的移动广告作弊检测 导语:基于buzzcity数据集,我们提出了对点击欺诈检测是基于一组来自现有属性的新功能的一种新方法.根据所得到的精度.召回率和AUC对所提出的模型进行评估.最后的模型基于6种不同的学习算法.我们用刚才说的三种指标,来证明模型是稳定的.我们的最终模型在训练.验证和测试数据集上显示了改进的结果,从而证明了它对不同数据集的普遍性. 1.Introduction 导入 大部分都是废话 1.1 Problem Formulation 问题构建 数据是用的b…
原文翻译 导读 这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监督的问题. 其主体思想就是将整体任务划分到两个子系统上,一个是生成器(generative model),利用seq2seq式的模型以上文的句子作为输入,输出对应的对话语句:另一个则是一个判别器(discriminator),用以区分在前文条件下当前的问答是否是和人类行为接近,这里可以近似地看作是一…
NLP论文泛读之<教材在线评论的情感倾向性分析> 本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量.制定 合理的销售策略, 并为潜在消费者的购买决策 供参 考依据. 主要解决了什么问题? 分析.提取对计算机类教材有效的.可靠的评价(当当.京东平台) 1.部分评论有省略号 2.有些评论很简略,没有出现'书'这个主体对象 主要用到什么方法或技术 流程: Sep1.去噪 1.1 同一用户针对同一产品发表的多条相同评论…
Java 垃圾回收(GC) 泛读 文章地址:https://segmentfault.com/a/1190000008922319 0. 序言 带着问题去看待 垃圾回收(GC) 会比较好,一般来说主要的疑惑在于这么几点: 为什么需要 GC ? 虚拟机(JVM) 与 垃圾回收(GC) 的关系? GC 的原理有哪些? 哪些 对象容易被 GC ? 等等 带着这些问题往下看: 1. 为什么需要 GC ? GC: 是Garbage Collection 的英文缩略,垃圾收集的意思. 为什么需要 GC? 主…
此文主要记录我在18年寒假期间,收集Avrix论文的总结 寒假生活题外   在寒假期间,爸妈每天让我每天跟着他们6点起床,一起吃早点收拾,每天7点也就都收拾差不多.   早晨的时光是人最清醒的时刻,而且到十点左右才开始帮忙做中午饭,中间这么大把的时光,我就来做做自己喜欢的事情.小外甥女也回来,但她每天只有10点起床后才跟我玩,真希望她能早起背背古诗文. 概述   整个项目由数据采集(Python),数据存储(Mysql),数据可视化(C#)组成.   数据采集主要负责从网络上,获取Avrix的论…
Shitala Prasad_ECCV2018]Using Object Information for Spotting Text 作者和代码 关键词 文字检测.水平文本.FasterRCNN.xywh.multi-stage 方法亮点 作者argue图像中的文字不可能单独出现,文字一定是写在什么载体上的,比如衣服,包装袋,交通部标志牌,黑板上,而且文字不会出现在某些载体上,比如天空,水面上,也就是说文字背后的载体对文字是否出现也有很强的相关性和指导性.所以,他串联了两个网络,第一个用来做通用…
https://mapr.com/blog/real-time-credit-card-fraud-detection-apache-spark-and-event-streaming/ Editor's Note: Have questions about the topics discussed in this post? Search for answers and post questions in the Converge Community. In this post we are…
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline  如上图所示,本文旨在解决一个问题:给定一张图像,我们最应该关注哪些区域?怎么将其分割出来?这是一个什么东东?这三个子问题为一体. Problem formulation: Given an image, determine the most influential item in the scene in terms of region of i…
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Detection 论文链接:https://arxiv.org/pdf/1912.13192.pdf 本文在LITTI数据集3D Object Detection三维目标检测性能排名第一. 摘要 提出了一种新的高性能的三维目标检测框架:点体素RCNN(PV-RCNN),用于从点云中精确检测三维目标.该方…
Programming Assignment 3: Pattern Recognition 1.题目重述 原题目:Programming Assignment 3: Pattern Recognition 题目给定n个二维平面点,搜索能够连成线的大于等于四个点的集合.需要分别实现三个类,点的类,暴力搜索,快速搜索. 点的类需要实现根据点的坐标比较以及两个点根据某个点的斜率的比较. 暴力搜索和快速搜索均需要实现寻找点的功能. 2.分析 主要是分析如何实现暴力搜索和快速搜索. 2.1 暴力搜索 这个…
Introduction The problem of searching for patterns in data is a fundamental one and has a long and successful history. For instance, the extensive astronomical observations of Tycho Brahe in the 16th century allowed Johannes Kepler to discover the em…
读书会成立属于偶然,一次群里无聊到极点,有人说Pattern Recognition And Machine Learning这本书不错,加之有好友之前推荐过,便发了封群邮件组织这个读书会,采用轮流讲课的方式,如果任务能分配下去就把读书会当作群员的福利开始进行,分配不下去就算了.后来我的几位好友:网神兄.戴玮博士.张巍博士.planktonli老师.常象宇博士纷纷出来支持这个读书会.待任务分配完,设置好主持人和机动队员,我认为就不需要再参与了,但进行不久,也充当机动队员讲了第二.六.九.十一章,…
前言 鉴于机器学习产生自计算机科学,模式识别却起源于工程学.然而,这些活动能被看做同一个领域的两个方面,并且他们同时在这过去的十年间经历了本质上的发展.特别是,当图像模型已经作为一个用来描述和应用概率模型的框架出现时,贝叶斯定理(Bayesian methods)就已经从一个专家级别的知识范畴发展成为主流.通过一系列近似算法推论,例如变分贝叶斯和期望传播(variational Bayes and expectation propagation),贝叶斯定理的实际适用范围也已经大幅度的提高.与此…
编程作业三 作业链接:Pattern Recognition & Checklist 我的代码:BruteCollinearPoints.java & FastCollinearPoints.java & Point.java 问题简介 计算机视觉涉及分析视觉图像中的模式并重建产生它们的现实世界对象.该过程通常分为两个阶段:特征检测和模式识别.特征检测涉及选择图像的重要特征:模式识别涉及发现特征中的模式.我们将研究一个涉及点和线段的特别简单的模式识别问题.这种模式识别出现在许多其他…
Pattern Recognition Functions K线模式识别,形态识别 CDL2CROWS - Two Crows 函数名:CDL2CROWS 名称:Two Crows 两只乌鸦 简介:三日K线模式,第一天长阳,第二天高开收阴,第三天再次高开继续收阴, 收盘比前一日收盘价低,预示股价下跌. integer = CDL2CROWS(open, high, low, close) CDL3BLACKCROWS - Three Black Crows 函数名:CDL3BLACKCROWS…
此部分是 计算机视觉中的信号处理与模式识别 与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评.与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献.分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去.这样做的目的是希望能突出这些比较实用且比较流行的方法.为了以后维护的方便,按照字母顺序排的序. 15. RANSAC随机抽样一致性方法,与传统的最小均方误差等完全是两个路子.在S…
Preface Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over t…
论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis 论文链接:http://arxiv.org/abs/1905.05812 文章同时使用视觉.语音.和文本(语言)信息进行情感分析,通过增加视觉和语音信号,补足了一些无法通过文本来进行判断的情况,例如下图中,第一句话需要图像才能判断为负面情绪,第二句话同时语音和图像才能判断为负面情绪. 一.模型架构 模型整体思路 1.首先,每一个模…
Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 作者 Chuhui Xue, Shijian Lu, Wei Zhang 亮点 multi-scale网络中利用FPN的up-sampling把多个不同scale得到的结…
XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码 关键词 文字检测.多方向.SSD.$$xywh\theta$$.one-stage,开源 方法亮点 核心思想认为,分类问题对于旋转不敏感,但回归问题对于旋转是敏感的,因此两个任务不应该用同样的特征.所以作者提出来基于旋转CNN的思路,先对特征做不同角度的旋转,该特征用于做框的回归,而对分类问题,采用沿ori…
Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe检测torch7识别代码 关键词 文字检测.多方向.直接回归.$$xywh\theta$$ .multi-stage.监督学习 方法亮点 采用单词.文本行的标注信息进行监督学习来辅助字符检测 在ICDAR2013数据集上F值90+,后来的方法能超过这篇文章的寥寥无几 方法概述 利用Faster RC…
Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping 作者和代码 关键词 文字检测.多方向.FCN.$$xywh\theta$$.multi-stage.border 方法亮点 采用Bootstrapping进行数据扩增 增加border-loss 方法概述 本文方法是直接回归的方法,除了学习text/non-text分类任务,四个点到边界的回归…
方法概述 该方法用一个端到端网络完成文字检测整个过程——除了基础卷积网络(backbone)外,包括两个并行分支和一个后处理.第一个分支是通过一个DSSD网络进行角点检测来提取候选文字区域,第二个分支是利用类似于RFCN进行网格划分的方式来做position-sensitive的segmentation.后处理是利用segmentation的score map的综合得分,过滤角点检测得到的候选区域中的噪声. 文章亮点: (1)不是用一般的目标检测的框架,而是用角点检测(corner point…
虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(https://github.com/extreme-assistant/iccv2019),目前已经收集到70篇论文,其中10篇Oral,13篇开源,见下方list.建议Oral的文章一定要去读一读. 本文中所有论文PDF已经打包上传到百度云,可以直接在GitHub项目上看到或者直接微信后台回复"ICCV…
Pedestrian Detection aided by Deep Learning Semantic Tasks CVPR 2015 本文考虑将语义任务(即:行人属性和场景属性)和行人检测相结合,以语义信息协助进行行人检测.先来看一下大致的检测结果(TA-CNN为本文检测结果): 可以看出,由于有了属性信息的协助,其行人检测的精确度有了较大的提升.具体网络架构如下图所示: 首先从各个数据集上进行行人数据集的收集和整理,即:从Caltech上收集行人正样本和负样本,然后从其他数据集上收集 ha…
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 作者 亮点 通过将文字的字符合并问题转成字符embedding问题,利用一个网络来学习字符间的连接关系 方法概述 针对任意文字检测(水平.倾斜.曲文),采用从…
Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 作者 亮点 提出的TextField方法非常新颖,用点到最近boundary点的向量来区分不同instance…
一.AQS介绍 AQS(AbstractQueuedSynchronizer)抽象队列同步器,属于多线程编程的基本工具:JDK对其定义得很详细,并提供了多种常用的工具类(重入锁,读写锁,信号量,CyclicBarrier,CountDownLatch),在阅读源码的时候,我是从具体工具类往上读的,这样会比较便于理解AQS的设计. 下面,我将从五种常用类去分析源码,进而学习AQS. 论文地址 二.开始吧,重入锁(ReetrantLock) 我们要阅读的重入锁,它首先遵循Lock的规范,并且实现了序…
Jaal: Towards Network Intrusion Detection at ISP Scale 论文来源:CoNext 发表时间:2015 解决问题及所做贡献:Jaal:大规模精细网络入侵检测框架. 相关工作: NIDFS:解决企业级网络入侵系统的可扩展性问题. Network Monitoring, Sampling, Sketching:介绍一些检测方法 分类: 安全,入侵检测,与sketch有关 SDNScore: A Statistical Defense Mechanis…