熟悉NLP的同学对Bert Finetune一定不陌生,基本啥任务上来都可以Bert Finetune试一把.可是模型微调一定比直接使用预训练模型效果好么?微调究竟对Bert的向量空间产生了哪些影响嘞?考虑到Bert的高维向量无法直接观测,下面这篇paper中,作者结合文本分类任务,和DirectProb这两种探测任务,直观展现了模型微调对Bert向量空间的影响 Paper: A Closer Look at How Fine-tuning Changes Bert Duang-Duang-Du…
写在前面 写了一段时间的博客了,忽然间忘记了,其实CSD*博客频道的博客也是可以抓取的,所以我干了..... 其实这事情挺简单的,打开CSDN博客首页,他不是有个最新文章么,这个里面都是最新发布的文章. 打开F12抓取一下数据API,很容易就获取到了他的接口 提取链接长成这个样子 https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000 发现博客最新文章是一…
ARM处理器系列介绍 现在到了3月,过年过得过于舒服了.系列博客也停更了近半月,我果然是个慢(lan)性(gui)子,那么趁着到校的第一天晚上,就写一篇博客来继续我的系列博客了!众所周知,ARM处理器的应用广泛,现在就为大家介绍一些基于ARM体系结构的处理器: ARM7 ARM9 ARM9E ARM10E SecurCore ARM11 ARM处理器简介 下面我将从上述列举的几个处理器,来给大家介绍ARM处理器 ARM7系列 ARM7系列处理器是低功耗的32位RISC处理器.主要用于对功耗和成本…
第一次写博客,可能有些地方描述的不准确,还请大家将就.本人大四学生,学了半年C#,半年.net,但是很遗憾,学完之后只会写个hello word.老师教的过程中总是会套用一些模板,特别是后台,完全封装的功能,整体架构不了解,很多地方也看不懂.所以,想自己写一个个人博客系统,顺便补一下自己的疏漏.这里要感谢另外一位同学的博客文章,@坚持的孤独,是看了他的博文之后才有的思路,废话不多说,先看完成的情况: 首页: 小说页面: 文章详情页: 评论版块: 发表评论版块: 后台: 文章列表页: 撰写博文:…
以前就尝试过研究了一些爬虫程序,也找过一些爬虫抓取软件,效果不是很好. 今天正好一个培训的网友给了我一个视频,正好研究下,收获颇丰.感谢那位哥们~ 1.首先讨论一下抓取一个页面 这里我写了模仿写了一个控制台程序,直接看代码即可: using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; namespace 爬虫 {…
目录 普通 scrapy 分布式爬取 cnblogs_spider.py 普通 scrapy # -*- coding: utf-8 -*- import scrapy from ..items import TttItem class ChoutiSpider(scrapy.Spider): name = 'chouti' # 爬虫名字 start_urls = ['https://www.cnblogs.com'] def parse(self, response): div_list =…
item.py import scrapy class FulongpjtItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() url = scrapy.Field() hits = scrapy.Field() comment = scrapy.Field() pipeline.py import pymysql from pymysql import connections…
最近网站一直被攻击,特别是新上线的交流社区,所以今天写了一个开启CC攻击防护代码,而且不影响搜索引擎收录. 在config_global.php文件中有如下代码: $_config['security']['attackevasive'] = 0; 可以设置的值有: 0表示关闭此功能 1表示cookie刷新限制 2表示限制代理访问 4表示二次请求 8表示回答问题(第一次访问时需要回答问题) 同时也可以设置为组合的方式,如1|2表示同时启用cookie刷新限制和限制代理访问. 在source/in…
MySQL复制是基于主库上的二进制日志来完成,复制是异步的,可能存在延迟 MySQL日志分为: 1.服务层日志:二进制日志.通用日志.慢查日志 2.存储引擎层日志:innodb中重做日志和回滚日志 二进制日志: 记录了所有对数据库修改的事件,包括DML和DDL,但是不包含因为出错回滚的日志.二进制日志格式分类: STATMENT:SBR 基于段的格式binlog_format=STATMENT,MySQL5.7之前默认 在数据修改时执行的SQL语句,不论使用的时那种日志格式,在使用DDL语句都是…
模型蒸馏的目标主要用于模型的线上部署,解决Bert太大,推理太慢的问题.因此用一个小模型去逼近大模型的效果,实现的方式一般是Teacher-Stuent框架,先用大模型(Teacher)去对样本进行拟合,再用小模型(Student)去模仿Teacher. 为什么蒸馏本身会比直接用小模型去拟合样本取得更好的效果呢?这里先抛出几个可能的方向 样本降噪:大模型本身作为一个'BottleNeck',把难以学到的信息和噪声样本进行了一定程度过滤,降低了学习难度 样本增强:把大模型的预测prob作为小模型的…