基于语音转录的ted演讲推荐
论文地址:https://arxiv.org/abs/1809.05350v1
二. 实现
我们从Kaggle[6]中获取了TED演讲数据集,其中包括2400个TED演讲的数据,包括标题、演讲者、标签、文字记录等等。从数据集中,我们主要使用平均有3000字的转录本。
Step1:我们使用Mechanical Turk (labMT)[7]进行语言评估,从转录本中得到正和负的分数。分数越高,代表内容越积极,说明视频内容对观众有积极的情感影响
Step2:我们使用TF-IDF分析来确定哪些单词代表TED演讲的语义。具有较高TF-IDF值的单词被用来形成描述每个视频的词云。
Step3:应用Gensim包的Doc2vec导出转录本向量。对矢量表示进行了训练,并用它们来计算这些文档嵌入之间的余弦相似度。我们使用向量维度200和上下文大小8作为超参数。
三. 系统演示
我们的web应用程序的后端分析(如相似度计算、社群检测和情感分析)是使用Python进行的。对于我们web应用的用户界面,我们使用d3.js构建了相似视频的网络
图1是我们的web应用程序的主页,左边的面板显示了2400个TED talk视频的标题列表。中心面板显示了主要网络,其中视频被表示为定点,它们的相似性被表示为边。主网络只显示了最上面1%的相似评分关系作为边。节点的颜色表示视频的情绪得分:蓝色表示消极,红色表示积极。节点的大小表示每个视频的视图数量,节点根据检测到的社群进行分组。
当鼠标指针悬停在一个节点时,视频的标题出现,和右边的面板显示了该节点的信息:一个字云总结了视频的内容,和其他视频内容相近的列表(图2)。通过悬停鼠标指针在节点,用户可以浏览在TED的演讲视频。
用户可以点击左边面板上显示的视频标题,或者在搜索框中键入标题进行搜索。图3是用户搜索“大脑创造意义的三种方式”视频时显示的画面。这个视频的邻居网络出现在中央面板上。它展示了高度推荐的共享相似内容的视频。将鼠标悬停在节点上,右边的面板会显示一个词云和一个相关视频列表,这些视频的相关性最高,最低。通过点击其中一个列出的标题,用户可以登陆TED.com上的视频网页。
表1比较了TED.com和我们的方法推荐的视频,题目是“学校扼杀创造力吗?”TED.com提供了一个列表,列出了每个TED演讲最多6个相关视频,而我们的方法则推荐了10多个相关视频。平均两个视频作为两组的交集,一组来自TED.com的推荐视频,另一组使用我们的方法(B部分)。一些最初由TED.com的视频管理员推荐的视频并没有包含在我们的推荐人(A部分)的结果中。通过查看Kaggle的数据集,我们能够确定这些视频是否共享公共标签。一些结果,包括可能不如课程g相关的课程d,显示了这种面向标记的建议的局限性。所选的TED talk和lecture g的主题强调“孩子们有自己的创造力,老师应该尽量让孩子有创造力”,而lecture d强调的是“孩子们有受教育的权利,没有歧视”。C部分是关于相关的视频,这些视频并没有在TED.com的相关视频数据中列出,但是我们的方法是推荐的。
三. 最后
本文介绍了TED talk视频推荐系统的新概念,并将其开发成web应用程序。我们的应用程序使用深度学习技术,通过测量视频转录本的相似性来推荐语义相关的视频。与基于标签的推荐相比,我们的方法在质量和数量上都有可能提供更好的相关视频,因为C部分的大多数课程看起来都非常相关。所以这项研究可以证实我们基于转录的推荐方法适用于有演讲的视频。
此外,随着语音识别技术的提高,我们的方法有望在TED.com之外扩展到其他视频平台。除了视频平台如YouTube,提供视频分享的社交网络服务也可以从我们的方法中获益。通过将其应用到用户创建的视频中,可以分析这些视频的内容,并用于构建视频的语义网络。因此,用户可以很容易地找到与自己兴趣相关的视频,而不会被不恰当的推荐误导。
基于语音转录的ted演讲推荐的更多相关文章
- 《TED演讲的秘密》:TED组织者总结的演讲技巧集锦。三星推荐。
对演讲感兴趣的可以看看.对TED内容感兴趣的也可以翻翻,书中有不少作者认为演讲技巧比较经典(一般来说内容上也有特色)的TED演讲的二维码.三星推荐.http://t.cn/RvFStu7
- 一个TED演讲背后的文化论
0. 前言 写这个前言让我很难受,当然不是心情难受哈,此时的状态是很High的哦,大中午觉都省了, 说难受是我觉得我这语言文字太渣了,相比今天的主题确实很没“文化”.但我也很庆幸,能 看到这么个人认为 ...
- 2016第16本:TED演讲的秘密
花0.01元抢购了<得到APP>中的<成甲说书:TED演讲的秘密>,不到30分钟的音频,感觉全是干货,基本不用看原书了.如果在以后的演讲中随便应用几条都可以让演讲水平提升一大截 ...
- 美团网基于机器学习方法的POI品类推荐算法
美团网基于机器学习方法的POI品类推荐算法 前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称.品类.电话.地址.坐标 ...
- 基于协同过滤的个性化Web推荐
下面这是论文笔记,其实主要是摘抄,这片博士论文很有逻辑性,层层深入,所以笔者保留的比较多. 看到第二章,我发现其实这片文章对我来说更多是科普,科普吧…… 一.论文来源 Personalized Web ...
- 蓝牙ble数据转语音实现Android AudioRecord方法推荐
蓝牙ble数据转语音实现Android AudioRecord方法推荐 教程 欢迎走进zozo的学习之旅. 概述 蓝牙BLE又称bluetooth smart,主打的是低功耗和快速链接,所以在支持的 ...
- (二)基于商品属性的相似商品推荐算法——Flink SQL实时计算实现商品的隐式评分
系列随笔: (总览)基于商品属性的相似商品推荐算法 (一)基于商品属性的相似商品推荐算法--整体框架及处理流程 (二)基于商品属性的相似商品推荐算法--Flink SQL实时计算实现商品的隐式评分 ( ...
- 推荐TED演讲:20岁光阴不再来(Why 30 is not the new 20)
缘起 早上起来在电脑上看到"自强不息"群(群号)中骆宏给大家分享的视频."20岁光阴不再来",利用短暂的时间浏览了一下.就像把这个TED视频分享给很多其它的朋友 ...
- 【Machine Learning】Mahout基于协同过滤(CF)的用户推荐
一.Mahout推荐算法简介 Mahout算法框架自带的推荐器有下面这些: l GenericUserBasedRecommender:基于用户的推荐器,用户数量少时速度快: l GenericI ...
随机推荐
- c# 后台线程 访问前台控件并显示信息
//设置为后台线程 Thread th = new Thread(delegate() { append(); }); th.IsBackground = true; th.Start(); //在a ...
- SpringMvc获取上下文
import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpSession; import org.spri ...
- 课时70.id选择器和类选择器(理解)
1.id和class的区别? id相当于人的身份证不可以重复 class相当于人的名称可以重复 1.2 一个HTML标签只能绑定一个id名称 一个HTML标签可以绑定多个class名称 2.id选择器 ...
- SpringBoot非官方教程 | 终章:文章汇总
转载请标明出处: 原文首发于:https://www.fangzhipeng.com/springboot/2017/07/11/springboot-all/ 本文出自方志朋的博客 SpringBo ...
- PL/SQL dev 工具连接远程服务器oracle注意点
由于Oracle的庞大,有时候我们需要在只安装Oracle客户端如plsql.toad等的情况下去连接远程数据库,可是没有安装Oracle就没有一切的配置文件去支持. 最后终于发现一个很有效的方法,O ...
- Linux/Mac scp命令笔记
scp命令用于Linux之间复制文件和目录. 参数说明: -1: 强制scp命令使用协议ssh1-2: 强制scp命令使用协议ssh2-4: 强制scp命令只使用IPv4寻址-6: 强制scp命令只使 ...
- D - 湫湫系列故事——减肥记II
虽然制定了减肥食谱,但是湫湫显然克制不住吃货的本能,根本没有按照食谱行动! 于是,结果显而易见… 但是没有什么能难倒高智商美女湫湫的,她决定另寻对策——吃没关系,咱吃进去再运动运动消耗掉不就好了? 湫 ...
- mysqldump备份与基于bin-log实现完全恢复
MySQL数据库备份是一项非常重要的工作,mysql的备份主要分为逻辑备份和物理备份,同时,不同的生产环境要备份的策略也不会不同.下面先说一说备份时要考虑到的一些因素,然后再实际操作进行不同方式的数据 ...
- Spring Boot2.0拦截器简单实现判断是否登录
在进行项目开发的时候使用springboot框架用到拦截器时发现2.0以后原来的抽象类WebMvcConfigurerAdapter已经过时了,去官网查文档2.x版本要实现拦截器功能改为需要继承Web ...
- python pandas库——pivot使用心得
python pandas库——pivot使用心得 2017年12月14日 17:07:06 阅读数:364 最近在做基于python的数据分析工作,引用第三方数据分析库——pandas(versio ...