专访香侬科技:致力于让世界听到中文NLP的声音
像所有的创业者一样,香侬科技的初创团队胸怀梦想,期待有一天当人们提起香侬的时候,除了“信息论之父”,还能想起来有一家用技术在链接大千世界的科技公司——香侬科技。
新生的香侬科技选择“长在云上”
香侬科技的CTO王思宽说起企业上云的历程,“在2018年的时候,我们是一家初创公司,自己运营机房的成本太高了,我们决定要选一家云厂商,现在看来,阿里云是一个最简单也最正确的选择。”
从简单的云服务器弹性使用,到数据库服务,后面香侬又在ECS上面自己搭了 K8s。随着业务进一步发展,阿里云的架构师提出了进一步降低IT运维成本的方案,香侬也直接采用了阿里云的AKS。
王思宽说,“从我角度上来看的话,阿里云的优势还在于服务——响应非常及时,技术交流也比较完善,阿里云对于我们的需求能很快给出答案;其次是云功能的学习支持很省心,随着云服务的不断升级完善,功能越来越强大,对于企业方来说存在学习用云的时间成本,阿里云丰富的学习资源给了我们很大的支持。”
启航于情怀,坚定于信仰
初次见到李纪为,是在人工智能小镇,香侬科技位于杭州的新办公区。说起他的标签,很多人可能会知道 “斯坦福计算机用时最短毕业博士”、“《麻省理工科技评论》35岁以下科技创新35人”、“《福布斯》30位30岁以下精英”等等。但是,相比起炫酷的title,他个人显得低调得多,比起一家企业的CEO,更像是一个研究型学者。这位年轻的创业者,是克劳德·香侬的直系弟子。2012年李纪为从北京大学毕业,赴美学习生物工程,后来转向学习人工智能,并入学斯坦福大学,师从Dan Jurafsky(斯坦福大学计算机系教授、语言系主任),而Dan正是香侬的学生。
潜心前沿AI技术,创造文字社会价值
2017年底,李纪为回国,拉上了自己曾经的同窗,成立香侬科技,开始了NLP(自然语言分析)领域的创业。
关于公司名字的由来,李纪为说,这来源于对信息论和其创始人香侬的信仰。读博期间,他曾仔细拜读过香侬划时代的研究论文「Prediction and entropy of printed English」,这是现代NLP很多理论的来源和基础。出于对这位NLP先导的崇拜,公司便由此命名了。
2018年,香侬科技在阿里云实现上云第一站,用数字科技陪伴企业成长。
在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,85%左右都是用于语言文字的信息处理。自然语言处理,就是用计算机对自然语言的形、音、义等信息进行处理,对字、词、句、篇章进行输入、输出、识别、分析、理解、生成等的操作和加工。
自然语言处理在我们生活中是怎么应用的呢?
其实,NLP已经在我们的日常生活和工作中随处可见并发挥着重要的作用。小到我们常用的翻译软件、搜索引擎、聊天机器人,都是通过NLP技术让机器去了解我们的诉求,再通过运算处理,反馈给我们想要的答案;大到在金融、司法、政务、工业、传媒等行业领域,也在使用这项技术去处理纷繁复杂的文档文件,从海量文字中更便捷、快速地获得精准信息。
那么,NLP技术是怎样实现这些应用的呢?香侬科技创始人李纪为举了一个形象的比喻:就像是一位小学生通过学习基础知识和训练学习方法,达到了大学生的水平,掌握了这些理论与操作技能后,投身到各行各业去工作。通过一定时间的工作实践与加强学习,他成长为某一垂直领域的“小专家”,过硬的技术加之行业经验的积累,便使他在所属行业中游刃有余。用技术的思维来简单概括,就是用算法搭建起一个“大学生”模型,通过垂直领域小样本数据的不断训练,便掌握相关的知识和能力,成为高效、优质的生产工具。
李纪为用香侬旗下的智能写作产品——火龙果写作做了示范:一名网络小说作者完成基本的框架与前期内容铺垫后,系统可以根据当前写作内容去理解和分析文章类型和主旨,自动推荐相关写作素材;小说完成后,还可以帮助作者进行语法纠错、事实性核查、上下文一致性核查、标点格式检查等一百多种类型纠错核查,不放过任何差错;当创作陷入瓶颈时,能够根据当前内容,自动生成原创情节进行续写。除了文学创作以外,该产品也可以根据关键信息描述,辅助创作不同风格的文体,例如学术风格、公文风格、社交媒体风格等,俨然是一位文字写作的多面手。
据悉,火龙果写作已成为众多学生党、文字工作者的首选“智能助理”,仅用一年时间,注册用户实现了1500%的高速增长。
近些年,自然语言处理发展迅速。2017年,谷歌提出了全新的自然语言处理模型架构——Transformer;2019年至2020年,大规模预训练模型BERT与GPT相继被提出,大规模预训练模型构建于Transformer模型架构之上,能够利用海量的无标注语料完成预训练,从语料中建立对文本的感知并实现知识提取,在几乎所有自然语言处理下游任务中取得显著的效果提升。大规模预训练成为深度学习模型提升效果的必要模块,也是当前AI领域最为火热的研究对象。,但针对中文的自然语言处理研究依然薄弱。
“相比于英文,中文语言的理解要复杂得多。同样的一个字、一个词、一句话,表达的语境不同,表达的方式不同,都可能存在各种不同的含义,曾经人工智能的自然语言处理算法都是利用西方的技术为模板,基于罗马字符的语言,而中文是象形文字,经过漫长的历史发展,它每个字符的造型、读音、含义都可能蕴含着深刻的意思”。“我们之所以开始做这个事情,也是想既然在中国做这个事情,就要把中文领域的研究发扬光大!中文作为世界使用语言第二大的语种资源,它的前景肯定是更广阔的。”李纪为认为,NLP是一个广阔的市场和空间,需要更多的发展和合作,才能把生态做起来,谈及未来计划,李纪为说,未来希望能进一步推动“更懂中文”的新一代自然语言处理基础研究,打破理论和实践之间的壁垒,继续在更多原创性、创新性、实用性问题中深耕、研究,加强人才培育与产学研生态建设,对提升中文自然语言处理研究在国际话语体系中地位多做一些工作。
2018年,新生的香侬科技选择了“长在云上”。
香侬科技,提供以语言理解核心的产业AI技术
香侬科技正在做的事情——提供以语言理解核心的产业AI技术。见微数据、舆情监控系统、智能文档处理平台、智能问答引擎、智能化数据治理平台在金融、司法、政务、新闻出版、教育各个行业遍地开花,面向企业、金融机构、政府等行业提供一站式舆情数据知识加工服务。
持续且大量的人工神经网络计算的深度学习场景,香侬使用了阿里云推荐的GPU实例及AMD实例。搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排资源的支持,香侬科技快速在云端搭建了完整AI深度学习业务系统。
从2018年到现在,香侬发布了50多篇顶会论文、70多项核心专利;建模中文的独有特征,融入中文字形与拼音信息;提出基于机器阅读理解的实体关系联合抽取方法,取得世界最优结果;基于机器阅读理解的命名实体识别方法,大幅超越之前世界最优结果;基于大规模图神经网络的语义理解模型,结合图结构与预训练,大幅提升模型语义理解能力。在自然语言处理、深度学习、知识图谱等领域……香侬依托多个自主知识产权领先技术,打造了以自然语言处理为核心的全流程智能计算平台。
2021年7月,香侬科技为杭州市余杭区人大办开发了“余杭区人大建议智能分发平台”,仅0.35秒就可以完成原本人工3分钟的信息处理工作,总用时从原本人工处理的8小时工作时间缩短到5分钟,准确率达到了90%以上,极大提高了余杭区人大的议案处理效率和服务能力。
2022年1月,香侬科技拿到了北京市专精特新资质。
香侬科技的未来之路
关于“下一代人工智能”
2018年以来,随着深度学习的大范围应用,关于“下一代人工智能”即将到来的讨论一直没有停止过。但在李纪为看来,这个讨论似乎为时过早。“下一代是怎么定义的呢?”他提出了这样一个问题。
在他看来,目前我们还是处在技术的“窄域时代”,人工智能在我们规定的内容里面,进行舒展、布局、与润色。但是未来的某一天,我们终将会突破窄域,进入“宽域时代”,是一个非常值得期待的景象。
创新上云,助力中文NLP更强
从创业到今天,距离香侬科技成立已经四年整了,从三个人到几百人,李纪为坦言,最难的不是开始,而是现在和未来。从“一人吃饱,全家不饿”到仍在壮大的团队和客户数量,每一步走小了都是不进则退,走大了都是对未来和趋势的预判,风险与机遇并存,肩扛所有员工和客户的信任,责任重大。
这个“难”,是每一个创业者共同的心路历程。无论是“元宇宙”还是“下一代人工智能”,他们没有想那么多,选择一个赛道既是兴趣所在,也是看到它其中的商业能力。香侬更加在意的在自己的行业领域里专门研究一些最顶尖科技,靠团队的力量去研究一代技术或者去推广一代技术,把最新研究的成果找到一个场景实现突破,真正地造福社会。
谈起最初的创业选择,用李纪为自己的话来说就是:自己的代码变成实际应用是每一个技术人的理想。“把研究模型变成现实工具,科学不是陈在纸上的,要有实际的过程应用。”
阿里云与香侬:数字科技陪伴企业成长
数字科技陪伴企业成长,从2018到2022,阿里云底层技术与产品与香侬一路前行,现在,这条路还会继续走下去。
本文为阿里云原创内容,未经允许不得转载。
专访香侬科技:致力于让世界听到中文NLP的声音的更多相关文章
- 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh
Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...
- 海蜘蛛网络科技官方网站 :: 做最好的中文软路由 :: 软件路由器 :: 软路由 :: 软件路由 :: RouterOs
海蜘蛛网络科技官方网站 :: 做最好的中文软路由 :: 软件路由器 :: 软路由 :: 软件路由 :: RouterOs 企业简介 武汉海蜘蛛网络科技有限公司成立于2005年,是一家专注于网络新技术研 ...
- Graph Embedding Review:Graph Neural Network(GNN)综述
作者简介: 吴天龙 香侬科技researcher 公众号(suanfarensheng) 导言 图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体 ...
- 学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...
- [NLP自然语言处理]谷歌BERT模型深度解析
我的机器学习教程「美团」算法工程师带你入门机器学习 已经开始更新了,欢迎大家订阅~ 任何关于算法.编程.AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主 ...
- Warmup小记
什么是warmup 热身,在刚刚开始训练时以很小的学习率进行训练,使得网络熟悉数据,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小: ...
- 2016年Q2《网络安全创新500强》榜单解读
近日,美国投资咨询机构Cybersecurity Ventures发布了2016 Q2<网络安全创新500强>企业榜单,新兴安全公司root9B异军突起,国内4家企业上榜. 关于Cyber ...
- 【AI科技大本营】
从AutoML.机器学习新算法.底层计算.对抗性攻击.模型应用与底层理解,到开源数据集.Tensorflow和TPU,Google Brain 负责人Jeff Dean发长文来总结他们2017年所做的 ...
- AI数据标注行业面临的5大发展困局丨曼孚科技
根据艾瑞咨询发布的行业白皮书显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破113亿元,行业年复合增长率达到了23.5%. 作为人工智能产业的基石,数据 ...
- 本塔科技借力VR Engine,提供更优质的3D VR内容
本文分享于华为开发者论坛<本塔科技借力HMS Core VR Engine,提供更优质的3D VR视频内容> 本塔科技致力于为影视行业提供优质的3D VR视频内容,追求稳定.观看感舒适.良 ...
随机推荐
- yum总纲
yum总纲 yum源搭建 首先本文档讲解两种搭建方式,第一有网络环境和第二种无网络环境. 第一种:有网络环境 首先 进入系统执行:以下命令,获取网络源 wget -O /etc/yum.repos.d ...
- 还在用Calendar操作Date?Java8都弃用了,还不知道它的这款强大的工具吗?
引言 在过去的Java版本中,日期和时间的处理主要依赖于java.util.Date和java.util.Calendar类,然而随着业务系统的复杂以及技术层面的提升,这些传统的日期时间类暴露出了若干 ...
- [MAUI]模仿哔哩哔哩的一键三连
@ 目录 创建弧形进度条 绘制弧 准备物料 创建气泡 创建手势 创建交互与动效 项目地址 哔哩哔哩(Bilibili)中用户可以通过长按点赞键同时完成点赞.投币.收藏对UP主表示支持,后UP主多用&q ...
- ElasticSearch分页查询的实现
1.设置mapping PUT /t_order { "settings": { "number_of_shards": 1, "number_of_ ...
- nginx root 和 alias 的区别
区别: alias 含有rewrite的意思,可以重写掉不存在的路径.( nginx rewrite请看这里) 比如正常访问的地址是: http://ip:port 当我想让 http://ip:po ...
- FR常用正则表达式
禁止输入中文字符 ^[^\u4e00-\u9fa5]{0,}$
- 批量导出导入IIS下所有网站方法
C:\Windows\System32\inetsrv\config\ applicationHost.config 存放的是网站列表配置信息,复制到目标服务器相同目录下(建议备份目标服务器原文件). ...
- #二叉堆#JZOJ 4320 旅行
分析 有一个很重要的性质就是如果经过道路数为奇数,把两个点到根节点的路径长加起来就是两个点间的路径长(正负消掉了) 而且众所周知的是奇数+偶数=奇数 可以预处理每个点到根节点的路径长度(按照题目要求) ...
- 使用OHOS SDK构建lz4
参照OHOS IDE和SDK的安装方法配置好开发环境. 从github下载源码. 执行如下命令: git clone --depth=1 https://github.com/lz4/lz4.git ...
- 一文弄懂EnumMap和EnumSet
目录 简介 EnumMap 什么时候使用EnumMap EnumSet 总结 一文弄懂EnumMap和EnumSet 简介 一般来说我们会选择使用HashMap来存储key-value格式的数据,考虑 ...