生活中,大家通过搜索引擎可以轻松地查看文本文件中的特定单词,但在音频和视频录制中查找短语和关键字显然要麻烦的多。幸运的是,加利福尼亚州的一家创业公司DeepGram正在做这方面的努力。DeepGram,成立于2015年,位于美国山景城;是一家基于AI技术的音频搜索引擎公司,运用机器学习进行语音识别、搜寻重要时刻并对音频和视频进行分类,帮助用户快速索引和浏览音频和视频文件,包括电话语音、会议语音、播客、视频片段等。最近一次融资为2016年9月来自MetamorphicVentures、YCombinator的180万美元的种子投资,迄今总的融资额为203万美元。

关于语音搜索的现状,Deepgram的创始人曾在官方博文提到“当处理一个巨大的文档语料库时,文本搜索只能在其中嵌入不同类型的数据,这是一个容易解决的问题,但通过录音进行搜索是非常困难的。按照传统的工作流程,通常将原始音频转录成文本再将其输入搜索工具,如果你使用人工进行转录,这真的是太费时费力了!而如果您尝试使用自动语音转文本,那么搜索的准确性就是问题。Deepgram在这些方面都做了修正和提升!”。那么既然语音搜索这么难,DeepGram又是如何实现的呢?据了解,Deepgram主要是基于短语的声音搜索而不是文本中的精确拼写,从而产生相关的结果,与其他同类的语音搜索软件最大的不同是它可以通过不同的语境来区别不同的声音含义。因此,即使拼写错误Deepgram也可以找到它们。从使用流程上看,首先用户将音频文件上传到平台,如电话、播客、会议或视频甚至可以使用YouTubeURL;然后平台会对语音进行“深度索引”处理,通过语音学来发声而不是尝试将声音翻译成单词;最后当用户输入搜索文字时,Deepgram就可以在索引中找到相关的结果。

在这过程中,Deepgram通过深度学习的训练,实现了相比传统方式更快、更便宜及更便捷的突破提升。准确率方面,虽比不了人工的准确率水平,但Deepgram平均80%的准确率,相比更容易出错、20%准确率的语音转文本的搜索方式显然更好;响应速度方面,一旦索引,Deepgram只需要几秒钟就可以在其索引中找到您的搜索字词,并直接跳转到音频中提及的关键字的时间;成本方面,公司能够在不到一半的时间内将音频文件编入索引,相比行业价格每小时1.5美元的服务费,Deepgram每小时75美分的音频成本显然有着明显的优势。不同音质音频的准确率据悉,该公司去年已有1200多个客户,这其中包括在线iPhone修理服务商iCracke、及其他呼叫中心、警察机构等。通过API调用服务,前期Deepgram尝试过允许用户每月免费索引高达40小时的音频/视频,后续针对企业客户会根据其处理的信息量来进行收费。潜在同类创业公司总融资额对比竞品方面,谷歌、微软等大公司也在做,但通常也只能获得90%的准确度,这还是针对非常干净、记录良好的语音;而对于那些有质量问题的输入来源(例如YouTube视频),有时错误率甚至超过50%以上。以谷歌为例,其SpeechAPI访问有免费和Beta版两个层次,免费的每天API调用有限,音频文件必须短并且只接受flac文件类型;Beta版本的用户数量有限且多在GoogleCloudPlatform上运行,SpeechAPI总体非常有限。

Deepgram则可以适用任何长度的音频文件及任何文件类型,且更方便快捷。创业公司而言,基于语音识别技术大多运用于营销环节,如 Chorus.ai、TalkIQ、Gong.io等通过深度学习数据分析及预测帮助销售人员提高工作效率并提升业绩。而语音搜索方便比较相近的公司则有Voicebase,2010年成立于美国加利福尼亚,是一家提供录音存储服务,用户可以随时随地访问、搜索、查找录音相关内容并允许其他人分享及添加评论的初创公司。团队方面,Deepgram是由深物质物理研究员NoahShutty与其导师ScottStephenson一起创立的,早期只是一个叫“Googleforsound”的项目。