上下班路上听点啥好?这家公司或能丰富你的通勤时光
![上下班路上听点啥好?这家公司或能丰富你的通勤时光](https://s.hougarden.com/image/bf/35/bf3500c7feb445ff0d292f1ee5e9f137.jpg?x-oss-process=image/quality,q_80/resize,w_1920/format,webp)
近年来,随着亚马逊、Google、苹果,到国内的阿里巴巴、百度、京东等在语音驱动设备(voice-first devices)领域的频繁发力,智能语音的发展速度惊人。随着 Airpods、智能手机等语音设备的持续增加,用语音控制设备不仅逐渐成为主流、还会成为类似于搜索引擎之于 PC、超级 app 之于移动互联网的新一代超级入口。
在这种趋势下,人们对播客(podcast)、有声书等语音内容的需求也日益增加。但长期以来,语音内容生产者一直要面对一个问题:语音内容的编辑,与文字相比,是件耗时又费力的事情。
由加州大学伯克利分校孵化器 SkyDeck 孵化的语音编辑软件公司 Spext,正是想解决这个问题。他们打算如何简化声音内容的编辑?为此,硅谷洞察独家专访了 Spext 的 CEO Anup Gosavi。
![hougarden](https://s.hougarden.com/article/19/ba/19bad7c73f1dcaf91ac70ca6df7998aa.jpg?x-oss-process=image/quality,q_80)
音频节目:发展飞速、编辑速度龟速
目前在美国,两种音频节目形式最常见:播客,以及有声书。据估计,目前在 iTunes 上,有 70 多万个 podcast 频道、4200 万集节目。同时,有声书也在快速发展:Anup 告诉硅谷洞察,去年美国出版了 8 万多本有声书,今年这个数字预计会增长 40%。
![hougarden](https://s.hougarden.com/article/bf/35/bf3500c7feb445ff0d292f1ee5e9f137.jpg?x-oss-process=image/quality,q_80)
(从2011年到2018年,美国成年人过去12个月内收听过有声书的人比例攀升。图自皮尤研究中心)
Anup 也有听播客的习惯,他自己就是一位已经有十年 “听龄” 的老听众了。正因如此,他意识到播客的一个问题:播客以声音为媒介,这种形式使得其中很多精彩内容没有办法被记录、被索引。换句话说,我们现在在 Google、百度之类的搜索引擎上,能轻易搜到文字,甚至能以图搜图,但播客里的内容却很难搜到。
以声音为媒介的内容,到底有没有可能也能被索引呢?Anup 开始与播客创作者们交谈。他发现,其实想要制作音频内容的人不少,但目前音频播客内容所用到的专业音频编辑软件很难上手、对新人门槛比较大,而且编辑起来也非常耗费时间。
Anup 告诉硅谷洞察,目前内容创建者大多使用 Audacity 和 Garageband 这两款音频波形编辑软件,其中 Audacity 更为主流。
音频波形编辑软件长这样:
![hougarden](https://s.hougarden.com/article/62/7a/627aaf320f2fdbc79b124e7855f32739.jpg?x-oss-process=image/quality,q_80)
(Adobe Audition 界面)
图里六条形状各异的波浪线,每条都是一条音轨。编辑在剪辑音频时,由于不可能从这上上下下起起伏伏的波浪线里 “读” 出内容,只好通过一遍遍反复播放的办法,把文字信息和 “波浪线” 对应上,从而完成删减、增补等编辑。
而 Audacity 和 Garageband 这两款软件之所以比较主流,除了因为是免费软件(不少苹果产品往往自带这种音频编辑软件),还因为它们与 Adobe Audition 这种更为专业复杂、使用门槛更高的音频编辑软件相比,这两款音频编辑软件使用相对简单、更好上手。
除了要解决上手困难的问题,目前音频波形编辑软件还有另外一个挑战:用起来很费时间。Anup 透露,目前每产生 1 小时的编辑完毕、可以播出的内容,背后就需要 7~8 小时的编辑、修改、把音频整理成文字稿的时间—— 这还是业务熟练的专业人员,对于新手及业余爱好者来说,所需时间只会更长。
让编辑音频像编辑文字一样容易
为了解决这个问题,Anup 决定成立 Spext。Spext 用 AI 技术,通过简化自动转录、语音编辑、声音合成等语音编辑任务,为音频内容制造者极大量节省时间。
从使用界面上来说,Spext 和传统的音频编辑软件长得就很不一样。与传统音频软件的波浪线不同,Spext 的产品 “声音编辑器”(“Editor”)不仅把音频直接转译成文字, 而且还能让用户通过编辑文字,直接编辑音频。用 Anup 的话说,Spext 的产品 “看起来像是用于音频编辑的 Google 文档”。
我们以乔布斯的一段音频为例。在这段音频开始的地方,他说,“Hi(长停顿),for those of you that don’t know me, my name is Steve Jobs”(嗨,【长停顿】,你们中可能有些人不认识我,我的名字叫史蒂夫•乔布斯)。
![hougarden](https://s.hougarden.com/article/ad/76/ad762f68273318f09eb234e789ad5b44.jpg?x-oss-process=image/quality,q_80)
(图自 Spext)
如果用户想把 “嗨” 后面的长停顿、和 “你们中可能有些人不认识我” 这种没什么信息量的语句删掉,只需把这句话选中,直接删除即可,其背后对应的音频也会准确地把这个部分删除。而如果用传统音频软件编辑的话,哪里是 “嗨”、哪里是停顿的开头结尾,都要找半天。
目前 “声音编辑器” 已进入公测阶段,用户可以在音频中把空白录音、“呃”、“嗯” 之类的删减掉,也可以重新排列句子与句子之间的顺序。几周内,Spext 将推出其产品的最新版本,也是首个商业版本,用户将可以添加音乐、背景声等声效。
更简单的流程自然也给编辑们省了很多时间。Anup 透露说,Spext 产品的测试用户反馈说,Spext 足足帮他们节省了约 80% 的编辑时间!
让音频制作不仅省时、更省事
除了省时间,Spext 还能让音频编辑更 “省事”:比如,如果音频里的人发生口误,音频编辑可以直接看着 Spext 根据音频整理出的文字,直接替换文字,打出正确的词,然后 Spext 的 “声音合成器(synthetic media)” 功能,就能自动生成以那个人的声音说的、被修改过的没有口误的那句话。
当然,目前这个功能还不支持大段大段的语音生成,只支持少数词语的替换,但这也已经带来了很多便利,比如就不用因为口误而叫人家重回录音棚录音了。
我们再回到乔布斯的例子:假设编辑想把 “hi” 替换成 “hello”,只需删去 hi,敲入 hello,Spext 就能生成足以以假乱真的、乔帮主声音的 Hello,替换在音频里基本没有违和感。
![hougarden](https://s.hougarden.com/article/0a/89/0a898ab4fa3954a298ddc220c7aad53e.jpg?x-oss-process=image/quality,q_80)
(图自 Spext)
Spext 使用的技术之一是 “声音与文字对齐” (aligning the spoken words and text)。为了让机器学会自动把声音与字句对齐,Spext 利用深度学习技术运行该对齐算法。编辑音频时,为了让声音听起来真实自然、字、词、句子之间的剪切与过渡听起来不突兀,声音和文字必须 “严丝合缝” 地准确对齐。
为了做到严丝合缝地对齐,Spext 对字与词进行精确切割。到底有多精确呢?以最简单的 hello 为例,hello 由不同音节组成,别看词很短、读起来很快,为确保声音精度,Spext 把每个词都切割到了 1 微秒的精细度。假设 hello 发音 0.5 秒,这就意味着 Spext 要把它切割成 50 万份,精度可想而知。精度越细,在合成一个词、添加或删减内容时、声音听起来也就越准确自然。
![hougarden](https://s.hougarden.com/article/8d/c6/8dc6ac84b1d19160a1e87111ecb35001.jpg?x-oss-process=image/quality,q_80)
(Gif 自 Spext)
别看 “让机器自动把音频和文字准确对齐” 听着简单,其实在技术上很有挑战。Anup 解释说,这是因为它对音频工程(audio engineering)、机器学习,以及产品设计的要求都很高。
比如我们刚才说的 “把一个词切成无数个小部分”,并不是切割完毕后就大功告成,机器还需要学习处理一系列可能的复杂情况。比如,每一微秒的声音都有顺序、有编号,在删除或添加声音时,这些号就会改变,而系统如何保证顺序正确、不弄乱,就是不小的挑战。
就像现在已经能造出以假乱真的图片和视频一样,声音也能以假乱真。如何防止这种技术被恶意利用,就成了难题。Anup 介绍道,防止恶意篡改,正是 Spext 目前的工作重点之一。Spext 给出的解决方案是声音认证(audio authentication)。
就像天下没有相同的指纹一样,我们每个人的声音也非常独特 —— 特别是在机器的 “耳朵” 里,每人的声音都有独特 ID。Anup 打了个比方:现在我们可以在手机上通过 face ID 之类的技术 “刷脸” 购物。在你下单之前,iPhone 先要确保你的身份。Spext 的声音 ID 也是同样道理:当你录音完毕后,想再用同样声音修改内容、然后放到网上,也需要进行声音认证。
而 Spext 为此需要解决的技术挑战,就是其需要不断提高声音识别的准确率:只有准确率提高了,才能更精准地识别不同人的声音。
同时,编辑在对音频内容作出修改时,需要编辑及声音的 “原主人” 双方许可后,才能修改内容。
“你可以把它想象成 DocuSign。你在你那边先认证音频的真实性,再把它发给我进行认证。只有双方都点头后,才能完成修改,避免用自动生成器恶意篡改内容。”
当然,如果对内容有争议,还可以用最简单的办法:找回谁也没编辑过的原始录音,有声有真相。
不过 Anup 说,目前声音合成器功能暂不公开,Spext 计划在能更好地进行身份验证后,再启动该功能,以避免此产品被用于恶意目的。
让更多人能讲故事
不论是 “Alexa”,还是 “Hey Google”,越来越多的智能设备以声音驱动,已经成了一股非常明显的潮流。但其实除了潮流本身,人类对于讲故事、分享经历、听故事的需求从来就非常旺盛。
一个有趣的事实是,二十世纪五十年代初,欧美国家电视逐渐普及,不少人当时信誓旦旦地预言说,广播这种 “听得见、看不见” 的媒体,将会很快被淘汰。这个预言显然是错的,直到今天,广播电台依然红火。
与视频相比,音频内容更随意,而且...还有那么一丝亲密感。在摄像机面前,你得穿得好看、背景要好看、角度灯光... 但音频对环境(和长相)的要求低了很多,在很多地方都可以录音,而听者也觉得像是在和主持人谈天说地、亲密交流。正因如此,人们对音频内容的需求随着技术的进步,反而有增无减。
“我们的用户主要是播客、有声书的内容创造者。我们会先关注播客、之后扩展到有声读物出版商。” Anup 说。
为了鼓励更多人发出自己的声音、讲出自己的故事,Spext 还专门开了博客,教那些想要开自己 播客频道的人一些技巧,比如如何吸引观众。此外 Spext 也从新闻学校打开市场,比如伯克利新闻学院的学生们,就给了 Spext 很多反馈。
“除了播客、有声书、和新闻学院的学生,另一类潜在客户是企业。” Anup 补充道,“越来越多的企业想用口述历史的形式讲述其公司的历史,比如他们经历了哪些关键时刻、他们的重要策略都是如何制定出来的...作为其宣传的一部分。这很出乎我们意料。”
![hougarden](https://s.hougarden.com/article/12/3f/123f50676bcbb49681ea145092346076.jpg?x-oss-process=image/quality,q_80)
(外媒文章:“时尚品牌为何纷纷开播客”)
目前作为创业公司的 Spext 还只支持英文,不过 Anup 在采访尾声时提到,Spext 非常希望未来能扩张到印度、中国这两个人口巨大的市场。当然,中国和印度都有很多方言和口音,想想 Spext 或许未来有天要努力 “听懂” 温州话、闽南语之类的方言,也真是 real 不容易... 估计这也会成为 Spext 未来不小的挑战。
封面图自网络,版权属于原作者