นิวซีแลนด์
ภาษาไทย(Phasa Thai)
แบ่งปัน

上下班路上听点啥好?这家公司或能丰富你的通勤时光

生活ผู้เขียน: 硅谷密探
上下班路上听点啥好?这家公司或能丰富你的通勤时光
บทสรุป编者按:本文来自微信公众号“硅谷洞察”(ID:guigudiyixian),作者 硅谷洞察……

近年来,随着亚马逊、Google、苹果,到国内的阿里巴巴、百度、京东等在语音驱动设备(voice-first devices)领域的频繁发力,智能语音的发展速度惊人。随着 Airpods、智能手机等语音设备的持续增加,用语音控制设备不仅逐渐成为主流、还会成为类似于搜索引擎之于 PC、超级 app 之于移动互联网的新一代超级入口。

在这种趋势下,人们对播客(podcast)、有声书等语音内容的需求也日益增加。但长期以来,语音内容生产者一直要面对一个问题:语音内容的编辑,与文字相比,是件耗时又费力的事情。

由加州大学伯克利分校孵化器 SkyDeck 孵化的语音编辑软件公司 Spext,正是想解决这个问题。他们打算如何简化声音内容的编辑?为此,硅谷洞察独家专访了 Spext 的 CEO Anup Gosavi。

hougarden

音频节目:发展飞速、编辑速度龟速

目前在美国,两种音频节目形式最常见:播客,以及有声书。据估计,目前在 iTunes 上,有 70 多万个 podcast 频道、4200 万集节目。同时,有声书也在快速发展:Anup 告诉硅谷洞察,去年美国出版了 8 万多本有声书,今年这个数字预计会增长 40%。

hougarden

(从2011年到2018年,美国成年人过去12个月内收听过有声书的人比例攀升。图自皮尤研究中心)

Anup 也有听播客的习惯,他自己就是一位已经有十年 “听龄” 的老听众了。正因如此,他意识到播客的一个问题:播客以声音为媒介,这种形式使得其中很多精彩内容没有办法被记录、被索引。换句话说,我们现在在 Google、百度之类的搜索引擎上,能轻易搜到文字,甚至能以图搜图,但播客里的内容却很难搜到。

以声音为媒介的内容,到底有没有可能也能被索引呢?Anup 开始与播客创作者们交谈。他发现,其实想要制作音频内容的人不少,但目前音频播客内容所用到的专业音频编辑软件很难上手、对新人门槛比较大,而且编辑起来也非常耗费时间。

Anup 告诉硅谷洞察,目前内容创建者大多使用 Audacity 和 Garageband 这两款音频波形编辑软件,其中 Audacity 更为主流。

音频波形编辑软件长这样:

hougarden

(Adobe Audition 界面)

图里六条形状各异的波浪线,每条都是一条音轨。编辑在剪辑音频时,由于不可能从这上上下下起起伏伏的波浪线里 “读” 出内容,只好通过一遍遍反复播放的办法,把文字信息和 “波浪线” 对应上,从而完成删减、增补等编辑。

而 Audacity 和 Garageband 这两款软件之所以比较主流,除了因为是免费软件(不少苹果产品往往自带这种音频编辑软件),还因为它们与 Adobe Audition 这种更为专业复杂、使用门槛更高的音频编辑软件相比,这两款音频编辑软件使用相对简单、更好上手。

除了要解决上手困难的问题,目前音频波形编辑软件还有另外一个挑战:用起来很费时间。Anup 透露,目前每产生 1 小时的编辑完毕、可以播出的内容,背后就需要 7~8 小时的编辑、修改、把音频整理成文字稿的时间—— 这还是业务熟练的专业人员,对于新手及业余爱好者来说,所需时间只会更长。

让编辑音频像编辑文字一样容易

为了解决这个问题,Anup 决定成立 Spext。Spext 用 AI 技术,通过简化自动转录、语音编辑、声音合成等语音编辑任务,为音频内容制造者极大量节省时间。

从使用界面上来说,Spext 和传统的音频编辑软件长得就很不一样。与传统音频软件的波浪线不同,Spext 的产品 “声音编辑器”(“Editor”)不仅把音频直接转译成文字, 而且还能让用户通过编辑文字,直接编辑音频。用 Anup 的话说,Spext 的产品 “看起来像是用于音频编辑的 Google 文档”。

我们以乔布斯的一段音频为例。在这段音频开始的地方,他说,“Hi(长停顿),for those of you that don’t know me, my name is Steve Jobs”(嗨,【长停顿】,你们中可能有些人不认识我,我的名字叫史蒂夫•乔布斯)。

hougarden

(图自 Spext)

如果用户想把 “嗨” 后面的长停顿、和 “你们中可能有些人不认识我” 这种没什么信息量的语句删掉,只需把这句话选中,直接删除即可,其背后对应的音频也会准确地把这个部分删除。而如果用传统音频软件编辑的话,哪里是 “嗨”、哪里是停顿的开头结尾,都要找半天。

目前 “声音编辑器” 已进入公测阶段,用户可以在音频中把空白录音、“呃”、“嗯” 之类的删减掉,也可以重新排列句子与句子之间的顺序。几周内,Spext 将推出其产品的最新版本,也是首个商业版本,用户将可以添加音乐、背景声等声效。

更简单的流程自然也给编辑们省了很多时间。Anup 透露说,Spext 产品的测试用户反馈说,Spext 足足帮他们节省了约 80% 的编辑时间!

让音频制作不仅省时、更省事

除了省时间,Spext 还能让音频编辑更 “省事”:比如,如果音频里的人发生口误,音频编辑可以直接看着 Spext 根据音频整理出的文字,直接替换文字,打出正确的词,然后 Spext 的 “声音合成器(synthetic media)” 功能,就能自动生成以那个人的声音说的、被修改过的没有口误的那句话。

当然,目前这个功能还不支持大段大段的语音生成,只支持少数词语的替换,但这也已经带来了很多便利,比如就不用因为口误而叫人家重回录音棚录音了。

我们再回到乔布斯的例子:假设编辑想把 “hi” 替换成 “hello”,只需删去 hi,敲入 hello,Spext 就能生成足以以假乱真的、乔帮主声音的 Hello,替换在音频里基本没有违和感。

hougarden

(图自 Spext)

Spext 使用的技术之一是 “声音与文字对齐” (aligning the spoken words and text)。为了让机器学会自动把声音与字句对齐,Spext 利用深度学习技术运行该对齐算法。编辑音频时,为了让声音听起来真实自然、字、词、句子之间的剪切与过渡听起来不突兀,声音和文字必须 “严丝合缝” 地准确对齐。

为了做到严丝合缝地对齐,Spext 对字与词进行精确切割。到底有多精确呢?以最简单的 hello 为例,hello 由不同音节组成,别看词很短、读起来很快,为确保声音精度,Spext 把每个词都切割到了 1 微秒的精细度。假设 hello 发音 0.5 秒,这就意味着 Spext 要把它切割成 50 万份,精度可想而知。精度越细,在合成一个词、添加或删减内容时、声音听起来也就越准确自然。

hougarden

(Gif 自 Spext)

别看 “让机器自动把音频和文字准确对齐” 听着简单,其实在技术上很有挑战。Anup 解释说,这是因为它对音频工程(audio engineering)、机器学习,以及产品设计的要求都很高。

比如我们刚才说的 “把一个词切成无数个小部分”,并不是切割完毕后就大功告成,机器还需要学习处理一系列可能的复杂情况。比如,每一微秒的声音都有顺序、有编号,在删除或添加声音时,这些号就会改变,而系统如何保证顺序正确、不弄乱,就是不小的挑战。

就像现在已经能造出以假乱真的图片和视频一样,声音也能以假乱真。如何防止这种技术被恶意利用,就成了难题。Anup 介绍道,防止恶意篡改,正是 Spext 目前的工作重点之一。Spext 给出的解决方案是声音认证(audio authentication)。

就像天下没有相同的指纹一样,我们每个人的声音也非常独特 —— 特别是在机器的 “耳朵” 里,每人的声音都有独特 ID。Anup 打了个比方:现在我们可以在手机上通过 face ID 之类的技术 “刷脸” 购物。在你下单之前,iPhone 先要确保你的身份。Spext 的声音 ID 也是同样道理:当你录音完毕后,想再用同样声音修改内容、然后放到网上,也需要进行声音认证。

而 Spext 为此需要解决的技术挑战,就是其需要不断提高声音识别的准确率:只有准确率提高了,才能更精准地识别不同人的声音。

同时,编辑在对音频内容作出修改时,需要编辑及声音的 “原主人” 双方许可后,才能修改内容。

“你可以把它想象成 DocuSign。你在你那边先认证音频的真实性,再把它发给我进行认证。只有双方都点头后,才能完成修改,避免用自动生成器恶意篡改内容。”

当然,如果对内容有争议,还可以用最简单的办法:找回谁也没编辑过的原始录音,有声有真相。

不过 Anup 说,目前声音合成器功能暂不公开,Spext 计划在能更好地进行身份验证后,再启动该功能,以避免此产品被用于恶意目的。

让更多人能讲故事

不论是 “Alexa”,还是 “Hey Google”,越来越多的智能设备以声音驱动,已经成了一股非常明显的潮流。但其实除了潮流本身,人类对于讲故事、分享经历、听故事的需求从来就非常旺盛。

一个有趣的事实是,二十世纪五十年代初,欧美国家电视逐渐普及,不少人当时信誓旦旦地预言说,广播这种 “听得见、看不见” 的媒体,将会很快被淘汰。这个预言显然是错的,直到今天,广播电台依然红火。

与视频相比,音频内容更随意,而且...还有那么一丝亲密感。在摄像机面前,你得穿得好看、背景要好看、角度灯光... 但音频对环境(和长相)的要求低了很多,在很多地方都可以录音,而听者也觉得像是在和主持人谈天说地、亲密交流。正因如此,人们对音频内容的需求随着技术的进步,反而有增无减。

“我们的用户主要是播客、有声书的内容创造者。我们会先关注播客、之后扩展到有声读物出版商。” Anup 说。

为了鼓励更多人发出自己的声音、讲出自己的故事,Spext 还专门开了博客,教那些想要开自己 播客频道的人一些技巧,比如如何吸引观众。此外 Spext 也从新闻学校打开市场,比如伯克利新闻学院的学生们,就给了 Spext 很多反馈。

“除了播客、有声书、和新闻学院的学生,另一类潜在客户是企业。” Anup 补充道,“越来越多的企业想用口述历史的形式讲述其公司的历史,比如他们经历了哪些关键时刻、他们的重要策略都是如何制定出来的...作为其宣传的一部分。这很出乎我们意料。”

hougarden

(外媒文章:“时尚品牌为何纷纷开播客”)

目前作为创业公司的 Spext 还只支持英文,不过 Anup 在采访尾声时提到,Spext 非常希望未来能扩张到印度、中国这两个人口巨大的市场。当然,中国和印度都有很多方言和口音,想想 Spext 或许未来有天要努力 “听懂” 温州话、闽南语之类的方言,也真是 real 不容易... 估计这也会成为 Spext 未来不小的挑战。

封面图自网络,版权属于原作者


转载声明转载声明:本文系后花园转载发布,仅代表原作者或原平台态度,不代表我方观点。后花园仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]