一提到智能语音助手,大家肯定会联想到,那些被它们无语到的经历。
毕竟在当前这个阶段,人工智障们真的离智能还很远。
说出来不怕大家笑话,世超很早之前,还真用过 Siri 来提高生活效率。
简单点的,就是让 他查查实时汇率,识别歌曲,定个时间。
高阶一点,配合米家 App 和 iOS 快捷指令,下班后只需要说“ 嘿 Siri,我到家了 ”。
家里的 窗帘就会拉上,氛围灯也会打开,蓝牙音响也一起启动。
诶,听起来还挺酷对不对?
但在实操了无数次,发现 Siri 的 听力和理解能力有时候 真想让人给它两个大逼斗后, 我放弃了。
有那个反复纠正的时间,我 TM 手指都能戳好了。
所以和很多 iPhone 用户一样,世超现在最多就是用 Siri 定个时间啥的,其他真不指望这个大聪明。
但,前段时间我们发了一篇关于网络安全的文章,底下留言让我对这个大聪明起了一丝顾虑。
—— 我们 Hey Siri 的时候手机有反应,那没嗨的时候,手机难道没有一直听着周围的声音?
嘶,好像有点道理?
如果不一直听声音,它怎么知道我喊他了?
后来我摸到了苹果官网,发现他们在 Siri 介绍文案里提到了四个字“ 随时待命 ”。。。
我的疑心更重了。
要真像网友说得那样,手机一直在听我们说话,那岂不是半夜看学习资料的事儿每天说的话都被知道了?
带着这个问题,世超在网上搜了一整天,还真发现了一些说法。
先给大家说个结论,iPhone 能听到你喊 Hey Siri,确实 是因为它一直在听你声音。
不过别急着喷, 听到声音 ≠ 他能听懂。
就好比你家狗一直能听到你在说话,但他能全听懂吗?
要搞明白这个问题,我们得把时间搬回 2013 年。
那年苹果发布了 iPhone 5s,除了给 iPhone 塞入了最新的 A7 处理器,还加入了一个小小的 M7 协处理器。
大家平时熟悉的 A 系列处理器,是 iPhone 里的 C 位,负责绝大部分工作。
协处理器就相当于辅助,负责一些不是很难,但需要一直工作的事情。
比如你平时 微信里 PK 的步数,就是加速传感器、陀螺仪感知后,交给协处理器计算。
理由很简单。
因为 协处理器的功耗很低,哪怕一直计算数据,对续航也没啥影响。
这事要是给 A 系列处理器做,手机相当于时刻都在唤醒,续航早 TM 崩了。
另外, 指南针、压力感知器也都协处理器负责。
到了 2014 年苹果推出了 Hey Siri 功能以后,协处理器又多了一项任务:处理 Siri 音频。
麦克风收录声音,协处理器进行识别。
因此,手机确实是一直在听周围声音,来判断你有没有说 Hey Siri。
问题来了,这时的手机能听懂周围声音吗?
很难。
我们先捋一下 Siri 的识别原理。
在和 Siri 对话时,手机收集的声音会被送到 Apple 服务器计算,这样你说了啥,它很轻松就知道。
但在触发 Siri 之前,手机一直在收集声音,数据非常大,要是几千万台 iPhone 的数据全送去 Apple 那儿,服务器早炸了。
所以触发 Siri 之前,手机收集到的声音,其实是在本地计算的。
这个计算很复杂,可以参考下图。
因为世超不是相关专业的,这图只能看懂一小半,大概给大家解释下。
你的声音进入麦克风后,经过处理会切成很多份小音频,接着 协处理器会 计算这些音频的“ 分数 ”。
最后把这些音频分数累计起来,看看有没有达到你“ Hey Siri ”的声音阈值。
一旦达到了,协处理器就会唤醒主处理器,主处理器会用一套更精准的算法确定一遍。
确认是你在喊“ Hey Siri ”后,Siri 才会出来上钟。
总结一下:
协处理器不断检测周围的声音,确认为“ Hey Siri ”后,主处理器再算一遍再请求 Siri 服务器。
如此一套复杂的流程后,iPhone 才能判定它听到的是“ Hey Siri ”,你说它要听懂其他所有的话,那工作量翻个百倍千倍也不够啊。
所以,Siri 在触发之前能听懂你的话,根本不现实。
那有没有一种可能,不管听没听懂,它只是收集声音,直接传给 Apple 呢?
从技术上说可行,但从续航上说,也不太行。
你想想,如果手机一直往外传数据,那电池比你头都大,续航也顶不住吧?
哪怕苹果足够阴险,只在充电时偷偷传,这么大数据流量不是明着送人头么。
看到这会有差友会说,你是不是在洗苹果啊。
之前都有个国外新闻说,苹果通过 Siri 听到了不可描述的声音吗?
那个我也去查了一下,文章是半个标题党,实际情况不是 Siri 偷听,而是 用户误触发了 Siri,Siri 开始听了,此时用户正在做羞羞的事情。。
而苹果为了判定 Siri 工作得好不好,会提取不到 0.2% 的音频信息交给人工查看,最后就这么撞上了。。
用户也可以拒绝共享音频 ▼
当然除了 Siri,还有其他的 智能语音助手,它们 绝大多数也是通过一个低功耗芯片来监听唤醒词。
可以说,这些智能语音助手( 包括 Siri )在触发之前,能听懂周围声音或者把所有声音上传进服务器, 不管 是从科技水平,还是从逻辑上判断,都不太现实。
那有没有一种可能,在某种条件下, 语音助手会悄咪咪联网,偷听个十几秒呢?
不经常有人说,前脚刚聊到一个产品,后脚它就出现在了网购平台,怀疑是不是语音助手啥的偷听聊天了。
其实世超觉得这事情 大概率得赖广告联盟。他们有大量的用户精确画像,比如谁谁喜欢二次元,最近在看日用产品。
根据用户画像推荐产品真的很准,有时候正巧前脚说完,后脚撞上推荐了,就让人误以为自己是不是被窃听了。。
我们之前也写过广告联盟的文章 ▼
当然,也不是说语音助手不会偷听,可能性有,但比较小。
而且退一步说,近两年随着我国相关隐私法的落实,各大厂商加紧权限管理,我觉得偷听的可能性更低了。
你想想啊, 冒着被制裁、甚至违法的风险,偷听老百姓几句话, 就为了赚个三瓜两枣,对任何一个语音助手的厂商来说,都没那个大必要吧。
撰文:刺猬编辑:面线
图片、资料来源:
Apple WWDC 2014 - iOS 8 Introduction
Apple 官网
“Hey Siri” 背后的黑科技大揭秘!作者 | Vishant Batta 译者 | 苏本如
雷锋网 苹果揭秘“Hey Siri”的开发细节,原来不仅有两步检测,还能辨别说话人