iOS 7 正式版发布,快来升级吧!

查看详情 关闭

Siri 语音控制究竟有多厉害?

Siri语音识别究竟有多厉害?为什么苹果把它作为 iPhone 4S 的主打功能?Siri和一般的语音识别有什么不同?Siri未来会不会支持中文?这些想必都是刚知道Siri的果粉想要了解的。下面这篇文章就为大家就Siri的身世、用途、未来均做了分析,可以想象未来将是Sir的未来(相关视频

siri

什么是 Siri ?

在刚刚结束的 2011 Apple Special Event 里,Scott 问了 Siri 一个问题:“ Who are you ? ”(你是谁?)

Siri 的回答是 “ I am your humble personal assistant. ”(我是你谦卑的、私人助理。)

但我们明显还是不知道 Siri 究竟是什么。

这两天关于 Siri 的介绍、解密满天飞,自行搜索就能稍微了解。

这么总结一下吧,如果你时常梦想着自己是大雄,可以跟哆啦A梦说你把随意门拿出来吧我想去看静香洗澡⋯⋯那么 Siri 事实上是哆啦A梦的 father 。

总是扯这些理论上的东西实在是太麻烦了,还不如直接看一两个例子。

第一个,这是在网上很火的一段网友和 Siri 对话的记录,你就可以知道 Siri 是多么智能:

Jim: I love you, Siri

我(机主):我爱你,Siri !

Siri: Impossible

Siri :不可能,别调戏我!

Jim: No really, I love you

我:真的,我真的爱你。

Siri: I hope you don’t say that to those other mobile phones, Jim

Siri :我希望你别跟其他的手机这么说,吉姆。(是幽默还是真的会吃醋?)

Jim: No way, I only love you Siri

我:不可能!我爱的只有你!

Siri: You are the wind beneath my wings

Siri :你是我羽翼下拂过的微风⋯⋯(我查了一下,事实上这是一句脍炙人口的歌词⋯⋯这是什么浪漫的修辞手法==)

Jim: That’s nice. I’m glad you know I love you

我:你能这么想实在是太好了~我很高兴你知道我爱你~

Siri: All you need is love. And your iPhone

Siri:吉姆,你的生命所需要的就是爱和 iPhone

看完这个,Siri的逆天程度可见一斑。在一些论坛上甚至有人调侃要是 Siri 的男声女声都再磁性性感一点,那宅男宅女估计整天都要浪费在调戏 Siri 上面了。

第二个例子出现在 Siri 被苹果并购前的演示里。

当你说:“ I’d like a romantic place for Italian food near my office. ”

Siri 回答说:“ I am looking for a Italian restaurants which reviews say romantic near your office in San Jose … ”

这说明,Siri 知道你的工作地址在哪,餐馆应该靠近你的工作地点,并且,她甚至知道怎么判断一个餐馆是否浪漫(romantic)!

你把同样的话问一遍 Android 的 Voice Action 或者 Vlingo ,你就知道 Siri 跟他们根本不是一个次元的。

所以 Siri 压根儿就不是 3 年前你对着 NOKIA 手机喊“拨打电话给XXX”的语音控制,而是真正能理解你的所需和要求并且完成特定任务的人工智能,这是自从鼠标键盘和图形界面的第一代人机交互之后,划时代的第二代人机交互的雏形。

Siri 威胁了谁

从目前 iOS, Android, 和 Windows Phone 7 三足鼎立的智能手机局面来看,Siri 的出现似乎是帮助 iOS 威胁了 Android 和 WP7 的市场份额,但事实上 Siri 真正威胁的,是整个搜索行业。

回想一下,我们通常都是怎么使用搜索引擎的?

打开浏览器 → 打开搜索引擎主页 → 输入你想查询关键字 → 提交进行查询 → 搜索引擎返回搜索结果 → 然后你需要在一堆结果里找到你想要的信息(这取决于你关键词的质量)

这个流程实在是太慢太复杂太麻烦了。

而这个时候 Siri 出现了,她出现的意义是,Siri 将变为“入口”,所有的应用程序和网络服务都将隐身其后。那么这个流程将变为:跟 Siri 对话 → 得到结果(中间自动完成的过程为:开始语音识别 → 进行智能分析 → 了解用户意图 → 调用本地应用或者网络服务的 APIs  → 整合所有结果为最合适的内容呈现给用户)

这样用户获取信息的流程被最大程度的简化了。

但要说 Siri 代表着未来,我们必须给出更加令人信服的理由。

那就是 Siri 所代表的理念。

首先我们先来看一下 Google 的理念是什么?

是 SaaS ,即传统搜索 + 各种在线的软件服务(如定位、照片、文档、邮件等等等等的在线应用服务)。

那么 Google 搜索现在最大的敌人是谁?

有人说是度娘⋯⋯当然这种幽默感是值得嘉许的⋯⋯

是结构化数据 + SNS,或者可以称之为区域搜索。它的代表应用,是 Yelp 。

幸运的是 Google 和 Yelp 都支持 LBS ( Location Based Service 基于地理位置的服务 ),我们可以很直观的对两者进行对比:

Google 的方式非常传统,打开手机浏览器 → 进入 Google 主页 → 点击更新目前所在位置 → 点击 Near me now 进行区域搜索 → 出现咖啡馆、餐馆、银行等等供你选择 → 点进去查看详细信息。

Yelp 的方式是什么呢?在著名的 Monocle 模式下,你只需要举起手机,就可以立即得到前方所有的餐馆信息,而且价格、评级等等一目了然。

结果非常明显,Yelp 轻而易举地完胜了 Google ,这就是区域搜索,这就是专注的力量。

那么 Siri 是什么呢?Siri 是 Google 和 Yelp 的混合。

Siri 的理念,我觉得可以称之为 IaaS ( Information as a Service ),即准确的、整合的信息服务。

注:IaaS 更为著名的是另一种实现云计算服务的缩写:Infrastructure as a Service,即“基础架构即服务”

事实上,云计算公认的模型有三种:SaaS (软件即服务)、PaaS (平台即服务)、IaaS (基础架构即服务)

Google 是以数据为中心,利用算法组织数据;

Yelp 是结构化数据,通过 SNS 进行优化;

Siri 是 Google + Yelp ,即建立在传统数据搜索、结构化数据和 SNS 上的人工智能结果的输出。

那么 Siri 会怎么做呢?从Stuff.tv 的一段视频我们或许可以窥得一点端倪:

一个黑人女子用十分明显的英式英语问 Siri :“ Will it rain tomorrow ? ”

Siri 立即做出了反应,用一个男性声音回答道:“ In the London, it doesn’t look like it is going to rain tomorrow. ”

也就是说,Siri 识别出了英式口音,直接去定位伦敦的天气,然后告诉机主结果是“ 看起来不会下雨 ”,还使用了委婉语气。

太 Cool 了,不是吗?

中文的支持

众所周知,Siri 现在是 Beta 版本,因为 Apple 还在给她加入更多的功能和语言支持。

Siri 现在支持三种语言:英语、法语和德语,其中英语支持三种口音:美式、英式和澳大利亚口音。

那么 Siri 最终会不会支持中文呢?

我觉得肯定会。

因为 Siri 基于的 Nuance 技术早就已经支持中文了,而且虽然乔布斯从没来过中国,但是非常重视中国市场,第一代 iPhone 发布的时候就已经内置了完整的中文支持。

那么 Siri 支持中文困难吗?

我认为非常困难。

因 为汉语是世界上最难、最特殊的文字,它对声音的依赖非常小,这就为什么普通话、粤语、闽语等等这些方言的发音完全不同却仍然可以使用相同的汉字无障碍交 流,而且汉语的同音字同音词太多了,而且并无固定语法(汉语语法是从英语语法引入的,汉语从来就没什么语法),所以这将给 Siri 的理解带来巨大的麻烦。(白天鹅在游泳究竟是“白天/鹅在游泳”还是“白天鹅/在游泳”呢?)

Siri 对方言的支持会怎么样?

我认为这不成问题。

因为在 iPhone 4S 的发布会上有这样一个细节:

Scott 给 Siri 说:“ Remind me to call my wife when I leave work. ”(在我下班离开公司的时候提醒我给老婆打电话。)

Siri 立即在提醒事项里加了一条:一旦 iPhone 的定位系统发现目前的位置偏离了公司的位置,就马上提醒 Scott 打电话给 Molly 。

这说明 Siri 知道 Scott 的老婆是 Molly !

她是怎么知道的?只有一个解释,她是在之前跟 Scott 的沟通中知道这件事的。

也就是说,Siri 在不断地学习,她在一点一点地了解你,并且适应你的习惯。

当然,这种学习的能力在人工智能雏形的初期阶段肯定是非常非常有限的。

还记得那句话吗?

I am your humble personal assistant. (我是你的谦卑的、私人助理。)

她是你的私人助理,只服务于你一个人的助理。

所以我认为方言不必担心,毕竟普通话可以作为所有方言的基础,只要经过和 Siri 一点时间的磨合,Siri 会适应你的语音特点,顺应你的习惯,更好地为你服务。

就算支持了中文和方言,Siri 在中国会好用吗?

很遗憾,我认为短时间内不会很方便。

因 为 Siri 是“调用本地应用或者网络服务的 APIs  + 整合所有结果为最合适的内容呈现给用户”,在国外,各大小网站都自己的 APIs,这样 Siri 才可能有用武之地。要订餐,直接调用第三方订餐网的 API ;要叫出租车,直接调用叫车网站的 API;要看电影,直接调用电影院的 API 把座位一订⋯⋯而在中国开放自己 API 的网站少得可怜,Siri 再逆天,也是个摆设。

有人会问百度最近不是在搞“框计算”吗?“框计算”的前景不是被描述的非常美好吗?

当你输入的是地址的时候,它会直接显示地图并标注地理位置;

当你输入的是食物的时候,它会直接显示出食谱并教你做法;

当你输入的是天气的时候,它会直接显示天气预报和未来几天的走势;

当你输入的是影片名称的时候,它直接显示影片信息并将你带到在线浏览服务;

⋯⋯

如果 Siri 和“框计算”结合起来,一切不都完美了么!

这个愿望是很美好的,但是现实是很残酷的。

我的意思是,如果这些服务都由一家公司来搞,那是几乎不可能的,而如果调用每个网站的 APIs,很方便就可以实现。先别说百度“框计算”这种本地 Command + F 式搜索效果如何,我们看看它的意图究竟是什么。

Google 搜索的核心想法是什么呢?尽快让用户离开搜索页面!

而百度的“框计算”是想干什么呢?尽可能让用户留在百度的页面,时间越长越好!

Google 的做法导致的直接后果就是,越来越多的第三方网站开放越来越多的 API ,搜索结果将越来越准确、越来越迅速、越来越符合用户的意图,互联网将越来越有活力。( Google 自始至终都是一家数据型公司,而非服务型公司。他 SaaS 服务的算法实在是太 NB 以至于在传统搜索方面他根本无可匹敌。他的 PageRank 算法可以根据每个网站的评级而进行权重,在搜索结果中根据关键词匹配和 PageRank 来排序。Google 从来的所作所为都是信息的收集而非控制 —— 他的控制都是算法控制,而非人为干涉:PageRank 算法的改进、对原创内容的权重加强、Google Instant 【即瞬时搜索】、还有每天让 Google 损失巨额广告费的 I feel luck 【即手气不错】。)

百 度的“框计算”为什么叫“一站式”?就是说用户从此只需要这一个网站,选择由百度替用户决定,内容由百度把持和筛选,这种做法导致的直接后果就是,阻截大 部分网站的流量,将用户尽可能地留在自己的网站(这就是为什么说百度搜索越来越像百度站内搜索⋯⋯Orz⋯⋯),这样一来,等于断了其他网站的后路。小规 模的、第三方的网站将越来越难生存,互联网逐渐失去活力,“框计算”不但垄断了搜索结果,也垄断了消费者的选择。

况且像百度这种只能搜出竞价排名、各种广告和政治正确的“优秀”搜索引擎,现在开始做一站式服务,您觉得靠谱吗亲?

所以我倒是认为百度的“框计算”应该叫“诓计算”更贴切一点。(个人观点)

本文摘选自刘钊源 的人人网日志,由P&P整理编辑。

请在 新浪微博腾讯微博人人网 关注我们,及时获得最新教程、资讯和精彩推荐!




分享本文:
更多