亚马逊推出新设备Echo必威手机官网,各种智能设

从零开始,搭建 AI 音箱 Alexa 语音服务,aialexa

本文来自作者 Mike 在 GitChat 上分享 「从零开始,搭建 AI 音箱 Alexa 语音服务」,「阅读原文」查看交流实录。

「文末高能」

编辑 | 哈比

苹果、谷歌、亚马逊三巨头无疑都看中了未来万亿元级别的智能家居市场,但与苹果和谷歌一开始就明确智能家居战略的路数不同,亚马逊在初期没有那么庞大的野心,也没有那么明确的计划,智能音箱Echo更像是亚马逊无心插柳柳成荫的一个作品。因为产品上的成功,Echo背后的计算平台Alexa逐渐显露出它的分量,不少科技人士评论它有可能成为AI时代的Android,这让谷歌非常紧张。

概述

文/王新喜

一、概述

生活场景的引入: 物联网的快速发展,各种智能设备层出不穷,作为极客,家里早已安上了用 APP 控制的智能灯、智能插座,刚刚安装上的时候,还有新鲜感,久了之后,是不是会有这样的现象:

早上醒来要开灯,需要经过:

  1. 迷迷糊糊从床头柜上摸到手机

  2. 手机用指纹解锁

  3. 连接无线网络

  4. 找到对应设备的 APP

  5. 点击开灯按钮

这样的场景真的为生活带来了便利吗 ? 糟糕的体验,繁琐的过程,从而使这个产品慢慢淡出我们的生活场景 . 于是,那个物理开关的使用频次又恢复了,这或许也是智能设备不能普及的根本原因之一。

以上生活的场景有很多,根本原因是缺少了和产品对话的功能,即语音交互,所以显得不那么智能。

理想的情景:

早晨醒来时,只需要说一声: 睡醒了,然后灯自动亮起,窗帘自动打开,音乐自动响起 ….,这样的场景你还满意吗 ?

一个便利的生活场景描述正式带你进入本文的环节: 语音交互

根据人机交互这个维度,主要划分了三个时代:

第一个时代:PC 时代。让电脑明白人类的意图,通过鼠标、键盘的方式输入让浏览器搜索获取想要的知识。

第二个时代:移动时代。Touch 称为该时代交互方式,就是 2007 年乔布斯发布的 iPhone。触摸屏的出现极大的提高了用户交互的体验,容易上手。

键盘和触摸同共构成了互联网交互方式的过去和现在。从另外一个角度说,也可以把键盘对应于 PC 时代交互方式,把触摸对应于移动时代交互方式。

正是因为用户从 PC 转移到了移动端,互联网行业才发生了那么多的变化。

第三个时代:AI 时代。语音称为该时代的交互方式,每一部手机都将能听会说,每一台家电都将能听会说,每一辆汽车都将能听会说,无人驾驶,每一个玩具都将能听会说。

语音时代,用户只需要用说话的方式给服务终端发布命令,就能得到相应的服务 . 这一产业从上世纪六十年代就已出现,但并不为普通消费者所熟知,消费者对其认知度也比较低。

近年来,随着苹果、亚马逊、谷歌、微软等公司先后推出 Siri、Echo 等智能语音服务,这一服务以及相关产业也开始被普通消费者和投资界所关注。

这里必须要提到亚马逊的 Echo 智能音箱。Echo 已经成为语音时代的一个重大创新,成为智能家庭的一个现象级应用。

由于 Echo 尚没有中文版,所以大家没有体会到它的热度,然而在美国,已经成为 “ 一款现象级的革命性产品 “。

从 2014 年 11 月正式发布到现在,亚马逊的 Echo 智能音箱超过两岁了。在这两年时间里,它从一开始随时可能夭折的 “ 新生儿 “,发展成如今市场上最为火热的智能家居产品之一。

谷歌在2014年用32亿美元收购温控器厂商Nest,轰动一时,彼时谷歌的智能家居战略浮出水面。苹果在2014年公布了智能家居平台HomeKit,Echo也是诞生于2014年,但到今天,亚马逊Echo成为撬动全球智能家居市场的支点,引得谷歌和苹果也慌忙投身智能音箱市场。然而,无论谷歌、苹果如何追赶,亚马逊在这一市场的知名度都要更高,也更为成功。

自2014年亚马逊发布Echo的智能音箱以来,智能音箱市场的发展速度超乎了人们的想象,市场热度不断持续地升温,从下面的百度指数可见一斑:

亚马逊推出新设备Echo Show,而新款Echo配有7英寸屏幕,当用户用语音提问时屏幕会显示答案,新设备还可以通过网络打电话。有业内人士认为,Echo Show安装了7英寸触摸屏,我们可以用它辅助语音购物,可以观看视频,查看天气预报、歌词和照片,检查婴儿监控设备,查看安全摄像头捕捉的信息。它是Echo发展的必然。

二、国内外智能音响

随着着亚马逊 Echo 的火爆引发一连串的效应,这也是智能音箱行业的一个重要转折点。各大巨头纷纷入局,如亚马逊 Alexa、微软 Cortana、Google Assistant、苹果 Siri、三星 Bixby、等智能语音助手。

如今,这场战火也点燃了中国市场。井喷式发展的中国智音箱市场已经成为了科技巨头、传统行业厂商、创业公司博弈的竞技场,玲琅满目的智能音箱产品都奔赴在路上 !

各大厂商的音响盘点,单品测评,性价比优势,各种平台已报道出很多,这里以音响的软硬件配置作为切入点,分析各大厂商的方案选型,性价比优劣势:

亚马逊Alexa的成功

百度指数关键词:智能音箱

但在笔者看来,亚马逊echo从此可能跑偏了。

1. 麦克风

麦克风是智能音响很重要的环节,包括远场拾音、噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

通过对比图可以看出亚马逊 Echo、天猫精灵、小米 AI 音响、叮咚 2 代技术路线类似,使用了 6、7、8 个麦克风环形阵列,使得波束的空间区分性更强,保证声源定位和拾音效果。

谷歌 Home 和问问音响则不同,采用双麦克风方案,对麦克风的数量和阵列排列结构依赖较少,更加依赖语音增强算法,从而获得良好的拾音效果。

根据第三方测评机构,和 Echo 对比,谷歌 Home 在 3 米内的综合能力(拾音、信噪比、抗噪、抗回声)要更好。

谷歌的麦克风阵列采用的算法很有特点,他们对深度学习的应用较深,算是一种波束成型和深度学习相结合的一种形式 。

Alexa获得成功的一个重要原因是亚马逊没有过度夸大这项技术。对比名气更响亮但经常让苹果用户失望的Siri,Alexa和Echo显得更加智能。

必威手机官网 1

苹果全球营销副总裁菲尔·席勒不久前嘲笑亚马逊 Echo ,认为echo等专用智能语音设备缺乏显示屏在许多情况下是一种妨碍。

2. 处理器

亚马逊 Echo 采用 TI(德州仪器)DM3725CUS100 的芯片,主要为工业级应用,主频不高,但处理能力很强 . 功耗、性能控制的很好。

谷歌 Home 采用的是 Marvell(美满) 88DE3006 的芯片,该芯片也为工业级芯片,在通讯中应用比较多。

该芯片为 2 核,也显示了谷歌 Home 在硬件端没有太多计算能力,更多计算在云端,这样就简化了很多东西,也不需要 Codec,麦克风阵列可与主控直接相连。

天猫精灵采用的是 MTK MT8516 的语音专用芯片,这款芯片是 MTK 为智能助手打造的,主频达 1.3GHz,芯片内建 WiFi 802.11 b/g/n 和支持蓝牙 4.0,支持高达 8 通道的 TDM 麦克风阵列接口和 2 通道的 PDM 数字麦克风接口,非常适用于远场 (Far-field) 麦克风语音控制和智能音响设备,在同代中稳定性、性价比很高。

问问音响则采用的是 MTK MTK2601 芯片,面向于智能穿戴方面,1.2GHz 双核心 ARM Cortex-A7 处理器,MT2601 需要结合 MT6630 无线射频芯片,实现双频 WIFI、蓝牙 4.1 以及 ANT+ 和 FM 等功能。

叮咚 2 代采用的全志科技 R16 芯片,主要面向于智能家居方面,采用极具性价比的四核 ARM Cortex-A7 架构处理器,支持基于 Linux 的开源系统 Tina,(Tina 是全志科技全力打造的专门用于全志智能硬件平台的系统软件品牌);

支持 AirPlay、DLNA、Qplay、Airkiss、Smart Link 等多种网络应用协议;提供独特的算法、IP 包,使开发者可以专注于其自有应用和产品市场运营,降低产品开发成本,并缩短开发周期。

小米 AI 音响采用的是 Amlogic 的 A112 芯片,主要面向于智能家居方面,四核 ARM Cortex-A53 架构,8 通道 I2S 和 S /PDIF 输入和输出,具有强大的运算性能和丰富的接口,凭借四核 64 位 CPU 架构强大的计算能力,可以支持无需外部 DSP 芯片的主流远场语音识别解决方案。 

卓越的音频处理能力可支持多种本地或在线高保真音乐,因此用户可随时随地欣赏音乐。

Echo是亚马逊研发的智能音箱,Alexa是搭载在Echo上的智能语音助手。亚马逊对Echo的定位是集成某些智能语音指令的产品,不是聊天工具。Echo开始只集成了十来个指令,接入了十来个应用。随着用户习惯与Alexa对话,Alexa获得了正面口碑,接入的应用越来越多。

在传统的音箱上加入了语音识别技术,音箱能听懂人说的话了,使得智能音箱具有了一种全新的交互方式。一只小小的音箱以什么样的姿势引得如此多公司的青睐呢?

亚马逊或许并没有意识到,不依赖手机的亚马逊 Echo的想象空间与差异化的竞争力存在于,在当前无所不在的屏幕时代,它要引领的是无屏化趋势。让双手与眼镜摆脱被屏幕的控制,才是Echo的杀伤力所在。而智能音响作为物联网时代人机交互的新方式,语音交互在未来控制端有希望带出一个新的潮流风向。而一旦加上触控屏之后,智能音响可能会逐步走入平庸。

3. 扬声器发声单元

智能音响以 “智能” 出名,当下的智能音响更多的考虑是音质的选择,音质一方面受 Codec 芯片影响,另一方面也受到发音单元的影响。

亚马逊 Echo 采用的是一个高音单元、一个低音单元和一个倒相管的设计结构,保证高音的同时,也增强了低音的效果。之所以说 Echo 是智能音箱产品的典型代表,不仅仅是因为它是第一款智能音箱,更因为它在智能、音质、体积、体验上都做到了平衡。

谷歌 Home 和天猫精灵和小米 AI 和叮咚二代,在音质上稍微弱一些,仅采用了一个全频带的发音单元,通过共振鼓膜来增强一部分低音效果。

从设计结构上来看,谷歌 Home 的两片共振鼓膜也形成一种立体声效果,比其它又相对好一些。

问问音箱差异化的点在于大功率发音单元的配置,采用了 1 寸高音单元和 3 寸低音单元以及更大音腔的设计方式,功率高达 50W,从而在硬件方面提供更好的音质,这也大大提升了物料成本。

对比硬件,各家平台各有优劣势,面对不同的用户需求,需要结合软件的优化才能达到良好的体验和语音交互。

现在,Alexa更像是一个计算平台,通过运行各个独立的应用程序Skills来实现不同功能。这些Skills类似于手机上的App,Alexa则类似于Android或是iOS。比如从亚马逊商城下载并安装一个“披萨外卖”的“技能”,通过唤醒Echo,就能叫来披萨外卖上门;再比如控制灯的开关、恒温器的设定;还比如制定日历后,Echo就能主动提醒,外出帮忙叫车,听读新闻和音乐等。截至2017年6月底,Alexa的“技能”数量超过了1.5万个,而基于谷歌智能音箱Google Home的语音应用软件数量仅为几百种。

智能音箱产品发布历程

触控屏是一记昏招:亚马逊忘记了自己的核心竞争力是无屏幕的语音交互

三、应用场景

Alexa“技能”数量快速增长的原因,一个是亚马逊很早就开放了Alexa平台,专注提升语音技术。亚马逊发布了ASK和AVS两个工具包。ASK是软件开发包,让开发者更容易开发Alexa的“技能”。AVS是硬件工具包,方便厂商将Alexa整合进他们的硬件产品中。目前,出现很多内置Alexa的电子产品,有LG的冰箱、GE的灯具、华为Mate9手机、联想智能音箱、优必选机器人等。

先来看一看智能音箱各个厂家产品发布的历程:

亚马逊Echo的优势是远程语音控制能力,通过Echo进行语音购物、歌曲点播、常识咨询、预定快餐、叫车服务、闹钟与定时,天气、交通状况咨询、银行账单查询等丰富功能,即你在房间的任意位置走动讲话,Echo 都能听到继而执行相应的任务。这种方式摆脱了双手,如果加上触摸屏这意味着人们需要跟音响呆在一起,经常要去触屏,如果用户已经习惯了用语音和一个设备「交流」,命令它做事情,添加一个屏幕让这台设备的性质与用户操作习惯都会扭转过来,亚马逊也硬生生将一个很酷的音响变成了平板电脑。

1. 蓝牙音响

蓝牙技术是爱立信在 1994 年提出的,那个时候是作为 RS232 数据线的取代策略 . 蓝牙是一种无线传输技术,可以得到当多设备的短距离数据更换,如大家的智能手机,此类技术最大的长处在于无线传输,外加就是短距离,因而发射功率不需要那大,也省电。

蓝牙音箱就是将此类技术应使用有源音箱上,经过此类无线传输技术,将智能手机、平板电脑或 PC 上的数字音频传输到音箱上,就会得到无拘无束的无线音乐播放。

场景应用:  便携式音箱、离线音乐播放、 无线传输

另一个原因是Echo在智能方面的优异表现,赢得口碑,让更多第三方愿意主动接入Alexa。亚马逊对Alexa的智能反应要求非常严苛。Alexa负责人Toni Reid表示,当用户下达指令时,Alexa只有一次机会部署相应的动作,所以不能有多轮对话发生,最多重复两次对话,否则就是失败的。

2014年11月6日,亚马逊推出了智能音箱Echo

首先,如果触屏交互未来能解决大多数语音所不能解决与操作的功能,语音就显得鸡肋了。所以我们看到Siri功能在手机上操作就很鸡肋。亚马逊推出触屏与语音结合的Echo,按照当前依然占据主流的用户触屏习惯,触屏方式很可能在亚马逊音响的操控模式中喧兵夺主,硬生生将亚马逊培育起来的语音操控的用户习惯再次扳回到触屏,而亚马逊忘记了语音交互才是它自身的核心竞争力。

2. 智能音响

智能音响赋予 “ 智能 “ 的功能,它的局限不止播放音乐这么简单,而是深入到生活实际的场景中去,语音直接说话下命令,代替按键、触摸屏,是人更自然的体验 . 语音控制家电,实现订餐、下单、获取资讯等各种各样的服务。

同时各大互联网巨头和科技公司都在投入大量成本,完善和改进技术,并积极投入到场景应用中。真正锁定用户真正刚性需求,深耕使用场景,或将成为未来产业致胜的关键要素。

场景应用:音乐播放、语音交互、生活助理

腾讯举办的用户开发日,体验过朋友应该已经感觉到那个神秘的方盒子力量 . 每天在使用微信、QQ 沟通交流,闲暇时在王者峡谷开黑,跳伞吃鸡的你,是否已经准备好迎接巨头将来出现在家居、交通、医疗等领域的这些形态和方式?

腾讯用户开放日,我们体验了腾讯的最新科技,发现了这些秘密

现在来看,Echo只选用了语音交互,舍弃手势和屏幕交互,而且运用新型麦克风阵列设计,解决了很多语音识别难题,让Echo准确识别用户话语,这其实是Echo在众多智能语音产品中脱颖而出最关键的地方。首先,Echo只选用语音交互,比起安装了智能语音助手的手机、平板电脑的多元化交互方式来说,虽然选择少了,但是给用户减少了很多不必要的动作。

2015年5月25日,京东与科大讯飞联合成立的灵隆科技推出了智能箱“DingDong”(叮咚)

必威手机官网 2

四、搭建 Alexa 语音服务

其次,Echo只通过语音交互方式,相当于“逼上梁山”,迫使亚马逊必须将语音识别技术做好,所以Echo成了目前语音识别效果最好的硬件产品。最后,Echo创新性地用麦克风阵列识别语音,解决远场语音识别难题。Echo的麦克风阵列由六个麦克风组成,距离声源最近的麦克风能智能识别命令,即使是从另外一个房间发出的声音,也能识别出来。

2016年10月5日,谷歌在秋季发布会上正式推出智能音箱Google Home

而当前的亚马逊echo也依赖语音交互的模式俘获了市场。根据市场咨询公司eMarketer发布的报告数据显示,今年美国语音智能音响用户约70.6%使用的是亚马逊产品,远远领先于谷歌,谷歌只占了23.8%,其它企业合计占有5.6%的市场,这些企业包括LG、哈曼-卡顿、联想等。

1.  Amazon 注册设备

1.1 账号注册

按照以下说明 注册步骤,注册一个产品,填写相关信息并创建安全配置文件,用于与 Alexa 进行通信的访问和刷新令牌。

Note:Web 设置下的允许 origin 和返回 URL 应分别为: 和 .

1.2 信息

注册设备后,找到安全配置(Security Profile)文件下的常规(General)选项卡,并记下 clientID,clientSecret 和 deviceTypeID。后面将需要这些信息来配置 AuthServer,获取 token。

根据eMarketer的数据,在2017年第一季度美国语音助手市场中,Echo的市场份额达到70.6%,Google Home则占到23.8%,其他厂商(包括苹果、Lenovo、LG、Harmon Kardon和Mattel)分食剩下的市场份额,为5.6%。

2017年5月9日,联想发布了一款智能音箱

数据背后的本质是,亚马逊不依赖于手机不依赖于屏幕触控通过语音交互在消费群体中形成了一个新的智能家居的生活习惯,这种不触屏的用户习惯摆脱了苹果触控为核心操作的模式。

2. 安装依赖

2.1 基本工具

安装基本的配置工具:

sudo apt-get install git gcc cmake build-essential

通过 gcc -v 和 cmke -version 查看版本,符合 gcc 4.8.5 和 cmke 3.1 以上即可。

2.2 安装 libcurl 、nghttp2 、openssl

这部分搭建很重要,由于连接到 AVS 需要使用 Http2 协议,SDK 中使用 libcur 建立该连接。

源码安装 openssl:

wget https://www.openssl.org/source/old/1.0.2/openssl-1.0.2g.tar.gz
 tar -xzvf openssl-1.0.2g.tar.gz
 cd openssl-1.0.2g
 ./configure  // 默认安装路径 /usr/local,也可以通过--prefix 指定安装路径
 make 
 sudo make install 
 openssl version  // 确认安装版本: OpenSSL 1.0.2g  1 Mar 2016

源码安装 libcurl:

wget https://curl.haxx.se/download/curl-7.50.2.tar.gz
tar -xzvf curl-7.50.2.tar.gz 
cd curl-7.50.2 
./configure 默认安装路径 /usr/local,也可以通过--prefix 指定安装路径
make 
sudo make install 
curl --version   // 确认安装版本: curl 7.50.2

源码安装 nghttp2:

安装依赖:
sudo apt install python-dev libcunit1 libevent-dev libevent-openssl libjansson-dev libspdylay-dev libjemalloc-dev cython libnghttp2-14  libnghttp2-dev

wget https://github.com/nghttp2/nghttp2/releases/download/v1.0.0/nghttp2-1.0.0.tar.gz
tar -xzvf nghttp2-1.0.0.tar.gz
cd nghttp2-1.0.0
./configure 
make 
sudo make install 
nghttp --version // 确认安装版本: nghttp2/1.0.0

2.3 安装 SQLite

wget https://www.sqlite.org/2017/sqlite-autoconf-3210000.tar.gz
tar -xzvf sqlite-autoconf-3210000.tar.gz
cd sqlite-autoconf-3210000/
make 
sudo make install 
sqlite3 -version  // 去人安装版本: 大于 SQLite 3.19.3

2.4 安装 PortAudio

PortAudio 是一个免费、跨平台、开源的音频 I/O 库,示例程序必须组件。

wget http://www.portaudio.com/archives/pa_stable_v190600_20161030.tgz
tar xf pa_stable_v190600_20161030.tgz
cd portaudio
./configure --prefix=$LOCAL_BUILD    // 需要配置安装路径
make
sudo make install

2.5 安装 Gstreamer

示例应用程序需要构建媒体播放器,来实现播放 MP3 文件 . 选择 GStreamer 框架来实现 . 需要安装一些依赖项:

sudo apt-get install bison flex libglib2.0-dev libasound2-dev pulseaudio libpulse-dev libfaad-dev libsoup2.4-dev libgcrypt20-dev

gstreamer-1.10.4:

wget https://gstreamer.freedesktop.org/src/gstreamer/gstreamer-1.10.4.tar.xz
tar xf gstreamer-1.10.4.tar.xz
cd *gstreamer*/
./configure 
make -j3
sudo make install

gst-plugins-base-1.10.4:

wget https://gstreamer.freedesktop.org/src/gst-plugins-base/gst-plugins-base-1.10.4.tar.xz
tar xf gst-plugins-base-1.10.4.tar.xz
cd *gst-plugins-base*/
./configure
make -j3
sudo make install

gst-libav-1.10.4:

wget https://gstreamer.freedesktop.org/src/gst-libav/gst-libav-1.10.4.tar.xz
tar xf gst-libav-1.10.4.tar.xz
cd *gst-libav*/
./configure 
make -j3
sudo make install

gst-plugins-good-1.10.4:

wget https://gstreamer.freedesktop.org/src/gst-plugins-good/gst-plugins-good-1.10.4.tar.xz
tar xf gst-plugins-good-1.10.4.tar.xz
cd *gst-plugins-good*/
./configure
make -j3
sudo make install

gst-plugins-bad-1.10.4:

wget https://gstreamer.freedesktop.org/src/gst-plugins-bad/gst-plugins-bad-1.10.4.tar.xz
tar xf gst-plugins-bad-1.10.4.tar.xz
cd *gst-plugins-bad*/
./configure 
make -j3
sudo make install

Note:GStreamer 下的组件是依赖关系,需要按顺序安装。

2.6 安装 Sensory

使用 Sensory 作为唤醒词引擎来检测唤醒词 Alexa,配置之前需要安装依赖项:

sudo apt-get -y install libasound2-dev
sudo apt-get -y install libatlas-base-dev
sudo ldconfig

由于官方公布的引擎是只能在树莓派上运行,运行在 Linux 平台下载链接如下,有效期限一个月 . 过了有效期,唤醒将无法使用。

sensory-gitchat:链接: 密码: uvuk

落后的谷歌和苹果

2017年5月10日,亚马逊推出了Echo Show,搭载了7英寸触摸屏支持视频通话

苹果赋予现代年轻人的是触摸为核心的体验模式,这培育出来的用户习惯是,用户看到一个平面,都会下意识的认为可以通过触摸来进行交互。那么亚马逊的智能音箱要做的是以“语音”来改变用户触控交互的习惯,即让用户看到一个音响,下意识的用语音操控。

3. 构建 SDK

3.1 克隆 SDK

克隆 SDK 之前,需要熟悉 git 的操作,参考 git 快速入手指南。

git clone [email protected]:alexa/avs-device-sdk.git
git checkout v1.1.0  // 切换 v1.1.0 版本

Note:官方迭代版本比较快,截止 20171210,已经更新到 v1.3 版本,该教程以 v1.1.0 版本为准。

3.2 构建 SDK
代码框架使用 cmake,创建外部编译目录。这个目录不能是源目录的子目录 .

构建 Sensory:

这是一个 cmake 命令构建 Sensory 的例子

cmake <absolute-path-to-source> -DSENSORY_KEY_WORD_DETECTOR=ON -DSENSORY_KEY_WORD_DETECTOR_LIB_PATH=.../alexa-rpi/lib/libsnsr.a -DSENSORY_KEY_WORD_DETECTOR_INCLUDE_DIR=.../alexa-rpi/include

说明:

  • DSENSORY_KEY_WORD_DETECTOR_LIB_PATH: 唤醒词的路径: sensory-gitchat/lib/libsnsr.a

  • DSENSORY_KEY_WORD_DETECTOR_INCLUDE_DIR: 头文件路径: sensory-gitchat/include

构建 MediaPlayer:

  • MediaPlayer 基于 GStreamer 框架,并不是默认生成,要构建 MediaPlayer 必须 CMake 指定-DGSTREAMER_MEDIA_PLAYER=ON选项

  • 如果 GStreamer 通过源码安装,构建的时候必须 CMake 通DCMAKE_PREFIX_PATH选项指定前缀路径

cmake <absolute-path-to-source> -DGSTREAMER_MEDIA_PLAYER=ON -DCMAKE_PREFIX_PATH=<path-to-GStreamer-build>

构建 PortAudio:

这是使用 PortAudio 为 C++ 构建 AVS Device SDK 的示例 CMake 命令:

cmake <absolute-path-to-source> -DPORTAUDIO=ON
-DPORTAUDIO_LIB_PATH=<path-to-portaudio-lib>
-DPORTAUDIO_INCLUDE_DIR=<path-to-portaudio-include-dir>

说明:

  • DPORTAUDIO_LIB_PATH :   portaudio 的 libportaudio.a 路径

  • DPORTAUDIO_INCLUDE_DIR : portaudio 的头文件路径

3.2 更新配置文件

源代码构建成功后,用文本编辑器打开 Integration 目录下的 AlexaClientSDKConfig.json 文件,填写设备注册时候,记录下的信息:

{
    "authDelegate":{
        "clientSecret":"${SDK_CONFIG_CLIENT_SECRET}",
        "deviceSerialNumber":"${SDK_CONFIG_DEVICE_SERIAL_NUMBER}",
        "refreshToken":"${SDK_CONFIG_REFRESH_TOKEN}",
        "clientId":"${SDK_CONFIG_CLIENT_ID}",
        "deviceTypeId":"${SDK_CONFIG_DEVICE_TYPE_ID}"
     },

   "alertsCapabilityAgent":{
     "databaseFilePath":"${SDK_SQLITE_DATABASE_FILE_PATH}",
     "alarmSoundFilePath":"${SDK_ALARM_DEFAULT_SOUND_FILE_PATH}",
     "alarmShortSoundFilePath":"${SDK_ALARM_SHORT_SOUND_FILE_PATH}",
     "timerSoundFilePath":"${SDK_TIMER_DEFAULT_SOUND_FILE_PATH}",
     "timerShortSoundFilePath":"${SDK_TIMER_SHORT_SOUND_FILE_PATH}"
   }
 }

填写该文件确保路径中没有任何额外的字符(或空格). 该配置还包含声音文件的路径,该文件将用于播放警报(Alarms)和计时器(Timer)的声音。

您可以从以下链接,获取 “定时器和警报” 获取所需的声音文件:Alexa Voice Service UX Design Guidelines

这时,需要数据库来存储预定的警报 . 在您的配置文件中,将文件路径位置包含到要用于存储和读取警报的数据库中。如果数据库不存在,将在该位置创建一个数据库文件。

例如 /home/avs/alerts.db.

3.3 安装

填写完 JSON 文件,并重新检查之后,进入终端的构建目录并运行 “make”。

make -j3
make install

3.4 运行 AuthServer

编译完成后,需要为设备获刷新令牌,需要运行 AuthServer,一个将处理令牌交换的本地服务器将实现它:

python AuthServer/AuthServer.py

如果您在这里遇到错误,访问

3.5 运行示例程序

确保前面每一项步骤顺利完成后,到这里可以运行示例程序,进入构建目录到 SampleApp/src 文件夹并运行以下命令:

TZ=UTC ./SampleApp <REQUIRED-absolute-path-to-config-json> <OPTIONAL-absolute-path-to-wake-word-engine-folder-enclosing-model-files>
  • REQUIRED-absolute-path-to-config-json :  AlexaClientSDKConfig.json 路径

  • OPTIONAL-absolute-path-to-wake-word-engine-folder-enclosing-model-files : sensory 唤醒词模型路径: sensory-gitchat/alexa.snsr

然后将弹出命令行界面。因为你设置了一个唤醒字引擎,因此你需要做的只是说 “Alexa”,即可进行对话。确保电脑的麦克风、喇叭处于打开状态。

和亚马逊在智能家居方面只尝试了音箱产品不同,谷歌和苹果的路线变动颇大。

2017年6月5日,苹果公布智能音箱HomePod

亚马逊Echo做了五年,研发出了自己的核心技术——用于远场识别的麦克风阵列。而亚马逊的Echo是远场语音的成功典范。而Echo逐步解决了远距和重噪环境下的语音识别问题,将声学设计、无线技术、语音识别、远场拾音、语义分析等众多技术融合在一起。构建了Alexa的原理:将人们的语音转换成文本,然后系统会利用自然语言处理技术来理解文本。并优化语音识别的反应时间。杰夫·贝佐斯也将曾经echo的反应时间从2.5秒到3秒控制到了1.5秒,也就是说,亚马逊在语音交互技术上构建了越来越深的壁垒。

五、语音服务开发指南

近年来国内外各大巨头同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战 . 这些全球剧透的激烈竞争,将对未来十年产生极其重要的影响。

同时,这也是技术人员职业快速发展的机会。这里以语音为核心,介绍声学模型、信号处理、语音识别开发平台、结构等相关知识框图,每一个方面都需要时间去实践,可以结合自己现有知识进行拓展。

框图只做参考,部分细节需要结合实际情况去分析。

作为一家软件公司,谷歌认识到智能家居时代需要以硬件打天下。所以收购Nest时,谷歌对Nest的恒温器产品寄予厚望,后者是美国恒温器市场第一品牌。再加上Nest恒温器的智能功能,理论上能随时控制家里各个电器的运行情况,这为谷歌构想未来智能家居蓝图奠定基础。

2017年6月7日,京东发布叮咚智能音箱Top和叮咚二代

亚马逊echo原来的路线走下来,培育出来的用户习惯是,用户直接通过语音交互,解放双手只需要口头描述和需求表达即可,音响是一个没有用到他就会安安静静的躺在那儿的家居用品,一旦带上触控屏,人们会逐步习惯性的触屏来操控音响而逐步减少了语音表达,这让用户口手并用,步骤与操控变得复杂,本质上并没有提升交互效率与体验,强行加一个屏幕操作反而是一种负担。Echo当前正在让越来越多的家庭习惯了语音控制交互方式,而亚马逊目前所做的则恰恰将用户从语音交互模式再打回触屏模式。

本文由必威发布于必威-运维,转载请注明出处:亚马逊推出新设备Echo必威手机官网,各种智能设

相关阅读