文献综述(或调研报告):
1、人物检测、识别与跟踪
在过去许多年中提出了很多机器人进行人物检测、识别与跟踪的框架,这些框架中大多都需要激光测距仪、立体声相机或者是红外RGB-D相机[1][2]。但是在实际生活中,激光测距仪以及立体声相机通常价格都很高,不适合大规模使用;红外RGB-D相机不能在室外使用。所以小江贤治等人提出了一种基于单眼相机的追踪识别框架。在此框架中首先使用基于深度神经网络的骨骼检测器来检测人,接着根据地平信息估计机器人空间中人员的位置与高度,从而获得人员追踪的最基本信息。然后基于卷积通道特征和在线提升的方法进行基于深度学习神经网络进行对象外表的学习。如果在机器人失去了目标任务的踪迹后,它将使用在线学习的外观模型在周围人中重新识别目标人物[1][3][4][5]。
2、基于语音的人机交互
语音交互系统技术主要包括语音识别 (automatic speech recognition, ASR)、自然语言理解 (natural language understanding, NLU)、会话管理 (dialog management, DM)、自然语言生成 (natural language generation, NLG)、语音合成 (text to speech, TTS)。语音识别是将收集到的用户语音数据转换为文字;自然语言理解是从一段文字中分析提取出用户的真正意图;会话管理是人机多轮对话系统的核心部分,它主要完成对话状态的维护并做出系统决策,决定下一步做什么;自然语言生成用于生成贴合人类语言的语句;语音合成是将文本转为语音形式[6~8]。
虽然基于语音对话系统的产品各式各样,但目前开放的为机器人提供语音对话功能的服务还是以在线服务的形式为主,如百度提供的可搭建多轮对话机器人的 UNIT 平台,科大讯飞的
AIUI 人机交互平台可为开发者提供以语音为核心的人机交互解决方案,Microsoft 的 Luis.ai、Google的API.ai、Facebook 的Wit.ai可实现自然语言理解等。用户通过API的形式调用对话服务,向服务商提交语音/对话数据并获取分析结果或者合成的语音数据。程风等人基于科大讯飞的AIUI语音处理模块,实现了家庭设备的语音控制。童新等人把图灵平台与百度语音识别和语音合成服务巧妙结合,设计并实现了一款基于物联网的智能云镜系统。
3、声源定位技术
声源定位技术可以分为两大类,即声阵列(也叫传声器阵列或麦克风阵列)声源定位和声强探头声场测试。麦克风阵列由几个到上千个麦克风,按照一定规则排列组成。多个麦克风同步采集声音信号,利用多个麦克风之间的信号相位差,求得噪声源信号的发出位置。声强探头由两个传声器面对面组成一个联合体,可以测量空间每一点的声压、声波振速大小和方向,在被测物体表面或包络面附近扫描测试,可以得到被测物体附近的声场分布情况,从而掌握噪声源位置和分布[9][10][11]。
麦克风阵列的声源定位算法主要有以下几大类:
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。