视听觉信息的认知计算.doc

附件 2：重大研究计划“视听觉信息的认知计算” 2008 年度项目指南与人类视听觉感知密切相关的图像、语音和文本（语言）信息在社会、经济和国家安全等领域中扮演着重要角色，并在今后一段时间内仍将迅猛增长。这类信息可被人类直接感知和理解，也可用计算机进行处理，但计算机的处理能力远逊于人类且处理效率远不能满足当今社会的发展需求。如何借鉴人类的认知机理和相关数学的最新研究成果，建立新的计算模型和方法，从而大幅度提高计算机对这类信息的理解能力与处理效率，不仅可有力推动信息科学的快速发展，也将为国民经济和社会发展做出重大贡献。一、科学目标本重大研究计划的总体科学目标是：围绕国家重大需求，充分发挥信息科学、生命科学和数理科学的交叉优势，从人类的视听觉认知机理出发，研究并构建新的计算模型与计算方法，提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率，克服图像、语音和文本（语言）信息处理所面临的瓶颈困难，为确保国家安全与公共安全、推动信息服务及相关产业发展以及提高国民生活和健康水平做出重要贡献。具体表现为：在视听觉信息处理的基础理论研究方面取得重要进展；在视听觉信息协同计算、自然语言（汉语）理解以及与视听觉认知相关的脑―机接口等三项关键技术方面取得重大突破；集成上述相关研究成果，研制具有自然环境感知与智能行为决策能力的无人驾驶车辆验证平台，主要性能指标达到世界先进水平，从而提升我国在视听觉信息处理领域的整体研究实力，培养具有国际影响力的优秀人才与团队，为国家安全和社会发展提供相关研究环境与技术支撑。二、核心科学问题本重大研究计划将围绕“感知特征提取、表达与整合”、 “感知数据的机器学习与理解”和“多模态信息协同计算”等核心科学问题，组织并实施如下四个主要方面的研究工作。（一）图像与视觉信息计算。主要研究图像与视觉信息计算的认知机理，视觉基本特征的提取与选择，物体识别与图像内容理解，复杂场景下运动目标的行为分析等。提出若干图像与视觉信息的高效计算模型，取得国际公认的原创性研究成果（在 Nature, Science, IEEE Trans. PAMI 等刊物上发表高水平论文），培养具有国际影响力的优秀人才与研究团队。（二）语音与听觉信息计算。主要研究听感知机理与音频场景分析，自然环境下的语音识别与合成，口语对话分析与理解等。取得国际上有影响的原创性研究成果，提出若干语音与听觉信息的有效计算模型，在本领域国际权威刊物上发表高水平论文，培养具有国际影响力的优秀人才与研究团队。（三）自然语言（汉语）理解。主要研究语言加工的认知机理，语言知识建模和语义计算模型，基于语义理解的机器翻译方法，面向网络的汉语适度理解模型和系列分析工具，支持自然环境下口语对话分析、识别与理解的关键技术等。在国内已有相关成果的基础上，统筹构建大规模高标准汉语语义知识库。将上述研究成果应用到语言（汉语）信息处理典型系统中，显著提高对自然语言（句子、段落、篇章）的理解能力，并在网络信息检索、过滤和知识获取方面得到验证。（四）多模态信息的协同计算与脑—机接口。主要研究多模态感知信息协同的认知机理与计算模型，基于视听觉信息融合的模式识别与环境交互方法，跨模态视频信息检索与网络敏感信息过滤技术等。大幅度提高跨模态视频信息检索的查准率，显著提升本领域整体研究实力。研究与视听觉认知相关的脑信号提取、脑区定位与脑功能网络分析方法和技术，脑—机交互中的信号传输、处理与控制技术，与视听觉认知相关的脑—机接口典型应用。在改善残疾人生活质量和功能康复等方面得到验证或应用，为延伸和提高人类行为控制能力提供新技术。三、关键技术与集成验证平台在上述研究工作的基础上，本重大研究计划进一步开展与视听觉信息处理相关的关键技术和集成验证平台研究。（一）视听觉信息协同计算的关键技术。研究机器视听觉信息的协同计算模型及系统实现技术，基于视听觉信息融合的模式识别技术与验证系统，跨模态视频信息检索与网络敏感信息过滤技术及应用。基于多模态协同计算模型的网络视频信息搜索的查准率比同期国外最好水平高 5%—10%，并在网络信息安全与服务等领域得到验证。（二）自然语言（汉语）理解关键技术。研究汉语通用词汇的规范化语义知识库及其构建技术，面向网络的汉语适度理解模型及系列分析工具的实现技术，支持自然环境下口语对话分析、识别与理解的关键技术。在国内现有相关成果的基础上，统筹构建汉语语义知识库，汉语通用词汇规模不小于 5 万词，带有语义标注的汉语平衡语料库规模不小于 1 千万字。将研究成果应用到网络环境下的汉语处理系统中，信息检索与知识获取的准确率比现有最好技术提高 20%以上。（三）与视听觉认知相关的脑―机接口关键技术。研究与视听觉认知相关的脑信号提取、脑区定位与脑功能网络分析技术，脑—机交互中的信号传输、处理、控制技术及系统实现，与视听觉认知相关的脑—机接口典型应用。所提无创脑― 机接口信息提取与分析等技术处于同期国际领先水平，在改善残疾人生活质量和功能康复等方面得到验证或应用。（四）无人驾驶车辆集成验证平台。集成上述基础理论与关键技术的相关研究成果，将传统视觉计算模型与新的视觉认知模型相结合，实现环境感知与建模方法新突破；实现多传感器跨模态跨尺度信息融合，生成高质量三维场景认知地图，构建高性能智能车辆无人驾驶验证平台；提供新的基于人—车—路状态综合分析的智能辅助安全驾驶关键技术；在国防、智能辅助安全驾驶等相关领域得到验证或应用并产生重要影响。四、2008 年度拟资助的研究项目本重大研究计划主要以“培育项目”、“重点支持项目”和 “集成项目”的形式予以资助，三类项目在资助强度和实现目标上有所不同。对有较好的创新学术思路和研究价值，但尚需进一步探索研究的申请项目，将以“培育项目”方式予以资助。对有很好的创新学术思想和研究价值，有良好的研究基础和成果积累，且对研究计划总体目标有较大贡献的申请项目，将以“重点支持项目”的方式予以资助。对实现研究计划总体目标有决定作用的研究方向，将以更大支持强度的“集成项目”方式予以资助。根据项目执行的年度进展情况或考察结果，本重大研究计划将适度调整获准项目的资助经费（中止课题或追加经费）。 2008 年度拟资助如下领域的“重点支持项目”及与其相关的“培育项目”。（一）多模态信息协同计算方面。 1．“重点支持项目”的研究方向：面向互联网的跨媒体挖掘与搜索引擎融合自然语言理解、图像与视频分析及跨媒体数据挖掘等多领域交叉的新方法，研究有效的网络文本、图像与视频内容挖掘方法和有效的网页分析技术，构建精度高、速度快和鲁棒性强的垂直搜索算法，研发面向特定用户的互联网跨媒体搜索引擎。考核目标：特定领域文本内容的查准、查全率均在 90%以上；特定领域图像与视频内容的查准、查全率均在 70%以上；可实现准实时的互联网跨媒体内容挖掘与搜索。 2．“培育项目”的研究方向：（1）文本、图像和语音感知信息交互的选择性注意机理、语义特征提取；（2）“情境（Ambient）智能”的多模态信息协同计算。（二）自然语言（汉语）理解方面。 1．“重点支持项目”的研究方向一：网络文本的语义计算与理解建立高标准、规模化、易扩展的语义知识库（包括词条、句子和篇章级的核心语义标注）；建立面向大规模汉语文本的语义计算框架和计算模型；研究基于内容的网络文本信息检索、事件检测和内容文摘等的关键技术，实现特定语义目标的网络内容理解。考核目标：研究所得的语义计算与理解方法明显优于非语义方法，特定网络文本信息检索的准确率较现有技术至少提高 20%。 2．“重点支持项目”的研究方向二：多模态口语对话内容的分析与理解以口语为主，综合语音、视觉、行为、情感等跨模态信息，研究建立人类口语对话模型，支撑口语对话的理解和人机语音交互。考核目标：面向汽车语音导航和语音通讯等领域，研制多模态口语人机自然对话原型系统，特定对话主题的理解准确率大于 90%，人机对话的正确响应率大于 80%，任务完成率大于 90%。 3．“培育项目”的研究方向：（1）汉语认知机理的语言心理学研究；（2）适于句子和篇章的汉语语义计算模型；（3）听觉感知机理与音频场景分析；（4）语义计算与理解的资源共享与测评。（三）脑—机接口方面。 1．“重点支持项目”的研究方向：与视听觉认知相关的人机交互关键技术研究与视听觉认知相关的脑信号提取与脑区定位技术；脑— 机交互中的信息传输、处理与控制技术；与视听觉相关的脑— 机接口应用技术。考核目标：提出并实现脑—机交互的在线自动模式学习策略，提高脑―机接口系统的鲁棒性和自适应性；在脑电信息的提取、分析和应用方面处于同期国际领先水平；在与视听觉相关的残疾人功能康复方面得到验证或应用。 2．“培育项目”的研究方向：（1）基于脑―机接口的车辆导航与控制技术；（2）脑电信号的无创采集、传输和处理；（3）脑―机交互范式的新概念与新方法。（四）驾驶行为的认知机理方面。 1.“重点支持项目”的研究方向：驾驶行为的认知机理和神经表达—选择性注意及与动作的相互关系选择性注意是人类驾驶行为的一个不可缺少的认知功能。对选择性注意的研究以及对驾驶行为注意研究的一个根本问题是： “注意选择的究竟是什么?”。本项目要求在这个认知科学的重大问题上取得实质性突破，特别是，提出和发展基于“物体”的选择性注意原创性系统理论，并应用于无人驾驶的环境感知计算模型。一方面建立物体表达概念的科学定义，以及物体表达和驾驶行动交互作用的认知机理的准确描述；另一方面利用脑功能成像的各种方法，发现基于物体注意和驾驶行动的大脑皮层的神经表达。从而为建立具有主动视觉功能和“注视转移”机理的驾驶行为新模型提供认知科学基础。 2.“培育项目”的研究方向：（1）驾驶行为的知觉学习；（2）眼动和注意调节的认知机理与主动视觉；（3）驾驶员的行为心理学与认知结构模型。（五）无人驾驶车辆集成验证平台方面。 1.“重点支持项目”的研究方向：无人驾驶车辆的关键技术与系统平台考核目标：在遵守交通法规的前提下，实现以下三种路况自主驾驶。（1）城市道路：要求车辆能够安全并入及驶出多车道交通场景，具有保持车道、换道和超车的能力，行驶里程约 5 公里；在部分路段中能够通过一连串平行停放的车辆和路障，且能行驶到位于其它停放车辆中间的指定停车点。测试环境：人与车辆较为密集，测试道路有多个十字路口，测试车辆能对障碍物进行识别，并能掉头重新选择行驶路径。（2）高速公路：行驶里程约 2000 公里，人工干预里程小于 3%；能安全有效地超车并汇入车流；能准确识别高速公路上的常见交通标志，并做出正确安全的驾驶动作。测试环境：测试道路上有多个高架桥路口。（3）乡村道路：在各种路表（土路、砂石路、水泥或沥青等）条件下，行驶里程约 200 公里，人工干预里程小于 4%；能保持车道、安全跟随和超越前方车辆，能停车、重新启动和绕行；能识别障碍物，并能避免与行人、自行车和路边树木、电线杆等物体碰撞。测试环境：部分路况比较恶劣（路面不平、路宽不等、无车道标识等），测试道路有多个岔路口。上述考核目标是指该重大研究计划对该集成验证平台的最终考核目标，申请 2008 年度“重点支持项目”的单位可就上述考核目标进行分解，提出阶段性实现目标。 2.“培育项目”的研究方向：（1）基于认知机理和多传感器信息融合的车辆行驶环境感知方法；（2）可用于复杂行驶环境的三维主动传感器；（3）面向行驶环境的高质量三维地图生成方法与技术；（4）车辆辅助安全驾驶关键技术；（5）无人车辆行驶测试环境的设计与评估方法；（6）复杂行驶环境的高可靠性局部路径规划方法。五、遴选项目的基本原则为确保实现总体目标，本重大研究计划鼓励：（一）具有原始创新思路和独具特色的探索性研究；（二）与总体目标紧密相关的关键技术研究；（三）生命、数理和信息等学科的交叉合作研究；（四）吸收海外优秀科学家参与研究。六、申请书撰写注意事项（一）申请人在填报申请书前，须认真阅读本指南。申请书的研究内容和研究目标须与本重大研究计划密切相关。不符合项目指南的申请将不予受理。（二）根据当年度项目指南公布的拟资助研究方向，申请人可自行确定项目名称、科学目标、研究内容、技术路线和相应的研究经费。（三）申请书中的资助类别选择“重大研究计划”，“培育项目”的亚类说明选择“面上项目”，“重点支持项目”的亚类说明选择“重点项目”，附注说明均须选择“视听觉信息的认知计算”。申请代码根据申请的具体研究内容选择相应的学科代码。（四）申请书由信息科学部综合处受理。（五）2008 年度拟资助“培育项目”约 20 项，资助强度不低于 50 万元／项，项目执行期为 3 年；拟资助“重点支持项目” 约 8 项，资助强度约 300 万元／项，项目执行期为 4 年；暂不资助“集成项目”。2008 年度资助项目总经费约 3500 万元。