机器学习和人工智能的进步正在促进公共道路上的自动车辆(AVS)的测试和部署。加利福尼亚州机动车部(CA DMV)推出了自主车辆测试程序,该计划收集和发布与自主驾驶自主驾驶的自主车辆脱离(AVD)相关的报告。了解AVD的原因对于提高AV系统的安全性和稳定性并提供AV测试和部署的指导至关重要。在这项工作中,构建可扩展的端到端管道以采用自然语言处理深度转移学习从2014年到2020年从2014年到2020年发布的脱离发电报告。使用分类,可视化和统计测试脱离数据分析揭示了AV测试,分类原因频率和AVD的原因与效果之间的显着关系趋势。我们发现(1)制造商在春季和/或冬季进行了密集地测试了AVS,(2)测试司机启动了超过80%的脱离,而感知,本地化和映射的误差超过75%的脱离,规划和控制AV系统本身,(3)AVD的发起者与原因类别之间存在重大关系。本研究用作使用预先训练的模型的深度转移学习的成功实践,并生成综合的脱离语数据库,允许进一步调查其他研究人员。
translated by 谷歌翻译
高级驾驶员辅助系统(ADA)旨在提高车辆安全性。但是,如果不了解当前ADA及其可能的解决方案的原因和局限性,就很难获得此类收益。这项研究1)通过文献综述研究了ADA的局限性和解决方案,2)通过使用自然语言处理模型来确定ADA通过消费者投诉的原因和影响,3)比较了两者之间的主要差异。这两条研究线确定了类似的ADA原因类别,包括人为因素,环境因素和车辆因素。但是,学术研究更多地集中在ADA问题的人为因素上,并提出了高级算法来减轻此类问题,而驾驶员抱怨ADAS失败的更多车辆因素,这导致了最大的后果。这两个来源的发现倾向于相互补充,并为未来的改善ADA提供了重要意义。
translated by 谷歌翻译
了解信任如何建造在时间之中至关重要,因为信托在接受和采用自动车辆(AVS)中发挥着重要作用。本研究旨在调查制度绩效和参与者信任前提条件对接管过渡期间动态情境信任的影响。我们在观看了30个视频时,通过报告和行为措施评估了42名参与者的动态情境信任。该研究是3乘2个混合受试者设计,其中受试者内部变量是系统性能(即,95 \%,80 \%和70 \%的精度水平)和受试者之间的变量是前提条件参与者的信任(即俯视和弱者)。我们的研究结果表明,参与者迅速调整了他们的自我报告的情境信托(SST)水平,这些信托水平与信任前提条件的系统性能的不同准确度水平一致。然而,参与者的行为情况信托(BST)受到他们信任前提的影响,不同的准确性水平。例如,与底下前提条件相比,过度截图的前提条件显着增加了协议分数。与过度截图的前提条件相比,底下前提条件显着降低了开关分数。这些结果对设计用于条件AVS的车载信任校准系统具有重要意义。
translated by 谷歌翻译
汽车行业在过去几十年中见证了越来越多的发展程度;从制造手动操作车辆到具有高自动化水平的制造车辆。随着近期人工智能(AI)的发展,汽车公司现在雇用BlackBox AI模型来使车辆能够感知其环境,并使人类少或没有输入的驾驶决策。希望能够在商业规模上部署自治车辆(AV),通过社会接受AV成为至关重要的,并且可能在很大程度上取决于其透明度,可信度和遵守法规的程度。通过为AVS行为的解释提供对这些接受要求的遵守对这些验收要求的评估。因此,解释性被视为AVS的重要要求。 AV应该能够解释他们在他们运作的环境中的“见到”。在本文中,我们对可解释的自动驾驶的现有工作体系进行了全面的调查。首先,我们通过突出显示并强调透明度,问责制和信任的重要性来开放一个解释的动机;并审查与AVS相关的现有法规和标准。其次,我们识别并分类了参与发展,使用和监管的不同利益相关者,并引出了AV的解释要求。第三,我们对以前的工作进行了严格的审查,以解释不同的AV操作(即,感知,本地化,规划,控制和系统管理)。最后,我们确定了相关的挑战并提供建议,例如AV可解释性的概念框架。该调查旨在提供对AVS中解释性感兴趣的研究人员所需的基本知识。
translated by 谷歌翻译
通过整合人类的知识和经验,人在循环旨在以最低成本培训准确的预测模型。人类可以为机器学习应用提供培训数据,并直接完成在基于机器的方法中对管道中计算机中的难以实现的任务。在本文中,我们从数据的角度调查了人类循环的现有工作,并将它们分为三类具有渐进关系:(1)从数据处理中提高模型性能的工作,(2)通过介入模型培训提高模型性能,(3)系统的设计独立于循环的设计。使用上述分类,我们总结了该领域的主要方法;随着他们的技术优势/弱点以及自然语言处理,计算机愿景等的简单分类和讨论。此外,我们提供了一些开放的挑战和机遇。本调查打算为人类循环提供高级别的摘要,并激励有兴趣的读者,以考虑设计有效的循环解决方案的方法。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
人工智能(AI)系统在许多领域越来越受欢迎。尽管如此,AI技术仍在开发阶段,并且需要解决许多问题。其中,需要对AI系统进行展示的可靠性,以便AI系统可以充满信心地由公众信任使用。在本文中,我们提供了AI系统可靠性的统计视角。与其他因素不同,AI系统的可靠性专注于时间尺寸。也就是说,系统可以针对预期时段执行其设计的功能。我们为AI可靠性研究引入了所谓的智能统计框架,包括五个组件:系统结构,可靠性度量,故障原因分析,可靠性评估和测试规划。我们审查了可靠性数据分析和软件可靠性的传统方法,并讨论如何为可靠性建模和AI系统进行评估来转换现有方法。我们还描述了最近的建模和分析AI可靠性和概述统计研究挑战的发展,包括分销检测,训练集,对抗攻击,模型准确性和不确定性量化的影响,以及讨论这些主题可以与AI可靠性有关,具有说明性示例。最后,我们讨论了AI可靠性评估的数据收集和测试计划以及如何提高系统设计,以获得更高的AI可靠性。本文结束了一些结论备注。
translated by 谷歌翻译
自动驾驶在过去十年中取得了重大的研究和发展中的重要里程碑。在道路上的自动车辆部署时,对该领域的兴趣越来越令人兴趣,承诺更安全,更生态的运输系统。随着计算强大的人工智能(AI)技术的兴起,自动车辆可以用高精度感测它们的环境,进行安全的实时决策,并在没有人类干预的情况下更可靠地运行。然而,在现有技术中,人类智能决策通常不可能理解,这种缺陷阻碍了这种技术在社会上可接受。因此,除了制造安全的实时决策之外,自治车辆的AI系统还需要解释如何构建这些决策,以便在许多司法管辖区兼容监管。我们的研究在开发可解释的人工智能(XAI)的自治车辆方法上阐明了全面的光芒。特别是,我们做出以下贡献。首先,我们在最先进的自主车辆行业的解释方面彻底概述了目前的差距。然后,我们显示了该领域的解释和解释接收器的分类。第三,我们为端到端自主驾驶系统的架构提出了一个框架,并证明了Xai在调试和调节这些系统中的作用。最后,作为未来的研究方向,我们提供了XAI自主驾驶方法的实地指南,可以提高运营安全性和透明度,以实现监管机构,制造商和所有参与利益相关者的公共批准。
translated by 谷歌翻译
This paper describes Waymo's Collision Avoidance Testing (CAT) methodology: a scenario-based testing method that evaluates the safety of the Waymo Driver Automated Driving Systems' (ADS) intended functionality in conflict situations initiated by other road users that require urgent evasive maneuvers. Because SAE Level 4 ADS are responsible for the dynamic driving task (DDT), when engaged, without immediate human intervention, evaluating a Level 4 ADS using scenario-based testing is difficult due to the potentially infinite number of operational scenarios in which hazardous situations may unfold. To that end, in this paper we first describe the safety test objectives for the CAT methodology, including the collision and serious injury metrics and the reference behavior model representing a non-impaired eyes on conflict human driver used to form an acceptance criterion. Afterward, we introduce the process for identifying potentially hazardous situations from a combination of human data, ADS testing data, and expert knowledge about the product design and associated Operational Design Domain (ODD). The test allocation and execution strategy is presented next, which exclusively utilize simulations constructed from sensor data collected on a test track, real-world driving, or from simulated sensor data. The paper concludes with the presentation of results from applying CAT to the fully autonomous ride-hailing service that Waymo operates in San Francisco, California and Phoenix, Arizona. The iterative nature of scenario identification, combined with over ten years of experience of on-road testing, results in a scenario database that converges to a representative set of responder role scenarios for a given ODD. Using Waymo's virtual test platform, which is calibrated to data collected as part of many years of ADS development, the CAT methodology provides a robust and scalable safety evaluation.
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
循证医学,医疗保健专业人员在做出决定时提到最佳证据的实践,形成现代医疗保健的基础。但是,它依赖于劳动密集型系统评论,其中域名专家必须从数千个出版物中汇总和提取信息,主要是随机对照试验(RCT)结果转化为证据表。本文通过对两个语言处理任务分解的问题来调查自动化证据表生成:\ texit {命名实体识别},它标识文本中的关键实体,例如药物名称,以及\ texit {关系提取},它会映射它们的关系将它们分成有序元组。我们专注于发布的RCT摘要的句子的自动制表,报告研究结果的结果。使用转移学习和基于变压器的语言表示的原则,开发了两个深度神经网络模型作为联合提取管道的一部分。为了培训和测试这些模型,开发了一种新的金标语,包括来自六种疾病区域的近600个结果句。这种方法表现出显着的优势,我们的系统在多种自然语言处理任务和疾病区域中表现良好,以及在训练期间不均匀地展示疾病域。此外,我们显示这些结果可以通过培训我们的模型仅在200个例句中培训。最终系统是一个概念证明,即证明表的产生可以是半自动的,代表全自动系统评论的一步。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
通过分析大量数据来提供决策支持,大数据正在改革许多工业域。大数据测试旨在确保大数据系统在维护数据的性能和质量时运行平稳且无错误。但是,由于数据的多样性和复杂性,测试大数据具有挑战性。虽然众多研究对大数据测试进行了综合审查,但解决了测试技术和挑战的综合性尚未混淆。因此,我们对大数据测试技术(2010年 - 2021年)进行了系统审查。本文通过突出显示每个处理阶段的技术来讨论测试数据的处理。此外,我们讨论了挑战和未来的方向。我们的发现表明,已经使用不同的功能,非功能性和组合(功能和非功能性)测试技术来解决与大数据相关的特定问题。同时,在MapReduce验证阶段,大多数测试挑战都面临。此外,组合测试技术是与其他技术相结合的应用技术之一(即随机测试,突变测试,输入空间分区和等价测试),以解决在大数据测试期间面临的各种功能故障挑战。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
随着全球人口越来越多的人口驱动世界各地的快速城市化,有很大的需要蓄意审议值得生活的未来。特别是,随着现代智能城市拥抱越来越多的数据驱动的人工智能服务,值得记住技术可以促进繁荣,福祉,城市居住能力或社会正义,而是只有当它具有正确的模拟补充时(例如竭尽全力,成熟机构,负责任治理);这些智能城市的最终目标是促进和提高人类福利和社会繁荣。研究人员表明,各种技术商业模式和特征实际上可以有助于极端主义,极化,错误信息和互联网成瘾等社会问题。鉴于这些观察,解决了确保了诸如未来城市技术基岩的安全,安全和可解释性的哲学和道德问题,以为未来城市的技术基岩具有至关重要的。在全球范围内,有能够更加人性化和以人为本的技术。在本文中,我们分析和探索了在人以人为本的应用中成功部署AI的安全,鲁棒性,可解释性和道德(数据和算法)挑战的关键挑战,特别强调这些概念/挑战的融合。我们对这些关键挑战提供了对现有文献的详细审查,并分析了这些挑战中的一个可能导致他人的挑战方式或帮助解决其他挑战。本文还建议了这些域的当前限制,陷阱和未来研究方向,以及如何填补当前的空白并导致更好的解决方案。我们认为,这种严谨的分析将为域名的未来研究提供基准。
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译