人(rén)工智能的发(fā)展愈来(lái)愈(yù)强大(dà)!
人工智(zhì)能是(shì)一个涵盖图像识别(bié)、自然语言处理(NLP)和机器人等多方面维度的广泛(fàn)领域。AI也在(zài)以(yǐ)一种(zhǒng)有时看似(sì)疯狂的速度发展,因此(cǐ)很难跟上正在发生的一(yī)切。
不(bú)出所料,许(xǔ)多(duō)组(zǔ)织转向他们的IT供(gòng)应商(shāng)合作伙伴,帮助(zhù)他们开发和部署AI解决方案,以最(zuì)好地(dì)满足(zú)他们的需求。大(dà)卫(wèi)·埃里森(sēn)是联(lián)想(xiǎng)公司的高级人工智能数据科(kē)学家,他(tā)的职(zhí)责包括(kuò)使用先进的人工智能技术为客户组织提(tí)供解决(jué)方案(àn),同时在内部支持(chí)联想全球数(shù)据中心集团的整体人工智(zhì)能(néng)战略。
联想已投(tóu)入商业运(yùn)营的项目包括利用卷积神经(jīng)网络从图像中提(tí)取特征,并(bìng)将其归类为缺陷,以检测工厂的制造缺陷(xiàn)。联想还(hái)为一家赛车(chē)公司开发(fā)了(le)一套计算机视觉系统,以决定是否应该让特定的汽(qì)车进入维修站进行维修。
埃利(lì)森表示,今年和不久的将来,人工智能的主要趋势包括基(jī)于计(jì)算机(jī)视觉的应用程(chéng)序(xù)、用(yòng)于训练人工智能模型的数据生成和数据(jù)标记算法的开发,以及基(jī)于(yú)转换(huàn)模型的(de)自然语言处理的快速进展。
联想对人(rén)工智能近期主要(yào)趋势有如下展望:
计算(suàn)机视觉
在计算(suàn)机视觉方面(miàn),开发人员(yuán)和研究人员现在开始探索将这种能(néng)力与人工智能的其他(tā)一些领域相结合的实(shí)用方法,比(bǐ)如(rú)机(jī)器人技(jì)术或自动应(yīng)用图像(xiàng)字幕等应(yīng)用的(de)自然语言处(chù)理(lǐ)。据埃里森介绍,这部分是因为计算机视觉的一些基本问题已(yǐ)经被证(zhèng)明很难解(jiě)决,研究人员正(zhèng)在寻找新的方法来解决(jué)这些问题,而不是(shì)简(jiǎn)单地推动研(yán)究领域向前发展。
埃里(lǐ)森(sēn):“我认为(wéi)我们在解决(jué)一些核心的计算机视觉任务(wù)时遇到了问题,比如3D投(tóu)影,当你看到一张图片,一栋(dòng)建筑的(de)二维图像(xiàng),人类的大(dà)脑可以将其(qí)推断成三维形状(zhuàng),但(dàn)机器很难做到(dào)这一点。”在这方面已经(jīng)有很多研究,但这(zhè)是一(yī)个(gè)尚未解(jiě)决的核心(xīn)问题(tí),我(wǒ)认为人们会(huì)感到沮(jǔ)丧,会尝(cháng)试一(yī)些(xiē)新东西,或者尝试(shì)将(jiāng)它与其他领域相结合,找(zhǎo)到更好(hǎo)的用途。
埃里森认为,这(zhè)就(jiù)是(shì)为(wéi)什(shí)么(me)机(jī)器人技术(shù)是目(mù)前最广泛研究的人工智能领域之一,因为它为人们提(tí)供了一个(gè)明确的目标。他列举的例子包括使人工智能能够使用视(shì)觉感应在其周围的空间中安全移动——无论是制造工厂的机械臂,还是使用人工智能导航(háng)到目的地的自(zì)动车辆。
训(xùn)练数据
熟悉人工智能的人(rén)会知道,成功训练一个模型的关键因(yīn)素之一是数据,这需要(yào)大量的数(shù)据。事实上(shàng),它所训(xùn)练的数据越多,就越能更好地(dì)交付你所寻求的结(jié)果。据埃里森不(bú)是,计算机视觉目前(qián)很困难,因为用于训练模(mó)型(xíng)的数据集没有包(bāo)含足够多的样本(běn)。例如,吉布森三维空间数(shù)据库(Gibson Database of 3D Spaces)是一个广泛使(shǐ)用的数据集(jí),用于训练(liàn)模型在室内空间中导(dǎo)航,它包括572栋完整的建筑,共1447层。虽然(rán)令(lìng)人印(yìn)象深刻(kè),但这不太可能是(shì)一个人工(gōng)智能系统(tǒng)在现(xiàn)实世界中(zhōng)可能遇到的全面集(jí)合。
当物(wù)体的方向与计(jì)算(suàn)机视觉模型所训练的(de)方(fāng)向不同时,也会出现类似的问题。在被广泛(fàn)用(yòng)于人工智(zhì)能训练(liàn)的ImageNet数(shù)据集(jí)中,埃(āi)里森:“一把(bǎ)椅子(zǐ)只是一(yī)张(zhāng)椅子的照片(piàn),面对(duì)着镜头。如果你把椅(yǐ)子翻过(guò)来,电脑视觉(jiào)应用程序突然就认不出(chū)它(tā)了(le)。”
这个缺点(diǎn)是(shì)一个(gè)名为(wéi)ObjectNet的新(xīn)数据集的灵感来源(yuán),它以不同的配(pèi)置显示日(rì)常项目,例如(rú)椅子翻转或倒置。这个训练集被用来解决计(jì)算(suàn)机视觉的一些缺(quē)点,例如不能识别(bié)方向不正常或部分模糊的物体。
但是为人工智能训练获(huò)取(qǔ)足够大和多(duō)样化的数(shù)据集的问题仍然(rán)存在,这导致(zhì)了埃(āi)里森发现(xiàn)的另一个主要(yào)趋势,即(jí)首先使用人工(gōng)智能来生成(chéng)数(shù)据集。
自我监(jiān)督(dū)和综(zōng)合(hé)数据
数据(jù)集(jí)需要(yào)大量的人工(gōng)数据标签(qiān),因此越来越多的研(yán)究项(xiàng)目(mù)现(xiàn)在都集中在(zài)自我(wǒ)监督算(suàn)法上(shàng),它可(kě)以获取已经收集到的数据,并让计(jì)算机自动给数据贴上(shàng)标签(qiān)。
埃里森(sēn)解释:“一个典型(xíng)的(de)例子(zǐ)就是(shì)一个具有计算机(jī)视觉应用(yòng)和接近传感(gǎn)器机器人。计算(suàn)机视觉能够比(bǐ)接近传感(gǎn)器看得更远(yuǎn)。但是当机器人向(xiàng)前移动时,出现(xiàn)在计算机视觉中的东西最终会以物体的形式出现在近距离传感器中。”根据传感器的数据,回溯到物体第一次被发现的时间,然后对其进行标(biāo)记。
人工(gōng)智(zhì)能系(xì)统一旦(dàn)部署就不(bú)太(tài)可能(néng)遇到这(zhè)样的问题,因此可能无法在训练数据集中(zhōng)表示出来,这是开发(fā)人员面临的另(lìng)一个挑战。然而,如果这些边缘情况代(dài)表了(le)真(zhēn)实(shí)场(chǎng)景,那(nà)么就需要考(kǎo)虑这(zhè)些(xiē)情况(kuàng),以确保AI模(mó)型正确地处理它们。
“关(guān)键(jiàn)的例子是自动驾驶。在你的数据集中(zhōng)有多少次(cì)在昏暗的(de)暴风雪中开车上山?你的数据集中不会有很(hěn)多这样的情(qíng)况,所以他们(men)本质上必(bì)须做模拟数据(jù)。”
换句话(huà)说,边缘(yuán)案(àn)例是通过使用合成数(shù)据来处理的,合成数据是使用各种方法来(lái)创建的,例如生成模型(xíng)。但这也产生了一个问题,即(jí)数(shù)据(jù)科学(xué)家或开发人员如何才(cái)能确(què)保(bǎo)这些合成数据准确地(dì)反映出人工智能在现实生活中会遇到什么情况。