ChatGPT在全球范围掀起的AI热潮正在引发越来越多的讨论,AI该如何管理?AI该如何发展?一系列问题都成为人们热议的焦点。此前,马斯克等海外名人就在网络上呼吁OpenAI暂停ChatGPT的模型训练和迭代,等待企业与政府讨论出一套行之有效的管理方法后再继续。
显然,此举遭到了OpenAI的反对,不过OpenAI也认可马斯克的部分说法:“AI确实需要管控”,在一次访谈中,OpenAI的创始人之一更是直言自己有时候会对ChatGPT感到恐惧,AI确实有可能对人类造成威胁。
当我们惊叹于ChatGPT的强大时,确实不该忘记AI技术发展所带来的“可能威胁”。4月11日,国家互联网信息办公室发布了关于《生成式人工智能服务管理办法(征求意见稿)》的公开征求意见通知,国内有关生成式人工智能的第一个管理条例来了。
(相关资料图)
以下为《生成式人工智能服务管理办法(征求意见稿)》的原文。
从内容来看,目前还只是一个初步的管理条例,对应的处罚及法律依据来自此前发布的《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规。
看到管理条例的发布,不少网友都持肯定态度,AI的发展速度之迅猛超出了许多人的预料,并且已经开始对社会造成明显的影响,确实需要对AI的发展与使用做出管理,避免对社会造成严重的危害。
不过也有网友认为,这份“管理办法”的一些条例,或许会让中国企业在AI赛道的竞争力减弱,因为其中的一些要求对于目前的AI模型来说,是很难确保100%符合规定的,势必让企业在开发过程中畏手畏脚。
现如今的AI,是否已经到了必须管控的地步呢?
“撒谎”的AI
在前段时间,我先后体验和测试百度的文心一言与阿里巴巴的通义千问,作为国内首批开展内测的对话式AI大模型,两者在体验上虽然不如ChatGPT 4.0,不过也已经具备一定的能力,从测试结果来看也是各有千秋。
但是,不管是文心一言还是通义千问,都无法避免在一些回答中“撒谎”,或者换个说法,现阶段的AI模型基本上避免不了根据已有信息生成虚构内容的问题,即使是ChatGPT 4.0也是如此。
甚至从测试来看,ChatGPT的虚构信息能力要远超文心一言等较低等级的AI对话模型,有兴趣的朋友可以在知乎、B站等平台搜索相关内容,可以轻松查询到不少ChatGPT一本正经地胡说八道的记录。
在知乎上,用户@何学源 就展示了ChatGPT是如何从0开始编造自己的人生经历的,只需要给ChatGPT一定的关键词,AI就会依据关键词进行信息编造,将一些完全杜撰或是不属于本人成就的信息拼接到一起,生成一份回答。
图源:知乎
从提供的ChatGPT对话截图来看,AI不仅是生成了一系列编造的个人信息,在用户要求提供相关的引用论文和文章时,AI更是直接生成了一系列不存在的网络链接与论文标题,给用户@何学源 带来一些小小的AI震撼。
图源:知乎
在我的测试中,文心一言也有类似的问题,比如我在询问它:“吃西瓜为什么不吐葡萄皮”时,文心一言不仅将西瓜与葡萄的关系混淆,甚至将归属于葫芦科的西瓜变成了“葡萄科”的,接下来的内容都基于西瓜与葡萄是同一样水果的逻辑进行解答,以至于错漏百出。
只是相对于ChatGPT能够以假乱真的“撒谎”行为来看,具有一定知识储备的人可以轻松辨认出文心一言回答中的问题。但是,如果未来的文心一言经过迭代进步后达到ChatGPT的同等水平,人们又该如何分辨其中的问题?
再进一步,如果有人不怀好意地让AI故意生成“谣言”,又该如何解决?实际上,互联网上已经出现了不少利用AI生成的图片、文字来进行诈骗、造谣的案例,前段时间就有人利用AI生成的模特图片进行网络诈骗,甚至还成功骗到了不少人。
图源:微博
在我看来,对于AI的管控确实应该提上日程,不仅仅是国内在紧锣密鼓地筹备相关法例法规,美国也将在近期召集微软、谷歌、OpenAI等一系列相关企业,探讨对AI的约束与规定,使其在使用和发展的过程中不会侵犯用户的合法权益。
正是出于对AI的“撒谎”能力担忧,《生成式人工智能服务管理办法(征求意见稿)》中就明确写明了“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。”,同时也使该条例引起了许多网友的争议。
但就目前的AI能力来说,想要满足“真实准确”的难度非常高,前面提到过ChatGPT都无法做到,国内的AI则更是如此。严格来说,甚至连人类自己其实也无法做到所有的回答、信息都真实准确,我们的记忆会出错,对知识点、新闻的理解会出错,而且网络上本就充斥着大量的虚假信息,以网络数据训练出来的AI显然不可避免地受其影响。
有网友甚至直言:“如果哪一天AI能够完美规避错误答案,生成100%准确且真实的回答,那么人类就该担心自己了”,言下之意就是这种程度的AI已经不再是普通的工具,而是具备独立思维且拥有强大能力的“超级生命”。
当然,目前的AI离我们设想中的“完美AI”还有着非常遥远的距离,但是对于AI“谎言”的管控确实该提上日程了。不过,一些网友则认为不应该对AI的回答准确率过早地做出严苛规定,否则以目前的错误率来看,国内的所有AI模型都可以停止对外运营。
图源:veer
实际上,这些网友的发言多少有点危言耸听,对于阿里、百度等企业来说,处理错误答案与内容一直都是AI模型迭代中的重要工作,文心一言和通义千问在问答框中都有设置一键反馈按钮,可以轻松对错误回答进行标记,帮助完善AI模型。
而且,从条例的细则来看,对企业的要求是在3个月采取措施修正生成错误回答的AI模型,确保同样的错误不会再次发生,实际上也是给了企业不少的处理时间。对于阿里和百度来说,如果3个月都无法处理一个明显的错误,那么或许该考虑一下是不是有工程师在“摸鱼”了。
入局AI市场的门槛将更高
从条例本身来看,不少要求与规范其实都是AI企业已经在做的事情,比如对错误答案进行优化、限制非法内容的输出等。在文心一言和通义千问上,对于违规或非法的问题基本上都只会得到一个类似的回复:“我是一个人工智能语言模型,无法对xxxx进行评价。我的目的是提供客观和准确的信息,帮助人们解决问题”。
ChatGPT同样如此,如果你使用的是通过官网API接口提供的服务及NEWBING,那么在涉及暴力、血腥、色情等方面的提问时,AI都会直接结束当前话题并提示用户应该更换一个话题。
对于AI的规制其实一直都存着,公开的AI平台本就不是法外之地,不少企业也在探讨对AI模型进行修改,使其生成的图片、视频、音频会自动附加可用于快速识别的标记,用以在网络上对相关的AI生成内容进行快速标识。
图源:网络
在我看来,对AI行业最大的影响是切实地提高了入门门槛,随着ChatGPT的大火,国内开始涌现出大量的AI企业和项目,除了阿里、百度、华为等科技巨头外,还有不少的小企业和个人也在宣传自己的项目,使得国内的AI市场变得十分混乱。
此次条例实施后,对于AI企业的规模、反馈处理等能力都提出了更高的要求,对于目前的大厂来说,满足以上要求并不困难,倒不如说已经在做了。实际上,更大的难点在于训练数据的获取,目前的AI模型基本都是通过爬虫等手段,大量抓取网络信息进行训练迭代。
由此引发了不少网友的指责,认为AI企业在训练中使用了未经过授权的用户个人数据,侵犯了个人隐私,意大利政府此前就公开要求ChatGPT完善数据爬取方式,以确保不会擅自使用未经授权的数据。
此外,三星此前也发布公告,要求严格管控企业内部的ChatGPT使用情况,避免企业机密外泄,因为ChatGPT将三星部分员工输入的机密数据作为训练数据,上传到了ChatGPT的数据库中,导致其他用户可以通过问答的方式获取这些数据,直接影响到三星的企业安全。
为了确保公民信息及个人数据的安全,未来AI企业在隐私保护等方面需要花费更多的成本来完善相关的保障系统。而且,对训练数据的严格规范也会直接影响到AI企业的训练成本,此前华为就声称,开发和训练一个AI的成本高达1200万元美元,而且还不包括后续的硬件、数据投入。
随着相关管理的规范化,AI训练的成本或许会将多数中小企业拒之门外,对于个人和中小企业来说,使用阿里等开放式AI训练平台将会是未来的主流。
关键词: