实践项目 返回列表

超越ChatGPT:大型语言模型的力量与人类交流的困境

2023/11/17 14:44:55

以GPT3/4为代表的大型语言模型被业界宣传为“基础性的”, 是人工智能领域科学进步的主要转折点。这类叙述忽略了大规模的人工智能模型主要由大科技公司控制,因为它们需要巨大的计算和数据资源,并且还引发了围绕错误信息和歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。同时,无论大型语言模型及其训练数据集变得多么庞大,它们永远无法像人类一样学习和理解我们的语言。在此情况下,本文分析了大型语言模型的四大发展趋势,并指出,为了充分了解其范围和力量,探索大型语言模型如何影响社会的不同方面非常重要。特别是,大型语言模型将带来人类交流的困境,我们需要传播理论和基于伦理的传播实践的更新,来确定下一代传播研究的面貌。


引言

通过交流,我们创造并改变了我们生活的世界——其中既包括我们的价值观,也包括我们的工具。大型语言模型是强大的工具,可以帮助我们自动化和简化复杂的任务,并有可能彻底改变我们与技术交互的方式。然而,它们并非没有限制和风险。


交流离不开语言。与其他人工智能应用相比,语言是一个更加棘手的问题,它的风险也更高。自然语言处理(NLP, natural language processing)与一些互联网巨头的核心业务密切相关,例如谷歌的搜索与Meta的社交媒体参与。作为一个社会,我们也许从未如此清醒的意识到语言造成伤害和贬低的危险,也从未如此清醒地意识到我们的语言中微妙的、结构性的、往往是无意地将人予以他者化的形式。


ChatGPT正在被过亿用户使用,其中许多人没有接受过任何关于如何合伦理地使用这样的系统,或如何确保系统不会造成伤害的教育。除了区分人类和机器的困难,我们也需要更多的研究来帮助我们了解人工智能将会怎样影响我们与其他人的互动。


这一切将带来一个全新的交流环境。在一个日益由可以模仿人类自然语言能力的人工智能工具主导的世界中,真实和信任意味着什么?偏见和错误信息又将导致什么?很多问题超越了技术范围。传播学者需要成为有关人工智能技术发展的对话的中心。

大型语言模型成新宠

由于ChatGPT爆火的缘故,大型语言模型(LLM, large language model)集万千宠爱于一身。但它们是什么呢?简单地说,LLMs是一种计算机系统,被设计用来学习文本语料库的统计属性,以生成模仿原始文本风格和内容的新文本。换言之,LLMs能够生成现实而较为准确的新文本,看起来像是由一个真实的人撰写的。


LLMs的核心基于一种强大的机器学习技术,即深度学习。深度学习是人工智能的一个子集,能够自动学习数据中的复杂模式。深度学习算法的灵感来自于大脑从经验中学习的能力,它们通常使用神经网络来实现——计算系统的结构与大脑非常相似。事实上,如果不使用先进的水印策略,就不可能准确区分由人类头脑所写的文本和由高度可并行的人工神经网络所产生的文本,后者的神经连接数要少得多。


传统机器学习算法和深度学习算法之间的一个关键区别是,深度学习算法可以扩展到更大的数据集,它们可以从非结构化或未标记的数据中学习。这使得它们非常适合于自然语言处理等任务,这也是LLMs的用途。大型语言模型现在被认为是人工智能的前沿,因其有可能执行需要创造力、推理和理解自然语言的任务。


大型语言模型于2017年在谷歌大脑(Google Brain)开始使用,研究人员推出了transformer(转换器)架构,它是自然语言处理中使用的一个基于深度学习模型的神经网络,训练可以实现并行化,这为训练真正的大模型首次提供了机会。此后,大型语言和文本-图像模型在领先的技术公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook/Meta(OPT-175B、Galactica、BlenderBot、LLaMA)、英伟达和微软(Megatron-Turing),当然还有OpenAI,微软是主要的投资者(GPT-3/4用于文本,DALL-E2用于图像,Whisper用于语音)。在线社区,如Midjourney,以及Hugging Face等开源供应商,也创造了生成模型。


新的玩家还在不断进场。2023年3月,彭博社推出BloombergGPT(Bloomberg Professional Services, 2023),系根据专有来源的金融数据训练的LLM,“在金融任务上比现有的模型有明显的优势,而不影响一般LLM的基准性能”(Wu, 2023)。4月,资助开发“稳定扩散”(Stable Diffusion)等开源生成式人工智能模型的Stability AI宣布推出StableLM语言模型套件。在为多个领域(包括图像、音频、视频、3D和生物学)开发模型之后,这是该开发商首次加入目前由技术大腕主导的语言模型游戏(Dey, 2023)。同在4月,亚马逊在AWS中推出Bedrock服务,在一个平台上提供多种生成式人工智能模型。例如,Stability AI的Stable Diffusion图像生成器,可以将文本变成图像;AI21实验室的Jurassic-2模型是一个多语言LLM,可以生成德语、西班牙语、法语、葡萄牙语、荷兰语和意大利语文本;Anthropic的Claude是ChatGPT的一个对手,可以使工作流程自动化、回答问题,并与用户进行交流。与微软和Alphabet相比,亚马逊可能看起来姗姗来迟,但它的做法相当精明。通过Bedrock,亚马逊不只是提供对上述第三方平台的访问,也提供对其专有的大型语言模型Titan的访问,这可能使亚马逊变成那些希望使用LLMs并根据其需求构建应用程序的企业的首选平台(Chauhan, 2023)。


时至今日,除了苹果之外,美国每家主要科技公司都宣布了自己的LLM。中国的科技公司当然亦不甘落后:2023年3月,百度推出文心一言并在官宣后为新浪财经、澎湃新闻、爱奇艺、美的集团、东风日产等一系列企业提供接入服务;2022年,阿里达摩院发布通义大模型,并在2023年4月正式推出通义千问;再加上2022年腾讯对外披露的混元大模型和2021年华为发布的盘古大模型等等,不一而足,人称“万模大战”。在TB级文本数据上训练的大型语言模型成为高科技行业最热门的一角。


LLMs对大型科技公司很重要,因为它们可以实现新的产品和服务,从而吸引更多的用户,产生更多的收入,并创造更多的价值。例如,LLMs可用于改进搜索引擎、社交网络、云计算、数字助理、电子商务、游戏、教育、医疗保健等。此外,科技公司可以用LLMs来改进企业的现有产品线。例如,无论是语音数字助理还是为营销人员自动投放广告,谷歌都将人工智能作为未来的突破性技术,使下一代服务和设备更加智能化、功能更强。


生成式模型的重要价值之一是它们与生产力应用程序的整合。例如,微软在企业Office套件市场中有明显的优势,正在将生成式模型整合到Word、Outlook和Teams等应用程序中。中国科技巨头阿里巴巴在生成式人工智能方面的最新努力,在某种程度上让人联想到微软,即通过让人们用自然语言来描述他们想要建立的东西,令各种应用程序变得更容易使用。阿里巴巴宣布,通义千问将被整合到公司的各项业务中,以改善用户体验,客户和开发人员可以通过利用该模型创建定制的人工智能功能。


同时,人工智能初创企业经常以超过10亿美元的估值筹集资金。例如,6月13日,英国人工智能初创公司Synthesia表示,它从风险投资公司Accel和Nvidia旗下NVentures牵头的一轮融资中筹集了约9000万美元,估值为10亿美元。该公司的技术帮助包括亚马逊在内的5万多家企业创建用于教学和企业视频的定制AI化身。这表明,大量企业希望将传统视频制作转变为数字工作流程(Reuters, 2023)。Synthesia只是一个人工智能初创企业快速获得独角兽地位的例子。在利率上升和高通胀导致的更广泛的融资放缓中,人工智能初创企业已经成为2023年投资的一个亮点。

人工智能为什么非得是大模型?

就这样,大型通用人工智能模型被业界宣传为“基础性的”,是该领域科学进步的主要转折点。这类叙述分散了“规模病症”的注意力,这些病症每天都变得更加根深蒂固:大规模的人工智能模型主要由大科技公司控制,因为它们需要巨大的计算和数据资源,并且还引发了围绕歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。


例如,GPT-3最初是在45TB的数据上训练的,并采用了1750亿个参数来进行预测;GPT-3的一次训练就花费了1200万美元(Davenport, Mittal, 2022)。另据报道,OpenAI使用1万个英伟达GPU训练ChatGPT(Goldman, 2023),而ChatGPT每天给OpenAI带来70万美元的成本(Gardizy, Ma,2023)。而最新的GPT-4的训练耗资超过1亿美元(Knight, 2023)。大多数公司没有数据中心能力或云计算预算来从头开始训练这类模型,许多现成的、预训练的人工智能模型,作为云人工智能服务的一部分提供,而此市场本已集中在大科技公司手中,如AWS(亚马逊)、GCP(谷歌云平台)和Azure(微软)。这些云供应商每年总共花费超过1000亿美元的资本,以确保拥有最全面、最可靠和最具成本竞争力的平台。特别是在生成式人工智能方面,它们也受益于供应限制,因为它们可以优先获得稀缺的硬件(如Nvidia A100和H100 GPU)(Bornstein, Appenzeller, Casado, 2023)。


大科技公司可能会保持先发优势,因为它们有时间和市场经验来磨练基础语言模型,并发展宝贵的内部专业知识。因此,较小的企业或初创公司可能难以成功进入这一领域,从而使得LLM的巨大处理能力集中在少数几家大科技公司手中。


2021年,埃米莉·本德(Emily M. Bender)博士、蒂姆尼特·盖布鲁(Timnit Gebru)博士、安吉丽娜·麦克米兰-梅杰(Angelina McMillan-Major)和玛格丽特·米切尔(Margaret Mitchell)博士在一篇题为《论随机鹦鹉的危险》的论文中对LLM的潜在成本和危害提出警告(Bender et al., 2021),这篇论文导致谷歌将盖布鲁和米切尔从人工智能伦理团队的共同领导位置上赶走(Metz, Wakabayashi, 2020;Metz, 2021)。该论文在确定困扰LLM的规模病症方面有先见之明。当公众讨论被围绕着ChatGPT和其他LLMs的令人窒息的炒作所吞噬之际,这项研究提出了清醒的警告:我们需要讨论社会是否应该建立这类技术,而不是如何建立,更不是不加批判地将其作为进步的同义词而加以全盘接受。本德等人问道:“越来越大的语言模型是不可避免的还是必须的?这一研究方向有什么成本,我们在追求它之前应该考虑什么?”


择其要者,大型语言模型可见的成本就有:


环境和财务成本


LLMs的训练需要大量的能源,并产生大量的二氧化碳排放。在GPU上训练一个BERT基础模型所需的能量与一次横跨美国的飞行一样多(Bender et al., 2021)。大多数云计算供应商的能源不是来自可再生能源,而且世界上许多能源也不是碳中和的。此外,哪怕是可再生能源,对环境来说仍然是昂贵的。数据中心为了满足越来越多的计算需求,占用了绿色能源的其他潜在用途,为此,迫切需要节能型的模型架构和训练模式。


环境问题与种族问题的交汇,意味着被边缘化的人和来自多数世界/全球南方的人更有可能体验到能源消耗和二氧化碳排放增加所带来的伤害,尽管他们也是最不可能体验到这种模型的好处的一群。碳足迹将取决于能源的使用和正在使用的能源的碳强度。不仅仅是LLMs有很大的能源影响,而且其中的碳影响将首先为那些没有从这项技术中受益的人带来成本。所以,当我们做成本效益分析时,重要的是要考虑到谁在得到好处,谁在支付成本,因为两者不是同一批人。


此外,进入和训练这些模型的成本很高,这意味着只有一小部分全球精英能够发展并受益于LLMs。由于其复杂的性质,它们的建立和维护可能是困难和昂贵的。它们还需要大量的训练数据,而这些数据可能很难获得,处理起来也非常昂贵。由此,大规模算力会将LLMs限制于只有资源最丰富的公司和研究者才能使用,而把小型开发商排除在外。所以,环境和财务成本应该成为自然语言处理研究中的首要考虑因素。


不负责任的训练数据 


使用大量未经整理的训练数据集有可能创造出巩固主导性、霸权性观点的语言模型。这些训练数据集的庞大规模并不能保证多样性,因为它们往往是从网站上抓取来的,而这些网站由于互联网接入不足、代表性不足、过滤或骚扰等问题而排除了边缘化人群的声音。这些数据集有“价值锁定”的风险,或许会将有害的偏见编码到难以彻底审计的语言模型中。


如果模型是在过滤有限的大量互联网数据上训练出来的,它们就会吸收事实和错误信息、有偏见的内容和公平的内容、有害的材料和无害的材料。如果没有办法在回答提示之前评估这些标准,LLMs就有可能陷入复制、放大和传播有问题的内容和错误信息的危险。


“随机鹦鹉”的诞生


本德等人进一步警告说,对语言模型的追求可能是一个误导性的研究方向。她们观察到,语言模型就好比“随机鹦鹉”(stochastic parrot),“根据关于如何组合的概率信息,胡乱地将它在庞大的训练数据中观察到的语言形式序列[缝合]在一起,但没有任何对意义的参考”(Weil, 2023)。也就是说,大型语言模型善于生成令人信服的语言,但实际上并不理解它所处理的语言的含义。


“随机鹦鹉”的比喻突出了两个重要的局限性:第一,学习机器所作的预测基本上是在重复数据的内容,加上一些由模型的限制造成的噪音(或随机性)。第二,机器学习算法并不了解它所学习的问题。它无法得知自己什么时候在重复一些不正确的、脱离上下文的或令社会感觉不适的东西。由于这些局限性,学习机器可能会产生“危险的错误”(Lindholm et al., 2022)。


ChatGPT的不可靠性会给任何使用它来生成相应文本的机构带来相当大的法律、财务和声誉风险。正如沃伦·巴菲特(Warren Buffett)所说:“建立声誉需要20年,而毁掉声誉只需要5分钟。”如果LLM用于重要任务,它可能会创建一种新的职业(LLM事实检查员)和一种新的保险范围(为了弥补LLM 错误)。


进一步地说,随机鹦鹉的问题可以被看作是人工智能和机器学习的一个更普遍的挑战:如何确保模型是真正的学习和推理,而不是仅仅去记忆数据当中的模式?随着模型的规模和复杂性不断增长,以及它们越来越多地被用于医疗保健、金融和运输等高风险的应用中,这一挑战显得尤为突出。


由此观之,当模型过于依赖复制语言模式而并不真正理解其含义时,随机鹦鹉问题就会出现。如果不加以控制,随机鹦鹉会对人工智能的发展和部署,以及依赖这些技术完成重要任务的用户产生严重后果。这凸显了通过仔细的模型设计、评估和持续监测来解决此问题的重要性。


最终,我们需要问自己,为什么要把人工智能的未来全部押注在大型语言模型一条路上?纽约大学教授兼Meta首席AI科学家杨乐昆(Yann LeCun)就认为LLM是“一条下坡路”,远离了通往更强大的AI的道路(The Economist, 2023)。“大型语言模型能有多聪明,能有多准确,都是有限度的,因为它们没有现实世界的经验,而这确实是语言的基本现实”。他指出,人类所学的大部分内容都与语言无关。“我们学习如何投掷篮球,让它穿过篮圈”,深度学习的另一位先驱者杰弗里·辛顿(Geoffrey Hinton)说:“我们根本不使用语言来学习。我们从试验和错误中学习。”(Smith, 2023)

就算语言是发展人工智能的重要途径,事情也很明显:无论LLMs及其训练数据集变得多么庞大,它们也永远无法像我们一样学习和理解我们的语言。吊诡的是,语言模型的限制导致了一种研究趋势,即专注于研究这类模型的知识和行为。换言之,人类正在学习LLMs的语言,并寻找更好地与它们沟通的方法。


这是因为,语言模型是神经网络,根据从网络收集的数据进行训练。经过训练后,模型可以接收提示并预测其后的单词。神经网络越大,模型的学习能力就越强。数据集越大,模型接触不同单词序列的机会就越大,生成文本时就越准确。


可问题是,人类语言不仅仅是文本。事实上,语言是一种将信息从一个大脑传输到另一个大脑的压缩方式。我们的谈话经常忽略共享知识,例如视觉和听觉信息、世界的物理体验、过去的谈话、我们对人和物体行为的理解、社会结构和规范等。


正如杨乐昆和纽约大学计算机科学系博士后雅各布·布朗宁(Jacob Browning)在最近的一篇文章中所写到的,“仅靠语言训练的系统永远不会接近人类智力,即使从现在开始训练直到宇宙热寂”。虽然两位科学家也指出,如果我们停留在表面上,语言模型“无疑会接近(人类智能)。而且,在许多情况下,表面就足够了”,但是我们绝不应该把LLMs拥有的浅层理解与人类从观察世界景象、探索世界、在世界中进行实验以及与不同文化和其他人互动中获得的深层理解相混淆(Browning, LeCun, 2022)。


所以,假如我们用“语言的统计模型”而不是“大型语言模型”来描述这种人工智能技术,是否会带来更清楚的认知?这样会使我们认识到,统计推理肯定不是人类合作、创造、协调和竞争的全部故事。


所有人类的知识最终都能被抓进机器的说法是没有意义的。我们只能把可以用比特串表示的知识放入机器。像体育、音乐、木匠大师或创意写作这样的技能是无法精确描述和记录的,技能的描述并不就能够赋予表演的能力。即使它们可以被代表,表演技能的形式也是无法被记录的——它包括表演者的想法和思考,他们的神经元记忆状态,以及他们的神经肌肉化学模式。所有这些没有记录的和无法记录的信息的数量远远超出了可能存储在机器数据库中的范围。与人类的能力相比,大型语言模型所能执行的任何功能都是很小的。


我们是否已经被大型语言模型迷住了,以至于没有看到我们利用语言所做的其他事情?我们建立关系。我们互相关照。我们认识并驾驭我们的情绪。我们建立并行使权力。我们做出承诺,并贯彻执行。我们创建组织和社会。我们创造传统和历史。我们为行动负责。我们打造信任。我们培养智慧。我们爱。我们想象以前从未想象过的东西。所有这些都不是统计学上的。大型语言模型的能力与人类的能力之间存在着巨大的鸿沟。

大型语言模型的四大发展趋势

像LLMs这样的大规模人工智能模型在过去一段时间里中受到了最多的炒作,也带来了最大的恐惧。围绕这些系统的兴奋和焦虑都有助于强化如下概念,即这些模型是“基础性的”,尽管它们无法对人类提示作出有意义的回应的例子数不胜数。值得注意的是,这些模型之所以作为“基础性”的技术被引入,其实意是在将它们等同于无可置疑的科学进步,成为“通用人工智能”(这是另一个模糊的术语,让人联想起科幻小说中关于取代或超越人类智能的概念)道路上的踏脚石,从而使其被广泛采用成为必然。


在最近的一次采访中,OpenAI首席执行官山姆·阿尔特曼(Sam Altman)说:“我认为我们正处于巨大模型时代的终结,我们将以其他方式让模型变得更好。”(Miller, 2023)言下之意是,未来的进展不会来自于将模型做得更大。


而这些“其他方式”是什么?一个可能的途径是在更多的高质量数据上对模型进行微调,创造更好的训练技术。人工管策的数据集可能是非常有价值的,但创建成本高,速度慢。根据大型语言模型的现状,笔者认为,有四大发展趋势值得高度关注:


第一,我们需要致力于教会语言模型表达不确定性


在大多数情况下,人类知道自身的局限性(即使他们不直接承认)。他们可以表达不确定和怀疑,并让对话者知道他们对自己所传授的知识有多自信。而与此相对照,语言模型总是对任何提示都给出现成的答案,即使它们的输出是毫无意义的。神经网络通常提供某个预测正确概率的数值。然而就语言模型而言,这些概率分数并不代表模型对提示响应的可靠性的信心。


OpenAI和牛津大学的研究人员发表的一篇论文表明,可以通过教LLMs“用语言表达它们的不确定性”来弥补这一缺点。可对 LLMs进行微调,以使用自然语言表达认知上的不确定性,研究者将之描述为“语言化概率”(verbalized probability),即用语言表达出来的概率。这是一个重要的发展方向,尤其是在用户希望将语言模型的输出转化为某个动作的应用程序中。研究人员建议,表达不确定性可以令语言模型诚实。“如果一个诚实的模型出现一个误导或恶意的内部状态,那么它可以将这种状态传达给可采取相应行动的人类”(Lin et al., 2022)。


第二,与其致力于模型之大,不如专攻特定模型


鉴于LLMs不理解它们所处理的语言,也不理解所收到的提示和自己的回应,所以补救办法一是靠规模的力量,即训练数据和模型参数的巨大规模,二是靠专业的力量,即在为特定行业或领域(如医疗保健和医学)定制开发更专门的模型的情况下,有针对性地管策训练数据,这将有助于解决LLMs在涉及特定问题时的某些局限性。


想象一下,像ChatGPT这样的LLM已经在最好的医学文献上接受了训练,但训练数据当中也有讨论健康问题的Reddit线程。人工智能有时可以通过检索和参考高质量的信息来回应,但其他时候它通过使用完全不可靠的Reddit信息来回应。事实上,假如医学文献中没有这些信息(例如一种非常罕见的疾病),它更有可能编造这些信息(此即人工智能行业常说的幻觉)。比尔·盖茨(Bill Gates)曾预想过,ChatGPT或类似的大型语言模型有一天可以为没有机会看医生的人提供医疗建议(Trang, 2023),然而你如何能相信一个容易产生幻觉的机器的建议?


所以我们需要通过使用较小和较高质量的数据集对特定的知识领域进行训练。例如,拥有数十亿参数的大型临床语言模型可以利用电子健康记录中的非结构化文本,帮助提取医学概念和回答医学问题,预测疾病或再入院风险,并总结临床文本。而一个专门为法律行业设计的模型可以接受法律术语和行话的训练,使其更好地处理法律文件。


像BloombergGPT这样的例子表明,扎根于特定领域的企业能够使用免费提供的、现成的人工智能方法,处理大量的专有数据。与OpenAI的GPT3/4这样的“基础性”模型不同,彭博社的模型是为特定任务而设计的。它在公司多年来收集的大量金融文本上专门训练,为的是创建一个对金钱和商业能够产生特别流利的认知的模型。在用于创建彭博社模型的数据中,约有一半来自网络上的非金融来源,包括GitHub、YouTube字幕和维基百科。但彭博社还为自己的模型添加了1000多亿单词,来自一个名为FinPile的专有数据集,其中包括该公司在过去20年中积累的金融数据,内含证券文件、企业新闻发布、彭博社新闻报道、其他出版物的报道,以及专注于金融网页的网络爬行等。事实证明,添加特定的培训材料可以提高金融任务的准确性和性能。彭博社正计划将其GPT整合到通过公司终端产品访问的功能和服务中,尽管彭博社还未有计划推出ChatGPT式聊天机器人(Leswing, 2023)。


第三,高质量的数据将成为LLM称霸的新战场


限制LLM持续改进的最重要限制是可用的训练数据量。《经济学人》报道说,2022年10月发表的一篇论文得出的结论是,“高质量语言数据的存量将很快耗尽,可能就在2026年之前”(The Economist, 2023)。肯定有更多可用的文本,但它们被一小块一小块地锁定在公司数据库或个人设备上,无法以Common Crawl允许的规模和低成本加以访问。这种数据稀缺对LLM的进一步发展提出了挑战。


2023年4月18日,Reddit宣布,它将开始对其API的访问收费(Isaac, 2023)。这一决定是在Twitter对其API实施类似限制之后做出的(Mehta,2023)。近年来,Reddit的系列聊天成为谷歌、OpenAI和微软等公司的免费教具。这些公司使用Reddit的对话来帮助开发巨型人工智能系统。然而现在,Reddit联合创始人兼首席执行官史蒂夫·赫夫曼(Steve Huffman)称:“我们不需要把所有这些价值免费提供给世界上最大的一些公司。”


随即,程序员问答网站Stack Overflow也宣布将开始对其 API收费。首席执行官普拉桑斯·钱德拉塞卡尔(Prashanth Chandrasekar)表示:“我们非常支持 Reddit 的做法”,“为LLM提供动力的社区平台绝对应该因其贡献而得到补偿,这样像我们这样的公司就可以重新注资到社区,让其继续蓬勃发展。”(Dave,2023)


Reddit和Stack Overflow等平台为微调LLM提供了快速访问具体主题和问题的宝贵数据,而这些平台的所有者正意识到它们所掌握的数据的价值。数据市场日益激烈的竞争可能推动行业走向更少的共享和更多的货币化。不幸的是,激进的货币化将进一步增强能够负担API成本的大型科技公司的能力。相应地,小型实验室和资金紧张的初创公司将不得不处理手头可用的低质量数据。


第四,开源模型可以成为大科技公司封闭服务的替代品


最先进的LLM需要巨大的计算预算和深厚的机器学习专业知识,所以很少有机构能够从头开始训练它们。然而,那些拥有资源和专业知识的机构越来越多地不开放模型(无论是数据、源代码或深度学习的秘方——模型权重)供公众监督,而是依靠API分发。


这就是开源人工智能可以介入的地方,它使获得LLM的机会民主化。各种社区平台正在努力创建开源的模型,以替代大科技公司提供的封闭的专有服务。这些努力是为了防止少数富有的公司在快速增长的生成式人工智能市场上拥有过多的权力。


例如,我们开始看到Anthropic、Cohere和Character.ai等公司建立的LLMs更接近OpenAI的性能水平,它们在类似的数据集上训练,并采用类似的模型架构。“稳定扩散”的例子表明,如果开源模型的性能和社区支持达到了足够的水平,那些封闭的大型模型未必能与其竞争。


“稳定扩散”只需较少的计算能力就可以工作。与在OpenAI强大的服务器上运行的DALL-E 2不同,稳定扩散可以在良好的个人电脑上运行。创造力的爆发和新应用程序的快速发展在很大程度上是由于“稳定扩散”:既是开源的,程序员可以自由地改变它,在它的基础上发展,并从中赚钱;又足够轻巧,人们可以在家中运行。


谷歌的一位高级软件工程师认为,不管是OpenAI还是谷歌,在人工智能竞赛中都没有胜算,构成威胁的“第三派”将是开源社区。开源技术开发者没有所有权,他们将自己的作品发布给任何人,让他们根据自己的需要使用、改进或改编。开源的历史例子包括Linux操作系统和LibreOffice,这是微软Office的替代品。


这位谷歌工程师说,开源人工智能开发者“已经在抢占先机”,他举出的例子包括Meta公司开发的大型开源语言模型LLaMA。2023年2月底发布的LLaMA因其优于GPT-3等模型的性能而立即受到欢迎,尽管其参数只有650亿(Meta AI, 2023)。7 月 18 日,LlaMa2发布包含了 70 亿、130 亿和 700 亿参数的模型,它对于人工智能应用,就像安卓操作系统之于手机APP开发一样,目的就是让应用层开发者可以直接以最低成本获得大模型的基础设施使用。有了这样的模型,从事人工智能模型的门槛已经“从某一个主要研究机构的总产出降至一个人、一个晚上和一台强大的笔记本电脑”。一个LLM现在可以在几个小时内以100美元的价格进行微调。凭借其快速移动、协作和低成本的模式,开源模型有一些谷歌或OpenAI无法复制的显著优势(Milmo, 2023)。而当免费的或低价的、不受限制的替代品在质量上与封闭的大型模式不相上下时,人们不会为一个设限的人工智能模型付费。


当然,像任何事情一样,这同时具有积极和消极的影响。从正面看,它使少数公司垄断控制人工智能的可能性大大降低,也将使获得人工智能的成本大大降低,加速整个领域的创新,并使研究人员更容易分析人工智能系统的行为(因其对专有模型的访问是有限的),提高透明度和安全性。但是,更容易获得人工智能,也意味着不良行为者将可以出于自身的邪恶目的而对系统进行微调,例如生产虚假信息。这将使人工智能更难于监管,因为精灵已经逃出了瓶子。

大型语言模型的社会后果

大型语言模型已经彻底改变了我们与计算机互动的方式。它们能够理解自然语言并对复杂的问题做出反应。随着人工智能驱动的LLMs(如ChatGPT)的发展,它们已经变得越来越有用并走向通用。


然而,它们的迅速进展也不是没有争议的。许多人担心如此强大的技术所带来的反响,忧虑这些模型可能被用来操纵信息或替代人类的经验。为了充分了解它们的范围和力量,探索LLMs如何影响社会的不同方面非常重要。


鉴于这些开创性的模型的广泛采用所带来的巨大可能性和潜在风险,社会已经对其使用产生了不同的反应。例如,在开发和分发这些模型的源代码时,是采取开源还是闭源方式?


总的来说,开源是指任何人都可以免费使用、修改和发布的源代码,而闭源是指不能在创造它的机构之外修改或发布的专有代码。在GPT-3之前,大多数大型语言模型都是开源的,但目前,越来越多的公司将他们的模型变成闭源的,例如PaLM、LaMDA和GPT-4。在OpenAI宣布GPT-4模型的文件中,该公司说它不会提供关于架构、模型大小、硬件、训练计算、数据构建或用于开发GPT-4的训练方法的细节,只是指出它使用了从人类反馈中强化学习的方法,声称这是由于竞争和安全方面的考虑(AI Now Institute, 2023)。


同样,出于大型语言模型的竞争格局和安全问题,OpenAI向客户提供的付费访问,也有许多法律和技术限制。这使得学术研究人员更难进行LLM训练实验。对研究界来说,最直接的问题之一是缺乏透明度。ChatGPT及其前身的基础训练集和LLMs是不公开的,科技公司可能会隐瞒其对话式AI的内部运作。这与透明度和开放科学的趋势背道而驰。在这种情况下,有关人工智能的模型能力的主张无法被其他人验证或复制,客户也不可能下载ChatGPT背后的模型。


相比之下,开源工作涉及创建一个模型,然后将其发布给任何人,让他们根据自己的需要使用、改进或改编。业界推动开源LLM的工作,承诺多方合作和权力共享,而这正是互联网的最初理想。它显示了不同的社区如何能够相互帮助,携手推进大型语言模型的下一步发展。


围绕着LLMs的另一个关键问题是它们的伦理含义。随着这些系统变得越来越复杂,有关操纵人类行为或公众舆论的问题日益凸显。此外,LLMs有可能被用作恶意行为者或组织获取私人数据或传播虚假信息的工具。出于对偏见和准确性的担忧,人们也担心它们在医疗诊断、法律决定甚至政府政策中的使用。


“深度伪造”(deepfake),由人工智能创造的图像和视频,已经在媒体、娱乐和政治中出现了。在此之前,创造深度伪造的内容需要相当多的计算技能,然而,现在几乎任何人都能创造它们。OpenAI已经试图通过在每张DALL-E 2的图像上“打上水印”来控制虚假图像,但未来可能需要更多的控制手段——特别是当生成式视频创作成为主流时。


生成式人工智能还提出了许多有关何为原创和专有内容的问题。由于创建的文本和图像与以前的任何内容都不完全一样,AI系统供应商认为人工智能生成内容属于提示的创造者。但它们显然是用于训练模型的先前文本和图像的衍生品。不用说,类似技术将在未来几年为知识产权律师提供大量工作。


在隐私方面,LLMs本质上是个人化的,它收集大量的用户数据,以便能够有效地预测对话的长度、主题和轨迹。此外,每次与 ChatGPT 这样的工具的互动都有一个唯一的标识符——有使用它的人的登录轨迹。因此,个人对 ChatGPT 的使用并非真正的匿名,这就引发了有关 OpenAI 保留敏感数据的问题。围绕着数据的收集、存储和使用,必须进行一系列的深思熟虑,以便安全地使用LLMs。


LLMs与其他人工智能技术一样受到监管和合规框架的约束,但随着它们变得越来越普遍,可能会提出新的问题:如何以符合《通用数据保护条例》(GDPR)和其他法规的方式使用此类工具。由于 ChatGPT 处理用户数据以生成响应,OpenAI 或者出于自身目的而依赖 ChatGPT 的实体可能被视为 GDPR 下的数据控制者,这意味着它们应该获得处理用户个人数据的合法依据(例如用户的同意),并且必须告知用户它们在从事何种由ChatGPT支持的数据处理活动。


所有这些潜在的问题强调了为什么科学家、研究人员和其他使用LLMs的人或组织在将其投入实际使用之前,从多个角度积极审查大型语言模型的影响是至关重要的。如果深思熟虑地考量伦理方面的影响,再加上严格的安全措施,大型语言模型就可以成为有价值的工具,而不会破坏用户的信任或损害完整性。


此外,虽然大型语言模型的趋势仍在继续,但重要的是要注意,更大并不总是意味着更好。大型语言模型可以很好地进行随心所欲的创造性互动,但过去十年的发展告诉我们,大型深度学习模型是高度不可预测的,使模型更大、更复杂并不能解决这个问题。


像ChatGPT这样的大型语言模型,具有与用户进行类似语言交流的能力,有可能成为交流和教育以及其他许多领域的强大工具。然而,一方面其对社会的影响是巨大的;另一方面其被滥用的可能性也是非常真实的。因此,需要更多的研究来认识大型语言模型的社会后果及对我们生活的影响。随着人工智能和数据科学越来越多地融入日常生活中,重要的是要加强这类技术的伦理考量,并尊重我们的数据和隐私赋予我们的个人权利。该领域的领导者必须共同努力,确保大型语言模型的使用是负责任的,符合人类的最佳利益。

大型语言模型带来的交流困境

ChatGPT和其他生成式人工智能工具正在将有关大型语言模型的对话带到公众关注的最前沿,并且带着一种前所未有的紧迫感。现在,人们必须就人工智能的未来是什么样子以及如何创造我们想要的未来进行交流。

我们需要传播理论、传播研究和基于伦理的传播实践来关注和指导这样的对话。数字人文学者马修·科申鲍姆(Matthew Kirschenbaum)预测,即将到来的“文本末日”将导致“文本海啸”,“在任何数字环境中都无法可靠地进行交流”(Kirschenbaum, 2023)。

科申鲍姆所称的“文本末日”是指,我们与书面文字的关系正在发生根本性的变化。通过ChatGPT等程序,所谓的生成式人工智能已经成为主流,这些程序使用大型语言模型来统计预测序列中的下一个字母或单词,从而生成模仿其所训练的文本内容的句子和段落。它们为整个互联网带来了类似自动完成(autocomplete)的功能。

目前,人们仍然在为这些程序输入实际的提示信息,同样,这些模型(大部分)仍然是根据人类散文而不是机器自制的作品进行训练的。但情况可能会发生变化——OpenAI发布ChatGPT应用程序接口就证明了这一点,它将允许该技术直接集成到社交媒体和在线购物等网络应用中(Wiggers,2023)。不难想象,在这种情况下,机器可以促使其他机器无休止地发布文本,从而使互联网充斥着没有人类的能动性或意图的合成文本。

2022年6月3日,人工智能研究者兼YouTuber扬尼克·基尔彻(Yannic Kilcher)发布了一段视频,介绍他如何开发名为“GPT-4chan”的人工智能模型,然后部署机器人在著名留言板4chan上伪装成人类。4chan常被描述为互联网亚文化的中心,其社区对知名互联网模型的形成和普及以及黑客行动和政治运动具有相当大的影响力。4chan经常作为争议来源而受到媒体关注,包括协调组织针对某些网站和用户的恶作剧和骚扰,以及发布非法和攻击性内容。

GPT-4chan是一个大型语言模型,通过使用之前公开发布的数据集对GPT-J进行微调来模拟4chan的/pol/匿名留言板用户而创建;其中许多用户经常表达种族主义、白人至上主义、反犹主义、反穆斯林、厌恶女性和反 LGBT的观点。基尔彻训练机器人阅读了4Chan这一臭名昭著的“政治不正确”板块3年半时间内的1.345亿条帖子,很自然地,该模型学会了输出各种仇恨言论,导致基尔彻称其为“互联网上最可怕的模型”,并在他的视频中这样说道:“这个模型很好,但从一个可怕的意义上来说……它完美概括了/pol/上大多数帖子中渗透的攻击性、虚无主义、恶搞以及对任何信息的深度不信任。”(Kilcher, 2022)

在训练完成后,由该模型驱动的10个机器人被部署在/pol/留言板上,24小时内匿名发布了1.5万条基本上是有毒的信息。虽说许多用户通过留言板上的发帖频率很快认定这是一个机器人,而基尔彻也公布了在服务器上运行模型所需的代码和已训练的模型实例,并表示人工智能研究人员可以联系他获取机器人与4chan用户的互动记录,可是他的做法还是在人工智能研究者社区内引发了较大争议。

GPT-4chan模型发布在Hugging Face上,这是一个共享经过训练的AI模型的中心。在该模型被下载了1000余次后,Hugging Space团队首先“限制”了对它的访问,此后不久,他们又完全删除了对它的访问权限,其页面现在刊有以下免责声明:“已禁用对该模型的访问——鉴于其研究范围,在所有禁止使用机器人的网站上故意使用该模型生成有害内容(不完全示例包括:仇恨言论、垃圾邮件生成、假新闻、骚扰和辱骂、贬低和诽谤)被视为对该模型的滥用。”(Kurenkov, 2022)

在人工智能研究界,有人认为这样的模型很可能造成伤害,特别是在面向青少年的论坛中。让机器人与 4chan 用户互动是不道德的,它加剧了4chan本已有毒的回声室效应并进一步分化了用户群。阿德莱德大学的人工智能安全研究员劳伦·奥克登-雷纳(Lauren Oakden-Rayner)在一条推文中指责基尔彻“在未告知用户、未经同意或监督的情况下进行人类实验”,她认为这违反了人类研究伦理的所有原则(Mellor, 2022)。

基尔彻在接受The Verge采访时将该项目描述为一个“恶作剧”,他认为考虑到 4chan本身的性质,这种恶作剧几乎没有造成什么有害影响。“/pol/上完全可以预料到会有机器人和非常粗鲁的言谈”(Vincent, 2022)。并且,任何潜在的危害也可以使用其他现有模型来实现。

的确,基尔彻不会是第一个、也不是唯一一个创建恶意的微调模型的人。所以,问题在于,如果出现更多的微调模型,其内容指向在意识形态层面复制一种特定世界观,会为未来的人类交流带来什么?

基尔彻创建的机器人非常逼真。“它能对上下文做出反应,并能连贯地讲述在收集最后一次训练数据很久之后发生的事情和事件”,基尔彻在视频中称。以此类推,有人可以建立一个系统,让ChatGPT这样的程序反复向自己提问,并自动将输出结果发布到网站或社交媒体上。这样无休止地迭代内容流,除了在交流场域造成混乱,它还将被再次吸入大型语言模型的训练集,让模型在互联网上制造自己的新内容。如果各路人马——无论是出于广告收入、政治或意识形态目的还是恶作剧——都开始这样做,每天难以数计的类似帖子充斥在开放的互联网上,与搜索结果混杂在一起,在社交媒体平台上传播,渗透到维基百科词条中,尤其是为未来的机器学习系统提供素材,那将会怎样?

将基尔彻的工作与过去最著名的变坏了的机器人的例子相比较是非常有趣的:微软的Tay。微软于2016年在 Twitter上发布了人工智能聊天机器人,但在用户教导Tay重复各种种族主义和煽动性言论后,不到24小时,微软就被迫下线该项目(Vincent, 2016)。可 是在那时,创建这样的机器人专属于大型科技公司的领域,基尔彻现在的做法表明,任何一人编码团队都可以使用更先进的人工智能工具达成同样的结果。至于说到人类研究伦理的指责,如果基尔彻在大学工作,让AI机器人在 4chan上自由活动可能是不道德的。但基尔彻坚称自己只是一名YouTuber,这暗示着他认为此处适用不同的伦理规则。

面对如此严峻的局面,我们该如何应对?笔者认为,传播学可以发挥作用的领域包括:

让开发者对人工智能偏见负责。像希瑟·伍兹(Heather S. Woods)和泰勒·莫兰(Taylor C. Moran)这样的传播研究者已经发表了关于人工智能虚拟助手(如Siri和Alexa)与性别和种族刻板印象的重要研究成果,显示了人工智能是如何反映并重新定义人类偏见和价值观的(Woods, 2018;Moran, 2021)。随着生成式人工智能和新应用的引入,这一领域还需要更多的研究。研究的目的是唤醒公众去追究那些生产强化此类偏见的人工智能软件组织的责任。

具体就大型语言模型而言,一件重要的事情是帮助制订发布“基础性”模型的社区规范。斯坦福以人为本人工智能研究院(HAI,Human-Centered AI Institute)和基础模型研究中心(CRFM, Center for Research on Foundation Models)就提出,随着基础模型变得更加强大和普遍,负责任发布的问题变得至关重要(Liang, 2022)。而“发布”一词本身就有不同的内涵:首先是研究访问,即基础模型开发者令外部研究人员可以访问数据、代码和模型等资产;而部署到用户中开展测试和收集反馈,以及以产品形式部署到最终用户中,则构成了更深入的发布形式。

随着AI技术变得越来越强大,每个基础模型开发者独立决定其发布政策的问题凸显出来。原因有二:首先,单个行为者发布不安全、功能强大的技术可能会对个人和社会造成重大伤害。即便认为当今基础模型的风险还没有严重到有理由限制相对开放的发布,然而迅猛的发展速度也给未来模型的能力带来了相当大的不确定性。其次,正因为基础模型风险的严重性尚不明确,基础模型开发者将从分享最佳实践中获益,而无需每个组织都“重新发明轮子”,承担重新发现某些危害的经济和社会成本。此外,加强合作和提高透明度可以解决集体行动问题,即由于快速行动的强烈经济动机,各组织通常对负责任的人工智能投资不足(Askell et al,2019;胡泳,朱政德,2023)。底线就是,需要社区规范来管理基础模型的发布。在向公众发布人工智能代码或模型时,既要考虑这样做的直接影响,也要考虑其他人使用这些代码或模型可能产生的下游影响。

完善把关机制,限制访问或移除可能有害的模型和数据集。随着AI逐渐成为各类信息和知识的把关人,为AI系统设置把关人成为迫切需要。例如,基尔彻使用的数据集过去和现在都是公开的,任何人都可以下载,因此可以想象,拥有人工智能技术的人有可能会用它来创建一个以传播仇恨言论为目的的机器人。一旦这样的机器人公开发布,像本文中提到的Hugging Face拔掉下载插头的把关行为就是值得称许的。

2020年7月,麻省理工学院下线了一个庞大且被高度引用的数据集,因为两名研究人员发现该数据集使用种族主义和厌恶女性的术语来描述黑人/亚洲人和女性的图像。这一名为“8000万张小图像”(80 Million Tiny Images)的训练集是在2008年创建的,目的是开发先进的物体检测技术。它被用来教授机器学习模型识别静态图像中的人和物体(Quach, 2020)。在技术新闻网站The Register向大学发出警报后,麻省理工学院删除了数据集,并敦促研究人员和开发人员停止使用该训练库,并删除所有副本。大学还在其网站上发表了官方声明并道歉(Ustik, 2020)。

这种道德上可疑的数据集所造成的损害远远超出了不良品位;该数据集被输入神经网络,教导它们将图像与单词关联起来。这意味着任何使用此类数据集的人工智能模型都在学习种族主义和性别歧视,而这可能会导致带有性别歧视或种族主义的聊天机器人、存在种族偏见的软件,甚至更糟的社会后果,比如警方使用人脸识别系统误认某人,并因其未曾犯下的罪行而实施逮捕(Hill, 2020)。

部分问题在于数据集是如何构建的。“8000万张小图像”包含2006年根据 WordNet(一个用于计算语言学和自然语言处理的英语单词数据库)的查询从互联网上抓取的 7930.2017 万张图像。据创建者介绍,他们直接从WordNet复制了 5.3万多个名词,然后自动从各个搜索引擎下载与这些名词相对应的图像。由于WordNet包含贬义术语,用户最终会得到无意中证实和强化刻板印象及有害偏见的结果(Song, 2020;Kurenkov, 2022)。

另一个有问题的数据集是ImageNet。ImageNet是一个大型视觉数据库,用于视觉对象识别软件研究。2019年,在一个名为ImageNet Roulette的艺术项目显示数据集当中存在系统性偏见后,ImageNet也从其系统中删除了60万张照片。不出所料,ImageNet也是基于WordNet构建的(Ruiz, 2019)。这表明了对数据集实施把关的必要性,如果不加以控制,它将继续产生有偏见的算法,并为使用它作为训练集的人工智能模型带来偏见。就像计算机科学领域的一句著名习语所说的:垃圾进,垃圾出。

把关机制既包括Hugging Face这样的神经语言编程代码共享平台,也包括麻省理工学院这样的精英大学,同时也需要The Register这样的技术媒体进行社会监督。人工智能研究社区也要着力培养包容性文化,建立更符合伦理的数据集,并规范自身的程序。例如,避免使用知识共享(Creative Commons)材料,获得明确的数据采集同意,并在数据集中加入审计卡(audit card),允许数据集的管理者公布目标、管理程序、已知缺陷和注意事项。

一个例证是,模型发布时应包含有关模型文档的模型卡(model card),它是记录已发布的人工智能模型的预期用途和局限性的好方法,比如GPT-4chan的模型卡就明确指出了它的仇恨言论倾向,并警告不要部署它。

重新思考内容的生产与传播。威廉·萨菲尔(William Safire)是20 世纪90年代末最早断言“内容”(content)将作为独特的互联网类别而兴起的人之一(Safire,1998),或许也是第一个指出内容无需与真实性或准确性相关即可实现其基本功能的人。这一基本功能,简单来说,就是存在;或者,如凯特·艾希霍恩(Kate Eichhorn)所指出的,内容可以不传递任何信息或知识,只是为了流通而流通(Eichhorn, 2022)。

从ICP时代以来,内容就被放置于社会文化和经济发展中至关重要的位置,在经历了PGC、UGC、PUGC这些不同内容模式和内容经济之后,内容已经成为人们日常生活审美化、艺术化、商品化的重要组成部分。然而在如今风起云涌的AIGC浪潮中,主体和历史双双迎来了史无前例的危机,因为这场生成式革命选择将人类更深层次的编码能力和思维链能力通过训练交付给机器(胡泳,刘纯懿,2023)。当代文化产业的规范正在朝着书面语言的自动化和算法优化方向发展。大量生产低质量文章以吸引广告的内容农场使用了这些工具,但它们仍然依赖大量的人力将字符串成适当的单词,将单词串成清晰的句子,将句子串成连贯的段落。一旦自动化和扩大劳动规模成为可能,会出现什么动力来控制这种生产呢?

长期以来,内容的基本范式一直是所谓“读写网”(read-write web)。我们不仅消费内容,还可以生产内容,通过编辑、评论和上传参与网络的创建。然而我们现在正处于一种“自书写网络”(write-write web)的边缘:网络不断地书写和重写自身。毕竟,ChatGPT及其同类工具可以像写文章一样轻松地编写代码。

从本质上来说,我们将面临一场永无止尽的信息垃圾危机,由一种人类和机器作者的脆弱融合体加以催生。从芬·布朗顿(Finn Brunton)的《信息垃圾:互联网的影子历史》(Spam:A Shadow History of the Internet,2013)一书中,我们可以了解在互联网上传播虚假内容的五花八门的方法。例如“双面”网站,即为人类读者设计的网页和为搜索引擎中的机器人爬虫优化的网页同时并存;搭建整个由自主内容填充的博客网,以驱动链接和流量;“算法新闻”,通过网络发布自动报道;当然还有在2016年美国大选和英国脱欧期间声名鹊起的僵尸网(botnet)(Brunton, 2013)。形形色色、具有威胁性的信息垃圾告诉我们,网络的自我书写已经持续一段时间了。今天,随着生成式人工智能开始占据主导地位,可以预计,机器生产的文本将堵塞服务器、通信电缆和数据中心。

内容生产与传播的新乱象为传播学带来了大量富于挑战的课题:比如用户生成内容与有报酬(尽管常常报酬不足)的工人制作的内容的区别;全球底层社会中的隐形工人,他们让人工智能看起来很“聪明”,然而自身却是受技术负面影响最大的边缘化群体;从艺术和文学到新闻和政治,这些领域如何经受AIGC内容产业崛起的考验;是否存在某种“内容资本”,即艺术家、作家和表演者制作内容的能力,并不关乎他们的作品,而是和他们作为创造者的地位息息相关?

解决人工智能和传播的职业问题。乔舒亚·里夫斯(Joshua Reeves)写道:“面对机器冷冰冰的效率,人类似乎只是潜在错误的有机集合。”(Reeves, 2016)OpenAI的研究预测,“80%的美国劳动力可能至少有10%的工作任务会受到LLM的影响”。更糟糕的是,“19%的工作者可能会看到至少50%的工作任务受到影响”(Eloundou et al, 2023)。公共关系专业人士、文案撰稿人、平面设计师、社交媒体营销人员——这些都是本科主修传播学的人的常见职业,也都可能受到快速生成文本和图像的生成式人工智能的威胁。传播学需要研究如何在各种传播工作环境中合乎伦理地使用人工智能工具,也需要通过专业主义的倡导来保护这些职业。

在研究、交流中和课堂上提升人工智能素养。奥特姆·爱德华兹(Autumn Edwards)和查德·爱德华兹(Chad Edwards)等传播教育研究者试图展示人工智能如何改变传播教学的本质(Edwards, Edwards, 2017)。此外,ChatGPT带来的有关考核方式和学术不诚实的大量讨论为传播学学者提供了一个机会,调查和挑战我们对教学和学习的假设。我们还应该借鉴传播学研究中将新媒体技术融入课堂的悠久历史,确定在哪些实践中使用人工智能将有利于促进学生学习和提高教学质量。此外,就像社交媒体和假新闻的兴起要求发展更好的媒介素养一样,ChatGPT等工具要求人工智能素养的培育,传播学在这方面责无旁贷。需要大力开展科学传播,动员人工智能社区中更多的研究人员扮演AI传播者的角色,让更多的公众了解AI技术的能力和局限性。

最终,回到传播学研究本身,是否需要对传播学进行重新定位和重新概念化,以适应日益智能的机器、自主决策系统和智能设备带来的机遇和挑战?从历史上看,传播学通过将创新性突破转化为人类互动和信息交换的媒介来适应新技术。随着计算机的发展,20世纪下半叶出现了以计算机为媒介的交流(CMC)。在CMC研究中,计算机被理解为或多或少中立的讯息传输渠道和人类交互工具。这种形式化忽略了这样一个事实:与以前的技术进步不同,计算机在今天开始占据交流交换参与者的地位。人工智能科学中已经存在不少这方面的证据,所以,我们也许要问:CMC 范式虽然具有不可否认的影响力,但是否存在重大不足,甚至不再站得住脚?相应地,传播学是否需要重新设计基本框架,以应对独特的技术挑战及社会机遇?现在是传播学认真对待这些关键问题的时候了。

尽管人工智能有效地挑战了当前的范式,将其正常功能置于某种危机之中,但构成新范式的内容现在才刚刚开始出现。按照科学史的发展逻辑,这些创新可能需要相当长的一段时间,才能被定型并编入下一次被视为“正常科学”的迭代中。然而,在当前这个初步阶段,我们可以开始确定,随着人工智能技术的进展,下一代传播研究可能会是什么样子。

(胡泳:《超越ChatGPT:大型语言模型的力量与人类交流的困境》,2023年第8期,微信发布系节选,学术引用请务必参考原文)