自然语言处理

语言处理方式

展开5个同名词条

0有用+1

本词条由中国科学院大学计算机科学与技术学院、中国科学院沈阳计算技术研究所参与编辑并审核，经科普中国·科学百科认证。

自然语言处理( Natural Language Processing, NLP)是人工智能领域的重要研究方向, 融合了语言学、计算机科学、机器学习、数学、认知心理学等多个学科领域的知识，是一门集计算机科学、人工智能和语言学于一体的交叉学科，它包含自然语言理解和自然语言生成两个主要方面, 研究内容包括字、词、短语、句子、段落和篇章等多种层次，是机器语言和人类语言之间沟通的桥梁。它旨在使机器理解、解释并生成人类语言，实现人机之间有效沟通，使计算机能够执行语言翻译、情感分析、文本摘要等任务。

自然语言认知和理解是让计算机把输入的语言变成有意义的符号和关系，然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

自然语言处理的任务包括研制表示语言能力和语言应用的模型, 建立计算框架来实现并完善语言模型，根据语言模型设计各种实用系统及探讨这些系统的评测技术。^[1]

中文名: 自然语言处理
外文名: natural language processing

适用领域: 计算机、人工智能
缩写: NLP

发展历史

播报

编辑

自然语言处理的历史可以追溯到20世纪50年代，随着计算机科学的发展而逐渐形成。

早期研究

早期自然语言处理研究（1950s-1980s）：

最早的自然语言理解方面的研究工作是机器翻译^[2]。1949年，美国人威弗首先提出了机器翻译设计方案^[3]。1954年的乔治城-IBM实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题^[4]，不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。

1960年代发展特别成功的自然语言处理系统包括SHRDLU——一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆设计的ELIZA——一个几乎未运用人类思想和感情的消息，有时候却能呈现令人讶异的类似人之间的交互。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？”

早期的自然语言系统是基于规则来建立词汇、句法语义分析、问答、聊天和机器翻译系统。它的优点是规则可以利用人类的内省知识，不依赖数据，可以快速起步；问题是覆盖面不足，像个玩具系统，规则管理和可扩展一直没有解决^[5]。

统计自然语言处理

统计自然语言处理(1990s-2000s)：随着互联网的兴起，大量文本数据的出现推动了统计学习方法在自然语言处理中的应用。基于统计的机器学习(ML)开始流行，很多自然语言处理开始用机器学习算法，例如决策树，是硬性的、“如果-则”规则组成的系统，类似当时既有的人工定的规则。统计自然语言处理的主要思路是利用带标注的数据，基于人工定义的特征建立机器学习系统，并利用数据经过学习确定机器学习系统的参数。运行时利用这些学习得到的参数，对输入数据进行解码，得到输出。机器翻译、搜索引擎都是利用统计方法获得了成功。

神经网络自然语言处理

神经网络自然语言处理(2010s至2024年)：

深度学习开始在语音和图像发挥威力。近来的研究更加聚焦于非监督式学习和半监督学习的算法。这种算法，能够从没有人工注解理想答案的资料里学习。

2011年以来，深度学习技巧纷纷出炉在自然语言处理方面获得最尖端的成果，例如语言模型、语法分析等等。2016年，AlphaGo打败李世石；2017年Transformer模型诞生；2018年BERT模型推出，提出了预训练的方法。

自2014年以来，人们尝试直接通过深度学习建模，进行端对端的训练。目前已在机器翻译、问答、阅读理解等领域取得了进展，出现了深度学习的热潮^[5]。

2022年底，随着ChatGPT等大语言模型的推出，自然语言处理的重点从自然语言理解转向了自然语言生成。

基本技术

播报

编辑

文本预处理

在自然语言处理中，文本预处理是一个重要的步骤，包括文本清洗（去除HTML标签、特殊字符等）、分词（将文本划分为独立的词汇单元）、词性标注（确定每个词汇的词性）等。

词嵌入

词嵌入是将词汇转换为计算机可理解的向量表示的过程。常见的词嵌入技术包括Word2Vec、GloVe等。这些技术可以捕捉词汇之间的语义关系，使计算机能够理解词汇的深层含义。

句法分析

句法分析是对用户输入的自然语言进行词汇短语的分析，目的是识别句子的句法结构，以实现自动句法分析的过程，包括短语结构分析（将句子划分为短语结构）和依存关系分析（确定词汇之间的依存关系）。

语义分析

自然语言处理技术的核心为语义分析。语义分析是理解句子或文本深层含义的过程，这包括实体识别（识别文本中的实体，如人名、地名等）、关系抽取（提取实体之间的关系）、情感分析（判断文本的情感倾向）等。

语义分析涉及单词、词组、句子、段落所包含的意义，目的是用句子的语义结构来表示语言的结构。

文本生成

文本生成是指接收结构化表示的语义，以输出符合语法的、流畅的、与输入语义一致的自然语言文本，这自然语言处理中的另一个重要任务，它可以根据给定的输入（如关键词、句子结构等）生成新的文本。这可以用于各种应用，如机器翻译、文本摘要、对话系统等。

早期基于规则的自然语言生成技术，在每个子任务上均采用了不同的语言学规则或领域知识，实现了从输入语义到输出文本的转换。

主要方法

播报

编辑

自然语言处理技术的发展主要依赖于多种方法和技术，这些技术帮助计算机更好地理解和处理自然语言。

统计学方法

早期自然语言处理研究中常用的方法，通过统计文本中词汇和语法结构的出现频率，来推断文本的含义和上下文关系。这种方法在文本分类、情感分析等领域有广泛应用。

规则引擎方法

基于语言学规则的自然语言处理方法，通过预定义的规则集合来解析和生成自然语言。这种方法在句法分析、命名实体识别等任务中表现良好，但需要大量的语言学知识和规则设计。

机器学习方法

随着机器学习技术的发展，自然语言处理开始广泛采用基于机器学习的方法。这些方法通过训练模型来学习文本中的模式和规律，从而实现对自然语言的理解和处理。常见的机器学习方法包括支持向量机（SVM）、朴素贝叶斯（Naive Bayes）、决策树等。

深度学习方法

近年来，深度学习技术在自然语言处理领域取得了巨大的成功。深度学习方法通过构建深度神经网络模型，能够自动学习文本中的深层特征表示，从而实现对自然语言更精确的理解和处理。常见的深度学习方法包括循环神经网络（RNN）、长短时记忆网络（LSTM）、Transformer等。

应用

播报

编辑

自然语言处理技术在许多领域都有广泛的应用

机器翻译

机器翻译研究在过去五十多年的曲折发展经历中，无论是它给人们带来的希望还是失望都必须客观地看到，机器翻译作为一个科学问题在被学术界不断深入研究。通过自然语言处理技术，计算机可以自动将一种语言的文本转换为另一种语言的文本。

信息检索

信息检索也称情报检索，就是利用计算机系统从文本中提取出结构化信息，如实体、关系、事件等，从大量文档中找到符合用户需要的相关信息。

问答系统

通过理解用户的问题并搜索相关的文本资源，计算机可以利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术，以及人机交互技术等相结合，构成人机对话系统。

信息抽取

从指定文档中或者海量文中抽取出提取出用户感兴趣的信息，如实体、关系、事件等，以便进行进一步的分析和处理。

文档分类

文档分类也叫文本自动分类或信息分类，其目的就是利用计算机系统对大量的文档按照一定的分类标准（例如，根据文本的内容和特征或者根据主题划分等）实现自动归类。

情感分析

通过分析文本中的情感词汇和句子结构，计算机可以判断文本的情感倾向，如积极、消极或中性。主要应用于图书管理、情报获取、网络内容监控等。

领域影响

播报

编辑

自然语言作为人类社会信息的载体，自然语言处理不只是计算机科学的专属。在其他领域，同样存在着海量的文本，自然语言处理也成为了重要支持技术：

在社会科学领域，关系网络挖掘、社交媒体计算、人文计算等，国内一些著名的大学实验室，如清华的自然语言处理与社会人文计算实验室、哈工大的社会计算与信息检索研究中心均冠有社会计算的关键词。

在金融领域，单A股就有300多家上市公司，这些公司每年都有年报、半年报、一季报、三季报等等，加上瞬息万变的金融新闻，金融界的文本数量是海量的。

在法律领域，中国裁判文书网上就有几千万公开的裁判文书，此外还有丰富的流程数据、文献数据、法律条文等，且文本相对规范。

在医疗健康领域，除了影像信息，还有大量的体检数据、临床数据、诊断报告等，同样也是自然语言处理大展身手的地方。

在教育领域，智能阅卷、机器阅读理解等都可以运用自然语言处理技术。

未来展望

播报

编辑

长期以来, 自然语言处理任务主要采用监督学习范式, 即针对特定任务, 给定监督数据, 设计统计学习模型, 通过最小化损失函数来学习模型参数, 并在新数据上进行模型推断。随着深度神经网络的兴起, 传统的统计机器学习模型逐渐被神经网络模型所替代, 但仍然遵循监督学习的范式^[11]。

2020 年 5 月Open AI 发布的首个千亿参数 GPT-3 (generative pre-trained transformer 3) 模型初步展示了生成式模型的强大功能, 其具备流畅的文本生成能力, 能够撰写新闻稿, 模仿人类叙事, 创作诗歌, 初步验证了通过海量数据和大量参数训练出来的大模型能够迁移到其他类型的任务。然而, 直到 ChatGPT 的出现, 学术界才意识到大模型对于传统自然语言处理任务范式的潜在颠覆性^[11]。

ChatGPT 等大型语言模型, 对文本分类、结构分析、语义分析、信息提取、知识图谱、情感计算、文本生成、自动文摘、机器翻译、对话系统、信息检索和自动问答各种核心的自然语言理解和生成任务均产生了巨大的冲击和影响。ChatGPT 在大规模预训练过程中习得广泛的语言和世界知识, 处理自然语言任务时不仅能在少样本, 零样本场景下接近乃至达到传统监督学习方法的性能指标, 且具有较强的领域泛化性。这将激励, 促进研究者们打破固有思维方式的樊篱, 学习、借鉴 ChatGPT 等大模型的特点和优势, 对自然语言处理的主流研究范式进行变革, 进一步提升自然语言核心任务的能力, 例如以生成式框架完成各种开放域自然语言处理任务并减少级联损失, 通过多任务学习促进知识共享, 通过扩展上下文窗口提升理解能力, 通过指令遵循和上下文学习从大模型有效提取信息, 通过思维链提升问题拆解和推理能力,通过基于人类反馈的强化学习实现和人类意图对齐等^[11]。

长期以来, 自然语言处理分为自然语言理解和自然语言生成两个领域, 每个领域各有多种核心任务, 每种任务又可根据任务形式、目标、数据等进一步细分, 今后在各种应用任务的主流架构和范式逐渐统一的情况下, 有望进一步得到整合, 以增强自然语言处理模型的通用性, 减少重复性工作。另一方面, 基于大模型的强大基座能力, 针对具体任务进行按需适配、数据增强、个性化、拟人交互, 可进一步拓展自然语言处理的应用场景, 为各行各业提供更好的服务^[11]。

新手上路

成长任务编辑入门编辑规则本人编辑

我有疑问

内容质疑在线客服官方贴吧意见反馈

投诉建议

举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封