loading

NLP: Natural Language Processing

任务类型

类别到序列:文本生成, 图像描述生成

序列到类别:文本挖掘, 文本分类, 情感分析

同步的序列到序列:中文分词, 词性标注, 实体识别

异步的序列到序列:机器翻译, 自动摘要, 问答系统

NLP任务的基本流程

Classic NLP: text file -> language detection -> pre-processing -> modeling -> output

DL NLP: text file -> pre-processing -> Dense enbedding -> Hidden layer -> output units -> output

1.预处理

预处理包括:收集语料库、文本清洗、分词、去掉停用词(可选)、标准化和特征提取等。

语料库(raw data)- 文本清洗(cleaning,如无用符号,特殊结构等)-分词(segmentation)-标准化(Normalization,如词汇表,句段)-特征提取(feature extraction, 如TF-IDF,word2vec)-建模(modeling)

2.文本清洗

3.分词

基于词典:正向,逆向,双向最大匹配

基于规则:语法结构

基于统计:HMM隐马尔可夫模型

基于机器学习:CRF条件随机场

问题:歧义,粒度,新词

4.标准化

word2vec,BERT

5.特征提取

统计,Embedding

常用文本表示方式

离散式

分布式

常用文本表示方式

离散式

分布式

DATE: 26/07/2020

LOCATION: Mars

TAGS: Tech