NLP: Natural Language Processing

任务类型

类别到序列：文本生成，图像描述生成

序列到类别：文本挖掘，文本分类，情感分析

同步的序列到序列：中文分词，词性标注，实体识别

异步的序列到序列：机器翻译，自动摘要，问答系统

Classic NLP: text file -> language detection -> pre-processing -> modeling -> output

DL NLP: text file -> pre-processing -> Dense enbedding -> Hidden layer -> output units -> output

预处理包括：收集语料库、文本清洗、分词、去掉停用词（可选）、标准化和特征提取等。

语料库（raw data）- 文本清洗（cleaning，如无用符号，特殊结构等）-分词（segmentation）-标准化（Normalization，如词汇表，句段）-特征提取（feature extraction，如TF-IDF，word2vec）-建模（modeling）

基于词典：正向，逆向，双向最大匹配

基于规则：语法结构

基于统计：HMM隐马尔可夫模型

基于机器学习：CRF条件随机场

问题：歧义，粒度，新词

word2vec，BERT

统计，Embedding

离散式

分布式

离散式

分布式

DATE: 26/07/2020

LOCATION: Mars

TAGS: Tech