类别到序列:文本生成, 图像描述生成
序列到类别:文本挖掘, 文本分类, 情感分析
同步的序列到序列:中文分词, 词性标注, 实体识别
异步的序列到序列:机器翻译, 自动摘要, 问答系统
Classic NLP: text file -> language detection -> pre-processing -> modeling -> output
DL NLP: text file -> pre-processing -> Dense enbedding -> Hidden layer -> output units -> output
预处理包括:收集语料库、文本清洗、分词、去掉停用词(可选)、标准化和特征提取等。
语料库(raw data)- 文本清洗(cleaning,如无用符号,特殊结构等)-分词(segmentation)-标准化(Normalization,如词汇表,句段)-特征提取(feature extraction, 如TF-IDF,word2vec)-建模(modeling)
基于词典:正向,逆向,双向最大匹配
基于规则:语法结构
基于统计:HMM隐马尔可夫模型
基于机器学习:CRF条件随机场
问题:歧义,粒度,新词
word2vec,BERT
统计,Embedding
离散式
分布式
离散式
分布式
DATE: 26/07/2020
LOCATION: Mars
TAGS: Tech