NLP的建模流程一般包括下面八个步骤:
1. 文本预处理
– 移除html标签
– 转化为标准的ASCII字符
– 移除特殊字符
– Stemming:转化为原型
– Lemmatization:词形还原
– 移除终止词
2. 文本解析:了解语言的句法和结构
– Parts of Speech (POS) Tagging-词性标注
识别每个词是名词还是动词,形容词等等。
– Shallow Parsing or Chunking-浅解析或分块
识别名词短语,动词短语,形容词短语等等。
– Constituency Parsing-成分解析
识别句子的组成,比如句子 s 由名词短语和动词短语构成。
– Dependency Parsing-依存分析
识别token之间的依赖关系,比如 fox → brown 的标签是 amod,表示修饰名词的形容词
3. 探索性数据分析
– 文字云,柱形图,热图等
– word2vec
4. 文本表示
– Tokenization
– Text to sequence
– Padding sequences
5. 特征工程
– 构造特征
6. 建模
– 双向LSTM,注意力机制,CNNs等
7. 评估模型
8. 部署