1.文本预处理
-移除html标签
-转化为标准的ASCII字符
-移除特殊字符
-Stemming:转化为原型
-Lemmatization:词形还原
-移除终止词
2.文本解析:了解语言的句法和结构
-PartsofSpeech(POS)Tagging-词性标注
识别每个词是名词还是动词,形容词等等。
-ShallowParsingorChunking-浅解析或分块
识别名词短语,动词短语,形容词短语等等。
-ConstituencyParsing-成分解析
识别句子的组成,比如句子s由名词短语和动词短语构成。
-DependencyParsing-依存分析
识别token之间的依赖关系,比如fox→brown的标签是amod,表示修饰名词的形容词
3.探索性数据分析
-文字云,柱形图,热图等
-word2vec
4.文本表示
-Tokenization
-Texttosequence
-Paddingsequences
5.特征工程
-构造特征
6.建模
-双向LSTM,注意力机制,CNNs等
7.评估模型
8.部署