论文

基于高频词和AUC优化的随机森林文本分类模型 

论文题目 基于高频词和AUC优化的随机森林文本分类模型
论文作者 孙源,胡志军
发表年份 2020
摘要  为了针对互联网上的新闻类文档实现对其快速精准地分类,提出一种根据词频先初步降维再进行优化建模的分类思路.先基于高频词汇初步降维,再对降维后的数据以模型AUC值达到最大为目标,采取向后消元的方法构建随机森林分类模型,实现对文档的分类.通过实证分析,发现该方法能够有效地实现对文本的分类,同时减少了建模的运算量,通过AUC值的优化,比单纯依据词频降维构建的随机森林模型分类效果更好。 
论文明细 孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型.数学的实践与认识.2020.50(1):.