博客
关于我
Java 实现去除中文文本的停用词
阅读量:411 次
发布时间:2019-03-05

本文共 1597 字,大约阅读时间需要 5 分钟。

1. 整体思路

第一步:先将中文文本进行分词,采用HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用词表,去除分好的词中的停用词。

2. 中文文本分词环境配置

使用HanLP-汉语言处理包进行中文文本分词。 HanLP的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。 官方环境配置网址如下:

3. 下载停用词表

停用词表可以去百度搜索,这是我搜到的一个: 停用词.txt:链接:提取码:8uq1

4. 去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。 停用词.txt文件路径请修改为自己的本地路径。
public class FormatUtil {    /**      * 去除停用词      * @param oldString:原中文文本      * @return 去除停用词之后的中文文本      * @throws IOException      */    public static String RemovalOfStopWords(String oldString) throws IOException {        String newString = oldString;        List
termList = HanLP.segment(newString); System.out.println(termList); String filePath = "F:\\主文件夹\\知识图谱\\工具资源\\停用词.txt"; File file = new File(filePath); BufferedReader bufferedReader = new BufferedReader(new FileReader(file)); List
stopWords = new ArrayList<>(); String temp = null; while ((temp = bufferedReader.readLine()) != null) { stopWords.add(temp.trim()); } List
termStringList = new ArrayList<>(); for (Term term : termList) { termStringList.add(term.word); } termStringList.removeAll(stopWords); newString = ""; for (String string : termStringList) { newString += string; } return newString; }}

5. 工具类测试

5.1 测试代码

```javapublic class test { public static void main(String args[]) { try { System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。")); } catch (IOException e) { e.printStackTrace(); } }}```

5.2 测试结果

转载地址:http://epkzz.baihongyu.com/

你可能感兴趣的文章
Objective-C实现感知哈希算法(附完整源码)
查看>>
Objective-C实现截留雨水问题的动态编程方法算法(附完整源码)
查看>>
Objective-C实现截留雨水问题的蛮力方法的算法(附完整源码)
查看>>
Objective-C实现打印10000以内的完数(附完整源码)
查看>>
Objective-C实现打印1000以内的水仙花数(附完整源码)
查看>>
Objective-C实现打印九九乘法表(附完整源码)
查看>>
Objective-C实现打印从 0 到 n 的卡特兰数算法(附完整源码)
查看>>
Objective-C实现打印函数调用堆栈( 附完整源码)
查看>>
Objective-C实现打印月份的日历算法(附完整源码)
查看>>
Objective-C实现打印杨辉三角(附完整源码)
查看>>
Objective-C实现打印某年的历法日期(附完整源码)
查看>>
Objective-C实现打印魔方矩阵(附完整源码)
查看>>
Objective-C实现打格点算法(附完整源码)
查看>>
Objective-C实现批量修改文件类型算法(附完整源码)
查看>>
Objective-C实现找出一个数的质因数primeFactors算法(附完整源码)
查看>>
Objective-C实现找出三角形从上到下的最大路径算法(附完整源码)
查看>>
Objective-C实现找出买卖股票的最大利润算法(附完整源码)
查看>>
Objective-C实现找出买卖股票的最大利润算法(附完整源码)
查看>>
Objective-C实现找出二维数组中的鞍点(附完整源码)
查看>>
Objective-C实现找出由两个 3 位数字的乘积构成的最大回文数的算法 (附完整源码)
查看>>