【转】mahout应用kmeans进行文本聚类1之——输入输出分析 - wujay - ITeye博客

`

jayghost

浏览: 428774 次
性别:
来自: 成都

最近访客更多访客>>

liangzai951

南方老牛

wanmbv

casiert123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sunwang810812：万分感谢中！！！！！这么多年终于看到一个可运行可解决的方案！！ ...
POI 后台生成Excel，在前台显示进度
zzb7728317： LZ正解
Spring Jackson AjaxFileUpload 没有执行回调函数的解决办法
sleeper_qp： lz是在源码上修改的么？源码的话你重新编译一遍了么？可 ...
由nutch readseg -dump 中文编码乱码想到的……
shenjian430：请问你改好的程序在写在哪了？
由nutch readseg -dump 中文编码乱码想到的……
yinxusen： It seems to be the bug occur in ...
Mahout Local模式执行example的注意点

【转】mahout应用kmeans进行文本聚类1之——输入输出分析

博客分类：

Mahout

阅读更多

转：http://blog.csdn.net/aidayei/article/details/6674112

输入分析：

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式
1.mahout seqdirectory：将文本文件转成SequenceFile文件，SequenceFile文件是一种二制制存储的key-value键值对，对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java

2.mahout seq2sparse：将SequenceFile转成向量文件，对应的源文件是org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.java

输出分析：即查看结果
mahout seqdumper：将SequenceFile文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump：将向量文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump：分析最后聚类的输出结果，对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java

具体每种命令如何用及参数选择，可以在命令行后面加-h或-help，例如，查看mahout seqdumper -h，这样终端下，就会列出详细的参数选项及说明

最重要的是读读这几个命令的源代码，看看是如何实现的，这样才可以灵活运用到自己的应用中去

分享到：

【转】mahout应用kmeans进行文本聚类2之— ... | 【转】mahout中的kmeans结果分析

2012-05-13 22:46
浏览 1829
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mahout聚类算法: mahout聚类算法的介绍,例如：Canopy，KMeans，Fuzzy-KMeans,Spectral Clustering等参数介绍和适用场景介绍

synthetic_control.data: Mahout的kmeans聚类测试数据

mahout所需jar包: Mahout支持K-Means等聚类算法，在此zip包中已经有打好jar包的资源，不需要用户再打jar包，可以直接使用。

maven_mahout_template-mahout-0.6: kmeans聚类算法基于划分的方法单机版基于学习

基于Spark框架的聚类算法研究: 大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在...该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。

mahout学习: mahout聚类算法学习必备，这只是一个最主要的kmeans算法，希望能帮到你们

mahout安装图文版: mahout分布式数据挖掘工具，实现了在hadoop分布式环境下的各种数据挖掘算法，比如kmeans，聚类等,本文档是mahout的详细安装步骤。

开源力量——数据挖掘原理与实战: 整套大数据课程从hadoop入门开始，由浅入深，内置“hadoop源码解析与企业应用开发实战”，“Hive开发实战”，“Hbase开发实战”，“Spark，mahout，sqoop，storm诸模块开发实战”，“数据挖掘基础。这个系列课程有几...

mahout-demo:mahout 演示展示了它是如何工作的: Mahout 演示欢迎来到驯象师演示。开发这个项目是为了展示 mahout 是如何工作的。... 模糊 KMeans 聚类使用 Maven 构建mvn 全新安装执行java -jar mahout-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar

mahout-distribution-0.5-src.tar.gz ): 分布式数据挖掘工具，实现了在hadoop分布式环境下的各种数据挖掘算法，比如kmeans，聚类等

mapreduce-kmeans:使用MapReduce的朴素K均值聚类: mapreduce-kmeans 代码。请注意，这只是一个示例，而不是可用于生产的代码。如果您要进行正式生产和正常工作的群集，请使用Mahout，Hama或Spark。建造您将需要Java 8来构建该库。您可以简单地使用以下命令...

mahout 0.4版本: Mahout 0.4机器学习开源项目从大量原始数据中解析出相关信息的需求急剧增长，以致于聚类、协同过滤和分类等机器学习技术的需求也是呈稳定增长势态。

Global site tag (gtag.js) - Google Analytics