中英文詞頻統(tǒng)計(jì)軟件,可以統(tǒng)計(jì)一批Word文檔(.doc;.docx)、網(wǎng)頁(yè)文件(.htm;.html)或文本文件(.txt)中所有中英文單詞出現(xiàn)的總次數(shù),或分別在各文件中出現(xiàn)的頻率。統(tǒng)計(jì)結(jié)果可以按出現(xiàn)次數(shù)排序輸出為Excel表格或Word表格文檔。
全量統(tǒng)計(jì)方式,即統(tǒng)計(jì)給定多個(gè)文檔中的所有詞匯的出現(xiàn)詞頻;
指定統(tǒng)計(jì)方式,只統(tǒng)計(jì)指定的某些特殊詞匯的出現(xiàn)詞頻。
可以選擇只統(tǒng)中文詞匯、英語(yǔ)詞匯或標(biāo)點(diǎn)符號(hào)。
問:詞頻分析結(jié)果是什么樣的?比如我想把一篇文檔進(jìn)行分詞,統(tǒng)計(jì)出高頻詞匯,這樣能做到嗎?分詞是單個(gè)字,還是一個(gè)詞語(yǔ)?
答:把一篇文檔進(jìn)行分詞,統(tǒng)計(jì)出高頻詞匯,這就是這個(gè)軟件的功能。分詞是按語(yǔ)言學(xué)上的詞語(yǔ),比如“中化人民共和國(guó)”算一個(gè)詞語(yǔ)。而且,對(duì)于一些新詞,或特殊定義的詞匯,如“新浪微博”這類新產(chǎn)生的詞匯,軟件提供了“自定義詞匯表”功能,您只要把它添加到自定義的詞匯表中,就可以作為一個(gè)詞來(lái)進(jìn)行統(tǒng)計(jì)。