Contents

Basic Text Analysis with Command Line Tools in Linux | William J Turkel

这篇文章非常清楚的介绍了如何使用Linux的命令行工具进行文本分析,统计一本书中每个词出现的频率。

使用了如下的命令:

  1. wget
  2. file
  3. head
  4. tail
  5. cp
  6. ls
  7. less
  8. sed
  9. wc
  10. grep
  11. tr
  12. sort
  13. uniq

对于Windows用户,可以通过cygwin在Windows下安装linux的这些强大的命令。

 

Contents