WordCount

.java
1. Перед запуском примера необходимо создать места ввода и вывода в формате HDFS. Используйте следующие команды для создания каталога ввода/пользователя/cloudera/wordcount/ввода в HDFS:
$ sudo su hdfs
$ hadoop fs -mkdir /user/cloudera
$ hadoop fs -chown cloudera /user/cloudera
$ exit
$ sudo su cloudera
$ hadoop fs -mkdir /user/cloudera/wordcount /user/cloudera/wordcount/input
2. Создайте примеры текстовых файлов для использования в качестве входных данных и переместите их вкаталог/user/cloudera/wordcount/input в HDFS. Вы можете использовать любые файлы по своему выбору; для удобства следующие команды оболочки создают несколько небольших входных файлов для иллюстрации. Файл Makefile также содержит большинство следующих команд.
$ echo "Hadoop is an elephant" > file0
$ echo "Hadoop is as yellow as can be" > file1
$ echo "Oh what a yellow fellow is Hadoop" > file2
$ hadoop fs -put file* /user/cloudera/wordcount/input
3. Скомпилируйте класс WordCount.
Для компиляции в пакетную(pakage) установку CDH:
$ mkdir -p build
$ javac -cp /usr/lib/hadoop/*:/usr/lib/hadoop-mapreduce/* WordCount.java -d build -Xlint
Для компиляции в посылке(parcels) установки CDH:
$ mkdir -p build
$ javac -cp /opt/cloudera/parcels/CDH/lib/hadoop/*:/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/* \
WordCount.java -d build -Xlint
4. Создайте файл JAR для приложения WordCount.
$ jar -cvf wordcount.jar -C build/ .
5. Запустите приложение WordCount из файла JAR, передав пути к входным и выходным каталогам в формате HDFS.
$ hadoop jar wordcount.jar org.myorg.WordCount /user/cloudera/wordcount/input /user/cloudera/wordcount/output
Когда вы смотрите на вывод, все слова перечислены в алфавитном порядке UTF-8 (сначала заглавные слова). Количество вхождений из всех входных файлов было уменьшено до одной суммы для каждого слова.
$ hadoop fs -cat /user/cloudera/wordcount/output/*
Hadoop 3
Oh 1
a 1
an 1
as 2
be 1
can 1
elephant 1
fellow 1
is 3
what 1
yellow 2
6. Если вы хотите запустить образец снова, сначала вам нужно удалить выходной каталог. Используйте следующую команду.
hadoop fs -rm -r /user/cloudera/wordcount/output
2 из 4

Комментарии (0)

Показать комментарий
Скрыть комментарий
Для добавления комментариев необходимо авторизоваться
Файлы
Флибустьеры
Грабь корабли! Побеждай монстров! Создавай уникаль...
Тема: Светлая | Тёмная
Версия: Mobile | Lite | Touch | Доступно в Google Play