пятница, 12 апреля 2013 г.

Пост 21. Large Object в Oracle NoSQL Database (LOB).

Доброго времени суток!
В Oracle NoSQL DB версии 2 появилась поддержка Large Object.

Когда то совсем давно я писал, что Oracle NoSQL – хорошая платформа для хранения больших файлов: видео и аудио, например. Но вот как то получилось так, что я не рассказал как это делать.
Во-первых, давайте договоримся о том какой объект считать большим более 1 Мб (так рекомендует Oracle). LOB объект хранится как набор chunk-ов (сами chunk могут быть разного размера).
Во-вторых, давайте посмотрим как записывать LOB в базу. Давайте запишем некоторый файл.
По традиции создадим метод:

    public static void putLob(String sKey, String pathToFile, KVStore myStore)
            throws FileNotFoundException, IOException {
        final Key myKey = ParseKey.ParseKey(sKey);
        File lobFile = new File(pathToFile);
        FileInputStream fis = new FileInputStream(lobFile);
        Version version = myStore.putLOB(myKey, fis, Durability.COMMIT_WRITE_NO_SYNC, 5, TimeUnit.SECONDS);
    }

Прим.: префикс ключа LOB должен заканчиваться на .lob (например: test/image/1.lob).
Прим2.: файлы для тестов удобно генерить командой dd
Например, dd if=/dev/zero of=big.file bs=100M count=20 - сгенерит 2 Гб файл.

Чтение происходит по chunk (порциям). В ходе чтения может поменяться сервер чтения chunk.
Давайте возьмем программу из документации, которая читает lob файл и выводит колличество байт:

    public static int SelectLOB(String sKey, KVStore myStore) throws IOException {
        data = null;
        int byteCount = 0;
        Key myKey = ParseKey.ParseKey(sKey);
        try {
            InputStreamVersion istreamVersion =
                    myStore.getLOB(myKey, Consistency.NONE_REQUIRED, 5, TimeUnit.SECONDS);
            InputStream stream = istreamVersion.getInputStream();
            while (stream.read() != -1) {
                byteCount++;
            }
        } catch (RequestTimeoutException re) {
            System.out.println(re.getTimeoutMs());
        } catch (FaultException fe) {
            System.out.println("Unknown error");
        } catch (NullPointerException ne) {
            System.out.println("Key does not exist");
        } finally {
        }

        return byteCount;
    }


Запускаем чтение, при этом у нас открыта консоль мониторинга (dstat -tdn 1) всех трех машин из шарда.
Смотрим и видим:


Чтение началось с одной машины, а продолжилось с другой. Т.е. при чтении несколькими агентами данных NoSQL страхует нас от "перекоса" в пользу какого-либо из шардов.

Любите технологии, пытливого ума вам, ну а если будут вопросы по Oracle NoSQL - welcome!

Пост 20. Версионность в Oracle NoSQL Database.

В Oracle NoSQL DB есть понятие версии значения. Версия всегда возвращается методу который осуществляет запись в базу KVStore.put() (и ему подобных: putIfpresent, putIfabsent…) и методам, которые получают значение по ключу.

Когда идет операция изменения или удаления бывает очень важно выполнить ее только в том случае, если значение не изменилось. В NoSQL есть следующие методы KVStore.putIfVersion() or KVStore.deleteIfVersion(). В принципе добавить к этому больше нечего – привожу пример кода, который из меняет пару ключ – значение, только в том случае если значение не изменилось (например у нас есть некий счетчик который инкрементально увеличивается при каждом событии, а события могут идти в несколько потоков). Вот здесь метод putIfVersion придется как никогда кстати. Давайте создадим еще один медод, который будет выполнять все вышеописанное.
Метод назовем UpdateIfNotchange – изменять, если не изменилосьJ

public static void UpdateIfNotchange(String sKey, String data, KVStore myStore)
throws FileNotFoundException, IOException {

Key myKey = ParseKey.ParseKey(sKey);
Value myValue = Value.createValue(data.getBytes());
try {
ValueVersion vv = myStore.get(myKey);
Version OldVersion = vv.getVersion();
Version NewVersion = myStore.putIfVersion(myKey, myValue, OldVersion);
if (NewVersion == null) {
System.out.println("Operation Failed! Vesion error");
} else {
System.out.println("Record created in the kvstore.");
}
} catch (NullPointerException np) {
System.out.println("KV pair doesn't exist!");
}
}


Как то так. Если будут вопросы - welcome!

воскресенье, 17 марта 2013 г.


Пост 19. Сериализатор AVRO и Oracle NoSQL Database. Практика

Доброго времени суток!

Как и обещал сейчас мы рассмотрим конкретный пример AVRO сериализации в базе данных Oracle.

Итак:
1)Рассмотрим объект: человек. У него есть атрибуты имя и возраст.
Пример файла схемы данных (допустим он лежит в /home/oracle/nosql/avro/member-schemas_new.avsc)
{
    "type": "record",
    "name": "userProfile",
    "namespace": "my.example",
    "fields": [
        {"name": "name", "type": "string", "default" : ""},
        {"name": "age", "type": "int", "default": -1}
            ]
}

2)Добавьте файл схемы данных в базу данных Oracle NoSQL Database

java -jar /home/cloudera/nosql/kv-2.0.23/lib/kvstore-2.0.23.jar runadmin -port 5000 -host localhost ddl add-schema -file /home/oracle/nosql/avro/member-schemas_new.avsc
3) Напишем код, который работает со схемой данных. 

import Support.OraStore;
import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import javax.sound.sampled.Port;
import oracle.kv.*;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.Schema;

import oracle.kv.avro.AvroCatalog;
import oracle.kv.avro.GenericAvroBinding;

public class a_AvroGenericBind {

    static String port = "5000";
    static String host = "localhost";
    static String store = "kvstore";
    private static Schema personSchema;
    private static GenericRecord member;
    private static String SchemaFile = "/home/oracle/nosql/avro/member-schemas_new.avsc";
    private static String SchemaName = "my.example.userProfile";
    private static KVStore myStore;
    static String UserName = "Alexey";

    public static void main(String[] args) throws IOException {
        RunExample();
    }

    public static void RunExample() throws IOException {
        OraStore orastore = new OraStore(store, host, port);
        KVStore myStore = orastore.getStore();

        final Schema.Parser parser = new Schema.Parser();
        parser.parse(new File(SchemaFile));
        personSchema = parser.getTypes().get(SchemaName);
        final AvroCatalog catalog = myStore.getAvroCatalog();
        final GenericAvroBinding binding = catalog.getGenericBinding(personSchema);
        final Key key = Key.createKey(Arrays.asList("userProfile", UserName));
        final ValueVersion valueVersion = myStore.get(key);
        final int age;
        if (valueVersion != null) {
            member = binding.toObject(valueVersion.getValue());
            System.out.println("INITIAL VALUE:\n" + member.toString());
            final int oldAge = (Integer) member.get("age");
            age = oldAge + 1;
            member.put("age", age);
            myStore.put(key, binding.toValue(member));
        } else {
            System.out.println("NO INITIAL VALUE");
            member = new GenericData.Record(personSchema);
            System.out.println(personSchema.toString());
            member.put("name", UserName);
            member.put("age", 24);
        }
        System.out.println("NEW VALUE");
        myStore.put(key, binding.toValue(member));
        System.out.println(member.toString());
        myStore.close();
    }
}

Если есть запись - идет апдейт части value, если нет - создается новая пара. Как то так.
Если кто то хочет получить виртуалку с примерами, в том числе и этим - пишите на oracle.nosql@gmail.com
Пост 18. Сериализатор AVRO и Oracle NoSQL Database. Теория.

Доброго времени суток!
Как было сказно ранее Oracle NoSQL Database начиная со второй версии позволяет сериализовать value протоколом AVRO. Давайте попробуем это сделать!

Для того что бы использовать AVRO сериализацию в Oracle NoSQL Database необходимо:

1)Добавить схему в хранилище.
2)Идентифицировать ее в приложении
3)Сериализовать/десериализовать values (сериализуются только значения, ключи не сереализуются!). Для выполнения данной функции используются Avro bindings

Код AVRO сериализаторов применяется только при работе с Value. На остальное приложение влияния не оказывается!
Bind могут быть разного типа. Рассмотрим generic (общий).

Работа с сериализатором в коде приложения (с помощью GenericBind)

1) Создать объект парсер и прочитать им файл схемы данных.
final Schema.Parser parser = new Schema.Parser();
parser.parse(new File(SchemaFile));

2) Создать объект типа “схема данных”, прочитать тип данных в схеме:
Schema personSchema = parser.getTypes().get(SchemaName);

3) Создать объект типа AVRO каталог
final AvroCatalog catalog = myStore.getAvroCatalog();

4) На основе этого каталога и полученных ранее типов данных схемы получаем переменные для связки value и AVRO
final GenericAvroBinding binding = catalog.getGenericBinding(personSchema);

5) Создаем запись для работы с bind. Читаем в нее объект.
GenericRecord member = binding.toObject(valueVersion.getValue());

6) Изменения производятся с помощью метода:
member.put("age", age);

7) Чтение атрибута объекта производится следующим образом:
member.get("age").toString()

В следующем посте мы рассмотрим конкретный пример - думаю все будет намного понятнее!

суббота, 16 марта 2013 г.

Пост 17. Сериализатор AVRO.

Доброго времени суток!

Сейчас я хочу рассказать Вам об AVRO сериализации.
Для начала предлагаю договориться о том, что такое сериализация. Вот выдержка из википедии:

Сериализация (в программировании) — процесс перевода какой-либо структуры данных в последовательность битов. Обратной к операции сериализации является операция десериализации(структуризации) — восстановление начального состояния структуры данных из битовой последовательности.

Сериализация это процесс перевода структуры с поток битов. Где же может применяться сериализация/десериализация в NoSQL базах? Если Вы предположили, что при хранении value - вы совершенно правы! Иногда хочется положить в value какую то запись, которая хранила бы в себе более "осознанный" набор байт. Ну например, личная инормация человека. Можно хранить в виде XML или JSON и разбирать их на уровне приложения, тогда мы будем иметь что то вроде: {name:Ivan, surname: Petrov, age:33}... А если записей будет много? Тогда я буду хранить большое колличетво "лишней" информации:

/key1/ : {name: Ivan, surname: Petrov, age:33}
/key2/ : {name:Vasiliy, surname: Smirnov, age:32}
/key3/ : {name: Sergey, surname: Sidorov, age:40}
/key4/ : {name: Alexey, surname: Kuznethov, age:25}

Здорово было бы описать один раз какую то схему, а внутри хранить только указатели или разделители! Ну например вот так:

/key1/ : Ivan, : Petrov, :33
/key2/ : Vasiliy, Smirnov, 32
/key3/ : Sergey, Sidorov, 40
/key4/ : Alexey, Kuznethov,25

Так вот нечто подобное делает AVRO - это очень компактный протокол сериализации. На самом деле есть еще ряд причин использовать AVRO:

1) Возможность изменять схему. Ну тут как говорится ни отнять ни прибавить. Вы можете эволюционировать уже созданную схему данных
2) Быстрая десериализация (доступ к отдельным полям в данных) и компактное хранение (не хранятся теги - что значительно сокращает занимаемое пространство). Это как раз таки в копилку компактности
3) Динамическая типизация.

Итак, небольшой блок теории закончился, давайте посмотрим как это будет на практике в Oracle NoSQL Database!

+ напоминание - кто хочет получить виртуалку c примерами: пишите на oracle.nosql@gmail.com

суббота, 9 февраля 2013 г.


Пост 16. Oracle RDBMS External tables, как способ прочитать данные из NoSQL.

Доброго времени суток!
Продолжаю рассказывать об интеграции Oracle NoSQL Database и Oracle RDBMS.
Сегодня речь пойдет о новой возможности появившейся во второй версии Oracle NoSQL database - возможность чтения NoSQL данных из реляционки.
Осуществляется это через механизм Oracle RDBMS External Tables. Если в двух словах внешняя таблица - это технология, которая позволяет читать файл с файловой системы сервера базы данных. Лежит, например, csv файл на серваке, описываю я его в базе данных (create table my_tab_ext ...), а потом могу прочитать эти даные обыкновенным select (очень удобный и быстрый способ загружать данные, например). В Oracle  11.2g добавили пропроцессор. В этом случае,я так же описываю поток данных, только прежде чем прочитать файл могу провеси над ним некие преобразования. Например лежит у меня заархивированный csv, до того как гнать поток данных  в базу, необходимо его распаковать. Все это возможно с помощью препроцессора (в этом случае препроцессором будет команда unzip).
Ноу-хау NoSQL v2 заключается в создании програмы пропроцессора.
Наверное я Вас окончательно запутал? Вот тут действительно лучше один раз увидеть.
Давайте разберем конкретный пример. Наберитесь терпения и шаг за шагом внимательно прочтите последовательность действий.

1) Подготовительный этап - создание дирректорий, назначение прав в RDBMS

-Создание необходимых директорий
SQL> CREATE DIRECTORY ext_tab AS '/home/oracle/nosql/data/';
SQL> CREATE DIRECTORY nosql_bin_dir AS '/home/oracle/nosql/bin/'; 

-Назначение пользователю Oracle RDBMS необходимых прав:
SQL> GRANT READ, WRITE ON DIRECTORY ext_tab TO nosql;
SQL> GRANT READ, EXECUTE ON DIRECTORY nosql_bin_dir TO nosql;

В файл препроцессора nosql_stream прописываем переменные окружения:
export KVHOME= ...
export CLASSPATH= ...

Cам файл необходимо взять из архива дистрибутива Oracle NoSQL Database.
В моем случае я его переложил в /home/oracle/nosql/bin/nosql_stream

2) Подготовим данные в NoSQL базе, которые мы потом будет считывать из Oracle.
Загрузим данные в формате “/profile/Имя/Фамилия/-/phone/:номер телефона” (несколько строчек).
Если не знаете как это делать смотрите вот здесь

3) Cоздайте свой собственный formatter, который будет преобразовывать входную пару ключ-значение в формат внешней таблицы (string с разделителями, указанными при создании внешней таблицы). Java код ниже:


import java.io.ByteArrayInputStream;
import java.io.DataInput;
import java.io.DataInputStream;
import java.io.IOException;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;

import oracle.kv.Key;
import oracle.kv.KeyValueVersion;
import oracle.kv.KVStore;
import oracle.kv.Value;
import oracle.kv.exttab.Formatter;

public class b_NewFormatter implements Formatter {

    private static final String USER_OBJECT_TYPE = "profile";

    public b_NewFormatter() {
    }

    @Override
    public String toOracleLoaderFormat(final KeyValueVersion kvv,
            final KVStore kvStore) {
        final Key key = kvv.getKey();
        final Value value = kvv.getValue();
        final String sValue = new String(value.getValue());

        final List<String> majorPath = key.getMajorPath();
        final List<String> minorPath = key.getMinorPath();

        final String objectType = majorPath.get(0);

        if (!USER_OBJECT_TYPE.equals(objectType)) {
            throw new IllegalArgumentException("Unknown object type: " + key);
        }

        final String Name = majorPath.get(1);
        final String Surname = majorPath.get(2);
        final String atr = minorPath.get(0);

        final StringBuilder sb = new StringBuilder();
        sb.append(Name).append("|");
        sb.append(Surname).append("|");
        sb.append(atr).append("|");
        sb.append(sValue).append("|");
        return sb.toString();

    }

    private String readString(final DataInput in)
            throws IOException {

        if (!in.readBoolean()) {
            return null;
        }

        return in.readUTF();
    }
}


4) В Oracle RDBMS создаем внешнюю таблицу


CREATE TABLE profile_external (name VARCHAR2(64),
                                surname varCHAR2(64),
                                atr VARCHAR2(64),
                                sValue varchar2(256))
        ORGANIZATION EXTERNAL
            (type oracle_loader
             default directory ext_tab
             access parameters (records delimited by newline
             preprocessor nosql_bin_dir:'nosql_stream'
            fields terminated by '|')
       LOCATION ('profile.dat'))
       PARALLEL;

5) Создаем конфигурационный файл для описания NoSQL базы и Oracle
В моем примере:


[oracle@localhost ~]$ cat /home/oracle/nosql/conf/config2.xml
<config version="1">
  <component name="publish" type="params">
    <!-- Fill in appropriate values for
        oracle.kv.exttab.connection.url and oracle.kv.exttab.connection.user
       -->
    <property name="oracle.kv.exttab.connection.url"
              value="jdbc:oracle:thin:/@//localhost:1521/XE"
              type="STRING"/>
    <property name="oracle.kv.exttab.connection.user"
              value="nosql" type="STRING"/>
    <property name="oracle.kv.exttab.tableName" value="profile_external"
              type="STRING"/>
    <!-- If you use a wallet to access your Oracle Instance, uncomment
         this and fill in a suitable value for the

              oracle.kv.exttab.connection.wallet_location

         property. -->
    <!--
    <property name="oracle.kv.exttab.connection.wallet_location"
              value="PATHNAME TO YOUR WALLET DIRECTORY" type="STRING"/>
    -->
  </component>
  <component name="nosql_stream" type="params">
    <!-- Fill in appropriate values for
        oracle.kv.kvstore and oracle.kv.hosts
       -->
    <property name="oracle.kv.kvstore"
              value="kvstore"
              type="STRING"/>
    <property name="oracle.kv.hosts"
              value="LOCALHOST:5000"
              type="STRING"/>
    <property name="oracle.kv.batchSize"
              value="100"
              type="INT"/>
    <property name="oracle.kv.depth"
              value="PARENT_AND_DESCENDANTS"
              type="STRING"/>
    <property name="oracle.kv.parentKey"
              value="/profile"
              type="STRING"/>
    <property name="oracle.kv.formatterClass"
              value="Answers_part3.b_NewFormatter"
              type="STRING"/>
    <!-- Other properties that are not needed for the cookbook example. -->
    <!--
    <property name="oracle.kv.subRange"
              value="I/login/"
              type="STRING"/>
    <property name="oracle.kv.consistency"
              value="tIme(10 seconds, 10 seconds)"
              type="STRING"/>
    <property name="oracle.kv.keyDelimiter"
              value="|"
              type="STRING"/>
    <property name="oracle.kv.variableSizeBytes"
              value="0"
              type="INT"/>
    <property name="oracle.kv.timeout"
              value="10 seconds"
              type="STRING"/>
    -->
  </component>
</config>


6) Используя утилиту publisher создаем конфигурационный файл на который указывает внешняя таблица

[oracle@localhost ~]$ cat /home/oracle/nosql/sh/publish_config.sh
#!/bin/bash
source ~/.bash_profile
java -classpath $KVHOME/lib/*:$ORACLE_HOME/jdbc/lib/ojdbc6.jar oracle.kv.exttab.Publish -config /home/oracle/nosql/conf/config2.xml -publish

7) Добавьте в конфиг препроцессора (/home/oracle/nosql/bin/nosql_stream) путь к новому Formatter.

[oracle@localhost ~]$ cat /home/oracle/nosql/bin/nosql_stream
#!/bin/bash
export PATH=$PATH
export KVHOME=/home/cloudera/nosql/kv-2.0.23
export CLASSPATH=$KVHOME/lib/kvstore-2.0.23.jar:$KVHOME/lib/kvstore-ee-2.0.23.jar:/home/cloudera/nosql/kv-2.0.23/examples/:/home/oracle/nosql/jar/DeveloperDay.jar
/usr/java/jdk1.7.0_02/bin/java oracle.kv.exttab.Preproc $*


8) Пишем SQL для доступа к данным!

select * from profile_external

Вот вроде бы и все. Если внимательно выполнить шаг за шагом здесь описанное - все получится. Если будут вопросы - не стесняйтесь их задавать!

пятница, 8 февраля 2013 г.


Пост 15. Гибридная архитектура. NoSQL + SQL

Когда я только делал первые шаги по дороге NoSQL и Hadoop, мне всегда хотелось посмотреть на них с точки зрения базы данных Oracle, т.к. я всегда был (и остаюсь) верным членом клуба любителей Oracle RDBMS (как можно не любить лучшую реляционную базу в мире)?
Хотелось оставаться в Oracle RDBMS центральной системе мира (в центре всего Oracle, остальное "сателиты"). Теперь это возможно. Начиная со 2 версии Oracle NoSQL database позволяет читать данные из своей базы как из внешней таблицы. Как писалось в моем самом первом посте не стоит злоупотреблять с NoSQL. Надо использовать их только там где это действительно оправдано. Или в тех "кусках" приложения где он подходит. Если вы начинаете новый проект - возможно не стоит выбирать между NoSQL и SQL,просто комбинируйте!
Давайте рассмотрим пример - есть у нас приложение к "крутым" поиском (куча фильттов, релевантность, предиктовые прогнозы и.т.п.). Крутой поиск может с легкостью взять на себя реляционная база данных, а что делать с хранением файлов? Можно конечно засунуть все в эту базу данных... Но получится достаточно дорогое решение... Да и если колличество пользователей будет измеряться десятками тысяч, это тоже будет достаточно проблемно... Тут как раз кстати пришлось бы гибридное решение:

                                             Рис 1. Возможная архитектура.

Итак, представим, что пользователь формирует запрос (через браузер, например): говорит, что хочет фотографии, сделанную определенным фотографом в определенном месте с рейтингом не ниже определенного, ну и еще много чего. Далее этого запрос отправляется на сервер приложений (шаг 1). Сервер приложений обрабатывает его формирует запрос к реляционной базе(шаг 2), которая отработав его возвращает одну колонку типа varchar2 (шаг 3). Приложение формирует на основе возвращенных данных запрос к NoSQL базе (шаг 4), типа: дай мне набор байт по этому ключу. Приложение знает что этот набор байт картинка. Эту картинку он и возвращает клиенту (шаг 5). Вот как то так. Не бойтесь использовать вместе традиционные технлогии и NoSQL!

Далее я расскажу о возможности добраться до NoSQL данных из базы данных Oracle.