СЕМАНТИЧЕСКАЯ ПЛАТФОРМА DATAMONITOR

НАЗНАЧЕНИЕ

DataMonitor - продукт класса семантический BI/OLAP, который использует алгоритмы Big Data и Machine Learning при обработке информации, как структурированной (большие таблицы), так и неструктурированной (тексты).

DataMonitor позволяет создавать многомерные кубы данных (OLAP-кубы) и настраивать аналитические панели визуализации для обеспечения возможности решения различных задач по анализу данных.

МОДУЛИ DATAMONITOR: ОТРАСЛИ

ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ

Система обеспечивает выполнение следующих функций (задач):

создание и редактирование OLAP кубов;
ETL-процессинг входящих данных;
составление сложных аналитических алгоритмов фильтрации, сортировки, преобразования данных – 80+ встроенных функций. Имеется возможность подключать внешние функции и сервисы обработки данных через RestAPI.
создание и редактирование визуальных представ лений данных – виджетов (различные типы диаграмм, GIS, графы, таблицы, тексты и т.п.).

НЕСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ - ТЕКСТЫ

К стандартному функционалу OLAP/BI добавлены сервисы семантического (смыслового) анализа документов:

Семантической похожесть документов, их фракт (частей) – в этом случае весь документ является «ключевым словом» для семантического поисковика;
Мультиязычная семантическая похожесть предложений документов – дает возможность поиска документов на разных языках;
Семантическая похожесть терминов и групп терминов – дает возможность автоматически создавать тематические словники для расширения поисковых запросов по документам. Эти наборы семантически похожих терминов используются также для прецизионной кластеризации документов;
Основанный на нейронной сети иерархический многоуровневый классификатор документов, содержащий десятки тысяч классификационных «листьев» генерирует дополнительную метаинформацию для обработки в BI/OLAP – класкоды (документ может с вычисленной вероятностью соотносится к нескольким «листьям» классификатора);
Лингвистический процессор, базирующийся на нейронной сети, выделяющий в тексте типовые объекты (задача Name Entity Recognition – NER) по заданным аналитиком примерам-шаблонам (точность выделения объектов по шкале F1 – не ниже 90%);
Основанный на алгоритмах Machine Learning модуль, генерирующий реферат – гладкий текст из 5-10 предложений (длина реферата может быть задана), описывающий краткое содержание тематического набора (кластера) текстовых документов.

Используя модуль «Процессинг данных и информации» пользователь может подключать к платформе необходимые сервисы семантического анализа/разбора документов для генерации дополнительной метаинформации с целью использования ее в аналитических панелях (Dashboards).

ПОДКЛЮЧЕНИЕ ВНЕШНИХ ИСТОЧНИКОВ ДАННЫХ

DataMonitor напрямую через соответствующие драйверы потребляет данные из различных источников: PostgreSQL, MySQL, MS SQL Server, MongoDB, Excel, xml, json, csv, google sheets и др. Имеется возможность перегружать внешние данные во внутреннее быстрое хранилище, позволяющее работать в сегменте Big Data. Это дает заказчику возможность отказаться от предобработки на внешних серверах (Hadoop, Storm) «сырых» данных.

Система предоставляет возможность подключения реляционных баз данных, а также настройки и последующей загрузки данных из структурированных текстовых файлов

СОЗДАНИЕ И РЕДАКТИРОВАНИЕ OLAP КУБОВ

В рамках задачи создания и редактирования OLAP кубов, Система обеспечивает:

Формирование OLAP куба по множеству таблиц и отдельных колонок.
Объединение таблиц по внешним ключам (foreign key)
Формирование наборов срезов по данным, манипуляцию и трансформацию данных включая:
- выполнение функций агрегации данных;
- конкатенации и манипуляции строковыми значениями
- выполнение различных математических операторов над данными
- трансформация типов данных (число-строка, строка-дата и т.д.)
- выполнение условных и логических выражений выражений – IF, AND, OR, NOT.

СОЗДАНИЕ И РЕДАКТИРОВАНИЕ ВИЗУАЛЬНЫХ ПРЕДСТАВЛЕНИЙ ДАННЫХ

Визуальные представления данных позволяют сформировать на экране компьютера интегрированные представления множества информационных блоков.

Система позволяет встраивать отдельные информационные блоки в сторонние сайты и web приложения.

БОЛЬШИЕ ДАННЫЕ (BIGDATA) ─ ГРАФИЧЕСКИЕ УСКОРИТЕЛИ ВЫЧИСЛЕНИЙ

Платформа позволяет проводить анализ больших массивов данных, используя мощь параллельных вычислений GPU. Это ускоряет анализ массивов данных в 70-1000 раз в зависимости от типа самих данных. Использование GPU означает работу 4000+ ядер на одно устройство против 8-32 ядер в случае использования CPU. Система оптимизирует обмен данными между видеокартой и SSD-диском без участия CPU: загрузка данных в GPU идет напрямую с SSD-диска.

Использование GPU позволяет обрабатывать миллиарды анализируемых показателей с практически мгновенным выводом результатов анализа в графическом виде.

ТРЕБОВАНИЯ

Минимальные системные требования:

процессор Intel Core i5;
оперативная память - 8 Гб;
накопители на жестких магнитных дисках объемом 300 Гб.

Для обеспечения функционирования панели администратора должны использоваться следующие программные средства:

операционная система Ubuntu, версии не ниже 16.04;
o СУБД PostgreSQL, версия не ниже 9.6 – для государственных заказчиков, требующих сертификацию по требованиям ФСТЭК.

Для обеспечения взаимодействия с Системой должен быть установлен браузер:

Mozilla Firefox;
Google Chrome.

СТОИМОСТЬ ПО Datamonitor

Стоимость продукта определяется на основе выбранного функционала, конфигурации программно-аппаратного решения и выполняемых задач.
Стоимость рассчитывается менеджером компании и предоставляется клиенту по запросу.

Семантический OLAP/BI - Датамонитор