СЕМАНТИЧЕСКАЯ ПЛАТФОРМА DATAMONITOR
НАЗНАЧЕНИЕ
DataMonitor - продукт класса семантический BI/OLAP, который использует алгоритмы Big Data и Machine Learning при обработке информации, как структурированной (большие таблицы), так и неструктурированной (тексты).
DataMonitor позволяет создавать многомерные кубы данных (OLAP-кубы) и настраивать аналитические панели визуализации для обеспечения возможности решения различных задач по анализу данных.
МОДУЛИ DATAMONITOR: ОТРАСЛИ
ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ
Система обеспечивает выполнение следующих функций (задач):
- создание и редактирование OLAP кубов;
- ETL-процессинг входящих данных;
- составление сложных аналитических алгоритмов фильтрации, сортировки, преобразования данных – 80+ встроенных функций. Имеется возможность подключать внешние функции и сервисы обработки данных через RestAPI.
- создание и редактирование визуальных представ лений данных – виджетов (различные типы диаграмм, GIS, графы, таблицы, тексты и т.п.).
НЕСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ - ТЕКСТЫ
К стандартному функционалу OLAP/BI добавлены сервисы семантического (смыслового) анализа документов:
- Семантической похожесть документов, их фракт (частей) – в этом случае весь документ является «ключевым словом» для семантического поисковика;
- Мультиязычная семантическая похожесть предложений документов – дает возможность поиска документов на разных языках;
- Семантическая похожесть терминов и групп терминов – дает возможность автоматически создавать тематические словники для расширения поисковых запросов по документам. Эти наборы семантически похожих терминов используются также для прецизионной кластеризации документов;
- Основанный на нейронной сети иерархический многоуровневый классификатор документов, содержащий десятки тысяч классификационных «листьев» генерирует дополнительную метаинформацию для обработки в BI/OLAP – класкоды (документ может с вычисленной вероятностью соотносится к нескольким «листьям» классификатора);
- Лингвистический процессор, базирующийся на нейронной сети, выделяющий в тексте типовые объекты (задача Name Entity Recognition – NER) по заданным аналитиком примерам-шаблонам (точность выделения объектов по шкале F1 – не ниже 90%);
- Основанный на алгоритмах Machine Learning модуль, генерирующий реферат – гладкий текст из 5-10 предложений (длина реферата может быть задана), описывающий краткое содержание тематического набора (кластера) текстовых документов.
Используя модуль «Процессинг данных и информации» пользователь может подключать к платформе необходимые сервисы семантического анализа/разбора документов для генерации дополнительной метаинформации с целью использования ее в аналитических панелях (Dashboards).
ПОДКЛЮЧЕНИЕ ВНЕШНИХ ИСТОЧНИКОВ ДАННЫХ
DataMonitor напрямую через соответствующие драйверы потребляет данные из различных источников: PostgreSQL, MySQL, MS SQL Server, MongoDB, Excel, xml, json, csv, google sheets и др. Имеется возможность перегружать внешние данные во внутреннее быстрое хранилище, позволяющее работать в сегменте Big Data. Это дает заказчику возможность отказаться от предобработки на внешних серверах (Hadoop, Storm) «сырых» данных.
Система предоставляет возможность подключения реляционных баз данных, а также настройки и последующей загрузки данных из структурированных текстовых файлов
СОЗДАНИЕ И РЕДАКТИРОВАНИЕ OLAP КУБОВ
В рамках задачи создания и редактирования OLAP кубов, Система обеспечивает:
- Формирование OLAP куба по множеству таблиц и отдельных колонок.
- Объединение таблиц по внешним ключам (foreign key)
- Формирование наборов срезов по данным, манипуляцию и трансформацию данных включая:
- выполнение функций агрегации данных;
- конкатенации и манипуляции строковыми значениями
- выполнение различных математических операторов над данными
- трансформация типов данных (число-строка, строка-дата и т.д.)
- выполнение условных и логических выражений выражений – IF, AND, OR, NOT.
СОЗДАНИЕ И РЕДАКТИРОВАНИЕ ВИЗУАЛЬНЫХ ПРЕДСТАВЛЕНИЙ ДАННЫХ
Визуальные представления данных позволяют сформировать на экране компьютера интегрированные представления множества информационных блоков.
Система позволяет встраивать отдельные информационные блоки в сторонние сайты и web приложения.
БОЛЬШИЕ ДАННЫЕ (BIGDATA) ─ ГРАФИЧЕСКИЕ УСКОРИТЕЛИ ВЫЧИСЛЕНИЙ
Платформа позволяет проводить анализ больших массивов данных, используя мощь параллельных вычислений GPU. Это ускоряет анализ массивов данных в 70-1000 раз в зависимости от типа самих данных. Использование GPU означает работу 4000+ ядер на одно устройство против 8-32 ядер в случае использования CPU. Система оптимизирует обмен данными между видеокартой и SSD-диском без участия CPU: загрузка данных в GPU идет напрямую с SSD-диска.
Использование GPU позволяет обрабатывать миллиарды анализируемых показателей с практически мгновенным выводом результатов анализа в графическом виде.
ТРЕБОВАНИЯ
Минимальные системные требования:
- процессор Intel Core i5;
- оперативная память - 8 Гб;
- накопители на жестких магнитных дисках объемом 300 Гб.
Для обеспечения функционирования панели администратора должны использоваться следующие программные средства:
- операционная система Ubuntu, версии не ниже 16.04;
- o СУБД PostgreSQL, версия не ниже 9.6 – для государственных заказчиков, требующих сертификацию по требованиям ФСТЭК.
Для обеспечения взаимодействия с Системой должен быть установлен браузер:
- Mozilla Firefox;
- Google Chrome.