ОнтосМайнер

{{ item.text }}

{{ items[0].text }}

Тема Deep Learning & Machine Learning является одним из главных мировых трендов в IT сфере. Ученые ведущих мировых университетов, инженеры из лабораторий Google, Facebook публикуют массу статей о результатах своих разработок.

Компания Авикомп Сервисез совместно с «Объединенной приборостроительной корпорацией» для подъема интереса среди отечественных исследователей и студентов к этой теме и для организации кооперации с отечественными научно-образовательными учреждениями решила открыть платформу с собственными разработками, на которой представлены некоторые практические результаты работы технологий Deep Learning в домене анализа текстов на различных языках.

Когда мы говорим о возможностях искусственного интеллекта, то подразумеваем, что компьютер учится сам генерировать программы обработки «больших данных» в соответствии с задачей, которую формулирует человек. Например, мы даем задание машине обработать миллионы страниц текста, проанализировать их и запомнить все семантические связи между словами, а затем просим выделить какие-то факты, давая ей примеры необходимых результатов, и дальше она выполняет работу самостоятельно.

Один подход решает множество задач


В этой технологии скрыто и будущее робототехники, ведь она может быть применена для анализа изображений и звука, т.е. компьютер получит возможность не только «читать», «видеть» и «слышать», но и правильно интерпретировать «понимать» поступающую информацию. Причем создать соответствующие продукты будет проще, чем разработать лингвистический процессор, поскольку язык обладает огромной вариативностью: одно и то же слово может менять значение в зависимости от контекста, могут встречаться слова (сигналы) из других языков.

Мы готовы совместно с Вами создавать и отлаживать новые инструменты Deep Learning & Machine Learning. Здесь Вы сможете попробовать наш продукт, а именно, самостоятельно сформировать лингво-процессор для своей предметной области без программирования.

{{ items[1].text }}

Анализ контекста слов является ключевым условием возможности построения семантических тезаурусов. В результате выполнения данного анализа, система получает знания о сематической близости отдельных слов, которая может быть представлена на следующих примерах.

Если ввести в поисковое поле термин «убегать», то система вернет перечень похожих по смыслу терминов, который включает: убежать, бежать, удрать, сбежать, ретироваться, стрекача, смыться и т.д.

Слово «самолет» вернет: авиалайнер, лайнер, вертолет, истребитель, бомбардировщик, Боинг, дирижабль, борт, рейс, аэростат, аэродром.


При этом соответствие слова «самолет» и слова «лайнер» взято в соответствии с контекстом из предложения «В экстренной посадке лайнера Путина виновата птица Стали известны подробности инцидента , произошедшего с самолетом делегации Президента России Владимира Путина .»

В случае если ввести слово «Джон», то система по контексту выдаст перечень западных имен: Джеймс, Дэвид, Стивен, Майкл, Кристофер, Фрэнк, Джим и т.д.

Если ввести слово «Амир», то система вернет перечень арабских имен: Исмаил, Ахмед, Ильяс, Мурад, Азамат, Мухамед и т.д.

В контекста слова «Машенька», мы увидим перечень русских имен: Анечка, Настенька, Наденька, Катенька, Леночка и т.д.

Слово «нетрезвый» дает близкие по контексту слова: захмелевший, подвыпивший, пьяненький, выпивший и т.д.



Данное свойство нашей технологии позволяет выполнять простейшие операции на тексте и возвращать (с математической точки зрения) ответы на следующие вопросы:

  • Царь – мужчина + женщина = царевна
  • Принцесса – женщина + мужчина = Принц
  • Принцесса – тетя + дядя = Принц
  • Париж – Франция + Германия = Берлин
  • Вильнюс – Литва + Эстония = Таллин
  • танк – гусеницы + колеса = тягач, бронеавтомобиль
  • БМП – гусеницы + колеса = БТР, БРДМ
  • Лермонтов – поэма + симфония = Рахманинов
  • Моцарт – симфония + холст = Врубель
  • Дасаев – футбол + хоккей = Третьяк
  • Сталин – СССР + Германия = Гитлер
  • Сталин – война + космос = Хрущев
  • Виски – Шотландия + Франция = Шампанское
  • Виски – Шотландия + Япония = Сакэ
  • лето – телега + сани = зима
  • трезвого – уме + языке = нетрезвого

Пословицы и поговорки от OntosMinerAPI

(OntosMinerAPI всего-то прочитал 50 млн. новостей.., маленький он еще.., учиться бы ему дальше.., шутник… )
Пословица OntosMinerAPI отобрали близкие по контексту фразы
конец подкрался незаметно

дверь постучался молчаливый

Владимирович подошел основательно

политтехнологу подбежал мужчина

тихо подошел сзади

горлу подкатил комок

Январь год начинает а декабрь кончает Смутное время Началось на голодной Руси
без труда не вытянешь и рыбку из пруда Начал курить и выпивать , воровать из дому
Что летом родится - зимой сгодится Что же это за напасть такая
Велик телом да мал делом Каков сортир , таков и
Сорока на хвосте принесла бабушки на лавочках дали
готовь сани летом готовить телегу зимой

{{ items[2].text }}

OntosMinerAPI – является новейшей разработкой системы распознавания объектов в текстах. Система использует алгоритмы и технологии машинного обучения и способна самостоятельно обучаться распознавать объекты в текстах опираясь на предоставленных пользователями примеры выделения необходимых информационных объектов.

OntosMinerAPI – это конструктор, который позволяет пользователю самостоятельно создавать собственные решения для выделения объектов в текстах различных предметных областей.

Если раньше традиционное программирование таких аналитических функций требовало серьезных человеческих, временных и, соответственно, финансовых ресурсов, то теперь мы получаем возможность извлекать информацию дешево, быстро и качественно.

Разработанная система позволяет:

1. создавать собственную обученную программу для выделения определенного перечня объектов

2. формировать или загружать обучающие и тестовые наборы данных

3. загружать базовый тематический набор документов для новых предметных областей, например, диссертации по молекулярной химии, биоинформатики и т.д.

4. обучать и дообучать сформированную программу

5. обрабатывать в потоковом режиме массивы документов

6. формировать результаты обработки в виде XML, RDF, JSON или формат микроформатов.

Текущие результаты:

На текущий момент, качество выделения именованных сущностей было проверено на коллекции размеченных текстов “Persons-1111-F” (спасибо Исследовательскому центру искусственного интеллекта).

600 документов учебный набор, 400 документов тестовый набор.

Количество итераций обучения: 200
Время обучения: 4 ч. 25 м. 4 ч. 25 м.
Точность 0.969648
Полнота 0.955043
F-мера 0.962290

{{ items[3].text }}

Для создания нового проекта необходимо в интерфейсе портала «OntosMinerAPI» добавить новый проект , дать ему название и открыть интерфейс формирования предметной области .

Рисунок 1. Создание проекта.

При определении перечня выделяемых объектов пользователю необходимо определить цветовую разметку определенных им типов объектов для их наглядного отображения в текстах.

Рисунок 2. Определение перечня выделяемых объектов.

Обучение лингвистического процессора осуществляется на основании размеченных объектами текстов документов. Обучающий пример должен быть максимально полно и точно размечен, так как система обучается на основании слов окружающих выделенные объекты. Те места или информационные объекты, которые специально или ошибочно не были выделены, участвуют в обучении как отрицательные примеры – примеры, которые говорят системе, что ни в коем случае не стоит выделять.


Например, при создании процессора для выделения объекта Персона пример «Владимир Путин посетил город Владимир» даст возможность правильно выделять объект «Владимир Путин» и не выделять как объект персона «город Владимир».


Обучающая подборка документов должна содержать максимально возможное покрытие ситуаций окружения отдельных слов.


Для создания обучающего набора документов пользователь может воспользоваться интерфейсом разметки текстовых документов представленном на Рисунке ниже.

Альтернативно, пользователь может загрузить ранее размеченные тексты, если формат разметки соответствует формату используемому в http://ai-center.botik.ru/ или формату разметки CoNLL.

Для обучения процессора указываются следующие параметры:

1. Минимальное и максимальное количество итераций обучения. Обучение будет остановлено, в случае если разница ошибок обучения между итерациями обучения не превысит минимальный порог, т.е. обучение остановится.

2. Для определения качественных характеристик обучаемой сети, необходимо указать соотношение учебного и тестового корпусов.

3. Начальный уровень обучения определяет скорость обучения.

После завершения тренировки процессора пользователь может воспользоваться отдельным интерфейсом для тестирования качества выделения информационных объектов из текстов.

Документы для тестирования могут быть взяты, как из внутренней базы документов, так и скопированы из интернет.

Для тестирования пользователь должен выбрать необходимый процессор и вызвать функцию Test.

Рисунок 1 Тестирование разметки текста использую процессор Персоны.