Обчислювальний грід-кластер
Інституту теоретичної фізики ім. М.М. Боголюбова НАН України

Система керування суперкомп'ютером з підтримкою роботи у гріді SCMS 4.2

Проблема зрозумілого та доступного для користувача програмного інтерфейсу є актуальною та важливою для всіх видів програмного забезпечення. Це особливо стосується галузі високопродуктивних обчислень, де традиційні інтерфейси для доступу користувачів є досить специфічними та вимагають додаткових технічних знань.

Окрім специфіки своєї наукової області, для роботи з суперкомп’ютером користувач повинен розуміти роботу операційної системи кластера, процес запуску задач, роботу з компіляторами тощо. Задача адміністрування кластерних систем також залишається складною і трудомісткою.

Розвиток грід-технологій не покращив поточний стан речей. Адже робота у гріді – це ще один додатковий рівень складності, який вимагає знання грід-інструментів командного рядка, нового синтаксису запуску задач, міжкластерної сумісності програмних оточень тощо.

Система керування суперкомп’ютером SCMS 4.2 є спробою запропонувати комплексне рішення як для доступу користувачів, так і для адміністрування кластерів. Інтегроване рішення, створене у вигляді веб-порталу для системи керування кластером, на якому користувачі можуть легко запускати та контролювати свої задачі без необхідності вивчати численні деталі роботи суперкомп'ютера та операційного оточення гріда.

Для адміністрування кластера в системі передбачений зручний сервіс, який надає засоби для щоденного моніторингу стану обладнання суперкомп’ютера, управління користувачами, чергами задач, ресурсами кластера тощо.

Система керування суперкомп’ютером SCMS 4.2 є готовим продуктом і вже успішно використовується на кластерах в Інституті кібернетики ім. В.М Глушкова, Інституті фізики низьких температур, Інституті сцинциляційних матеріалів НАН України, а також у ряді інших академічних установ Українського Національного Гріда.

Основні особливості системи SCMS 4.2

Перелічимо основні особливості та переваги системи SCMS 4.2:

Авторизація та форма реєстрації

Для доступу до системи SCMS 4.2 користувач повинен мати обліковий запис SSH (логін та пароль). Якщо користувач ще не має власного облікового запису, то він повинен пройти процедуру реєстрації. Для цього заповнюється спеціальна форма, поля якої перевіряються на достовірність. Запит на реєстрацію користувача відправляється адміністратору кластера, який перевіряє дані та затверджує обліковий запис.

Для входу в систему користувач вводить Ім’я користувача (Логін), Пароль та може вибрати необхідну мову інтерфейсу зі списку мов.

Інтерфейс користувача

Більшість вчених, які застосовують у своїй роботі суперкомп’ютер, працюють з готовими пакетами програмного забезпечення. Від системи керування вони потребують простого і зручного середовища для редагування вхідних файлів своїх задач, запуску паралельних програм та онлайн перегляду результатів.

Прикладні програмісти, в свою чергу, використовують кластер для розробки і тестування паралельних програм. Їм необхідне оточення для компіляції програм з підтримкою популярних компіляторів та бібліотек, а також редактор початкового коду програм з підсвічуванням синтаксису.

Інтерфейс системи SCMS 4.2 підтримує всі звичайні операції, які можуть знадобитися користувачам. Основні дії, які можуть виконувати користувачі кластера:

Управління файлами

Для управління файлами на локальному кластері та в гріді в системі SCMS 4.2 реалізований Файловий менеджер. Він забезпечує всі звичайні операції з файлами та директоріями:

Запуск задач на локальному кластері

Постановка задачі в чергу менеджера ресурсів суперкомп’ютера здійснюється за допомогою спеціальної форми запуску, яка дозволяє встановити всі необхідні параметри обчислювальної задачі. Для випадку, коли користувач часто запускає схожі задачі, є можливість зберегти параметри запуску задач у файл користувача для подальшого використання, що спростить для нього запуск таких задач у майбутньому.

Для початкових текстів програм передбачена інтелектуальна система компіляції, яка визначає мову програмування та вибирає відповідний сценарій компіляції. Система підтримує сценарії для компіляторів Intel і GNU. Сценарії для інших компіляторів та мов програмування може легко додати адміністратор.

Для паралельних програмних пакетів (Gamess, Gromacs, Abinit тощо) у системі SCMS 4.2 реалізований спеціальний операційний режим, в якому деякі параметри запуску задачі автоматично заповнюються значеннями пакету за замовчуванням, що значно спрощує використання таких пакетів.

Запуск задач у гріді

Для роботи в гріді та повної підтримки грід-технологій користувач кластера повинен мати дійсний грід-сертифікат та грід-пароль. Процедура запуску задач в гріді подібна до аналогічної процедури на локальному кластері. Так само заповнюється форма запуску задачі або надається дійсний xRSL файл.

Система постійно контролює статуси грід-задач і автоматично копіює результати виконаних задач у відповідну директорію користувача на локальному кластері. Файли з результатами виконання задач можна переглядати під час виконання задач і копіювати на локальний кластер для подальшого використання.

Директорії грід-задач

Після успішного запуску користувачем грід-задачі у файловій системі з'являється відповідна віддалена директорія. Такі директорії в системі відмічені символом ланцюжка.

Користувач може виконувати звичайні файлові операції з грід-файлами та директоріями.

Відстежування результатів задач

Файловий менеджер системи SCMS 4.2 обладнаний можливістю переглядати файли з підсвічуванням синтаксису для популярних мов програмування. Інколи буває зручно відстежувати зміни файлів в режимі реального часу з tailf-подібною функцією редактора.

Ресурси

Система SCMS 4.2 дозволяє користувачам переглядати список ресурсів локальних та грід-кластерів. Для кожного кластера можна подивитись ресурси (черги) з їх обмеженням за часом та кількістю доступних ядер. Грід-ресурси в списку згруповані за доменним іменем кластера. Додаткова інформація про вибраний розділ або чергу доступна в панелі Деталі.

Список задач

Користувачі кластера можуть переглядати список усіх задач на локальному кластері, власних грід-задач та відміняти власні задачі. Режим "Історія запусків" дозволяє переглядати інформацію про завершені задачі.

Додаткова інформація про вибрану задачу доступна в панелі Докладно. Наприклад, можна переглянути список зайнятих вузлів, час постановки задачі в чергу, початок і закінчення виконання задачі (лише для завершених задач) тощо.

Мапа гріду

На мапі гріду візуально відображаються географічне розташування та доступність кластерів гріду. Доступні для запуску задач суперкомп’ютери гріду позначені зеленим маркером.

Сервіс повідомлень

Для спілкування користувачів між собою та з адміністраторами в системі SCMS 4.2 є вбудований сервіс повідомлень. Ця можливість зазвичай використовується користувачами для того, щоб повідомити адміністрацію про проблеми при роботі з кластером.

Налаштування

Вкладка Налаштування дозволяє користувачу змінювати особисті дані, налаштування інтерфейсу, встановлення грід-сертіфікату та режиму входу в грід.

Огляд можливостей адміністратора

Обчислювальний процес на суперкомп'ютері організовують та контролюють адміністратори. Вони мають свої облікові записи, як і звичайні користувачі, але з розширеними можливостями. Головні можливості адміністратора:

Адміністрування черг задач

Черги задач вимагають постійного нагляду з боку адміністратора. Інтерфейс системи передбачає можливість переглядати черги задач та відміняти задачу в разі помилки або з інших причин.

Сервіс повідомлень

Адміністратор може працювати з вбудованим у систему сервісом повідомлень, що дозволяє отримувати листи від користувачів кластера та сповіщення від системи. Користувачі можуть надсилати адміністраторам запити на реєстрацію, запитання, повідомлення про помилки та проблеми в роботі кластера.

Система відсилає адміністратору сповіщення про помилки. Некритичні повідомлення про помилки надсилаються на електронну пошту адміністратора. Критичні повідомлення про такі події, як перегрів вузлів, системи охолоджування або збій жорстких дисків, відсилаються за допомогою SMS.

Статистика використання кластера

Система SCMS 4.2 збирає інформацію про виконані задачі та звіти датчиків моніторингу. Статистика використання ресурсів суперкомп’ютера може бути згрупована за користувачами та організаціями. Статистичні дані можна експортувати в файл CSV або Excel формату.

Моніторинг

Стан обладнання суперкомп’ютера вимагає постійної уваги адміністратора. Швидке інформування про аварії є одним з основних завдань системи. Підсистема контролю має режими для перевірки стану обладнання та програмних компонентів суперкомп'ютера. Вона постійно моніторить:

Управління користувачами

Адміністратор має повний комплекс засобів для управління обліковими записами користувачів: прийом запиту на реєстрацію користувача, редагування даних облікового запису, видалення користувачів. Перемикання на іншого користувача передбачене для того, щоб допомогти адміністраторам вирішити проблеми, що виникли у користувача. Такий режим дозволяє відтворити помилки користувача та локалізувати їх у середовищі, де вони відбуваються.

Виконання діагностичних задач

Діагностичні задачі є спеціальним класом задач. Вони дозволяють отримати характеристики продуктивності кластера або перевірити надійність усього кластера. Ці задачі можуть бути запущені як за розкладом, так і на вимогу. В системі передбачений інтелектуальний аналіз результатів виконання діагностики з виділенням слабких компонентів.

Діагностичні засоби перевіряють продуктивність вузлів, роботу мережі Infiniband та працездатність файлової системи Lustre. Спеціальний засіб захисту від перегріву вимикає вузли, температура яких перевищує критичну межу.

Система перегляду журналу діагностики обладнана фільтром за ключовим словом, який спрощує аналіз великих обсягів тексту.

Технічна специфікація системи та сумісність

Ядро системи складається з програмних скриптів для взаємодії з обладнанням кластера, менеджером ресурсів, програмним забезпеченням гріда тощо. Скрипти виконують усі сервісні запити від інтерфейсу користувача, інструментів моніторингу та діагностики. Передача даних кодується з використанням OpenSSL, користувач має доступ лише до власних файлів та задач.