Abstract:
В работе рассмотрен параллельный алгоритм вычисления дополнения Шура. Эффективное применение нескольких графических ускорителей для метода дополнения Шура связано с разделением матриц и определением алгоритмов, которые более эффективно выполняются на центральном процессоре (CPU) или графических ускорителях (GPU). Представлен алгоритм обращения матрицы через решение матричной системы множеством параллельных потоков. Показано, что формирование матриц дополнения Шура для нескольких подобластей эффективно выполнять на GPU, а с ростом числа подобластей – на CPU. Для решения интерфейсной системы предложен параллельный алгоритм метода сопряженных градиентов с явным предобуславливателем, позволяющий достигать существенного ускорения вычислений (в 251 раз) на восьми GPU при разделении исходной системы уравнений на 64 подобласти.