Создана новая архитектура быстрых языковых моделей

16 августа 2024

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research представили новую архитектуру быстрых языковых моделей ReBased. Новая разработка сокращает расходы на вычислительные мощности при использовании искусственного интеллекта практически без потерь в качестве.

В перспективе это приведет к более широкому коммерческому использованию языковых моделей, которое сейчас ограничено высокой ресурсозатратностью.

Самые распространенные языковые модели основаны на архитектуре «Трансформер», представленной в 2017 году исследователями из Google. Они хорошо зарекомендовали себя при решении практических задач, но для них требуется очень большое количество ресурсов, которые растут квадратично с удлинением текста. Для широкого практического применения необходимы менее ресурсозатратные архитектуры.

Наиболее успешные конкуренты трансформеров — последние SSM-модели (State Space Model, модели пространства состояний) Mamba, но они уступают по способности контекстного обучения, которое позволяет ИИ-агентам адаптироваться к новым задачам без необходимости повторного обучения.

В модели Based, представленной учеными Стэнфорда в декабре 2023 года, которая значительно улучшила способности контекстного обучения, специалисты T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры нейросети. Они оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, которые отвечают за оптимальный поиск взаимосвязей между частями текста. Это позволяет улучшить процесс его обработки и получать более точные ответы. Ученые также упростили алгоритм выделения текстовой информации, что привело к увеличению производительности, повышению качества работы с длинными текстами и улучшению контекстного обучения. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.

ReBased способна снизить издержки на использование искусственного интеллекта для специализированных задач, которые имеют конкретную область применения и требуют учета ее особенностей. Например, в медицине такой задачей может считаться классификация текстов на основе симптомов и диагнозов.

Новая архитектура, предложенная учеными, позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.

Источник: Тинькофф

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.

		Ноябрь 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Телеком	ТВ и медиа	Облака	ПО	Кадры
ИТ	Информационная безопасность	IP-сервисы	Аналитика	Регулирование
Интернет	ЦОД	Оборудование	Аутсорсинг	M&A
ИТ в образовании	ИТ в медицине	Big Data	E-commerce	Спутниковая связь
Блокчейн

Создана новая архитектура быстрых языковых моделей

Читайте также:

Оставить свой комментарий:

Комментарии по материалу