mastodon.world is one of the many independent Mastodon servers you can use to participate in the fediverse.
Generic Mastodon server for anyone to use.

Server stats:

8.1K
active users

#multimodal_llm

0 posts0 participants0 posts today

Меньше — лучше: как Polaris-4B обошёл Qwen3-32B

Привет, Хабр! В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B‑Preview и Polaris-7B‑Preview , обученные с нуля на reasoning‑задачах с использованием Reinforcement Learning. Эти модели не просто догоняют топовые коммерческие аналоги вроде Claude‑Opus и Grok-3-Beta — они их обгоняют. Причём на архитектуре всего в 4 миллиарда параметров. Все это результат продуманного инженерного подхода. В этой статье коротко рассмотрим, как авторам Polaris это удалось.

habr.com/ru/companies/otus/art

ХабрМеньше — лучше: как Polaris-4B обошёл Qwen3-32BПривет, Хабр! В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B-Preview и Polaris-7B-Preview , обученные с нуля на reasoning-задачах с использованием...

Новый вид контента: ИИллюстрированная аудиокнига

Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги с помощью серии иллюстраций! Эта идея меня захватила, и я написал небольшой проект...

habr.com/ru/articles/915174/

ХабрНовый вид контента: ИИллюстрированная аудиокнигаНедавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги...

[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям. Узнайте, какие именно тесты провалили новинки и где показали уверенный результат.

habr.com/ru/articles/909052/

ХабрReasoning CV-модели OpenAI не смогли посчитать монетыВсем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были. Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

habr.com/ru/companies/raft/art

ХабрПонимает ли Vision Llama импрессионистов?Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их,...

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что

habr.com/ru/companies/isp_ras/

ХабрУстойчивость к кибератакам российских больших языковых моделей с открытым исходным кодомМаленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что модели могут неправильно...