mastodon.world is one of the many independent Mastodon servers you can use to participate in the fediverse.
Generic Mastodon server for anyone to use.

Server stats:

8.4K
active users

#computer_vision

1 post1 participant0 posts today
Habr<p>Готовимся к собесу: positional encodings в 2025 году</p><p>Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом. Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.</p><p><a href="https://habr.com/ru/articles/926368/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/926368/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/gpt" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>gpt</span></a> <a href="https://zhub.link/tags/deeplearning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>deeplearning</span></a> <a href="https://zhub.link/tags/nlp" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>nlp</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>собеседование</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%BE%D0%B4%D0%B3%D0%BE%D1%82%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BA_%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8E" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>подготовка_к_собеседованию</span></a> <a href="https://zhub.link/tags/%D0%B2%D1%85%D0%BE%D0%B4_%D0%B2_it" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>вход_в_it</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a></p>
Habr<p>Я построил Vision Transformer с нуля — и научил его обращать внимание</p><p>В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.</p><p><a href="https://habr.com/ru/articles/925050/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/925050/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/deep_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>deep_learning</span></a> <a href="https://zhub.link/tags/pytorch" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pytorch</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/transformers" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>transformers</span></a> <a href="https://zhub.link/tags/implementation" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>implementation</span></a></p>
Habr<p>Компьютерное зрение в сельском хозяйстве</p><p>Интеллектуальные системы, основанные на компьютерном зрении, проникли практически во все сферы жизни современного человека. Эти системы объединяют компьютерное зрение, искусственный интеллект (ИИ) и технологии машинного обучения и позволяют машинам имитировать зрительные и когнитивные способности человека для принятия обоснованных решений по поставленной задаче. Технология компьютерного зрения используется для обработки и интерпретации визуальной информации из окружающей среды, а технологии искусственного интеллекта (ИИ) вместе с алгоритмами машинного обучения применяются для распознавания закономерностей и прогнозирования действий. Эти интеллектуальные системы улучшают производительность за счет обучения с течением времени. В этой статье мы рассмотрим использование компьютерного зрения в земледелии. Мы рассмотрим различные этапы так называемого цифрового сельского хозяйства, включая получение изображений, объединение и анализ изображений, принятие решений с помощью машинного обучения.</p><p><a href="https://habr.com/ru/companies/otus/articles/921342/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/otus/art</span><span class="invisible">icles/921342/</span></a></p><p><a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai</span></a> <a href="https://zhub.link/tags/%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BE%D0%B5_%D1%81%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B5_%D1%85%D0%BE%D0%B7%D1%8F%D0%B9%D1%81%D1%82%D0%B2%D0%BE" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>цифровое_сельское_хозяйство</span></a> <a href="https://zhub.link/tags/RGB%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>RGBизображения</span></a> <a href="https://zhub.link/tags/%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D1%8A%D0%B5%D0%BC%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>мультиспектральная_съемка</span></a> <a href="https://zhub.link/tags/%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D1%8A%D0%B5%D0%BC%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>гиперспектральная_съемка</span></a></p>
Habr<p>Компьютерное зрение для начинающих</p><p>Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины. Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему. В этой статье мы поговорим о том, как все это работает и какие основные технологии и алгоритмы используются. Мы не будем глубоко погружаться в вопросы, связанные с реализацией методов компьютерного зрения, так как задача этой статьи объяснить основные принципы.</p><p><a href="https://habr.com/ru/companies/otus/articles/921402/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/otus/art</span><span class="invisible">icles/921402/</span></a></p><p><a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai</span></a> <a href="https://zhub.link/tags/neuralnetworks" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>neuralnetworks</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>компьютерное_зрение</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B5%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обучение_нейросетей</span></a> <a href="https://zhub.link/tags/OpenCV_%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>OpenCV_примеры</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9_Python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обработка_изображений_Python</span></a></p>
Habr<p>Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением</p><p>Привет, Хабр! Мы – Даниил Соловьев и Михаил Никитин из команды направления распознавания лиц. Сегодня фокусируемся на задаче распознавания лиц на изображениях низкого разрешения (low resolution face recognition, low-res FR). Она актуальна в первую очередь при анализе данных видеонаблюдения, так что если перед вами сейчас стоит подобная задача (или просто интересно, как она решается) — статья для вас. Расскажем про проблемы и сложности распознавания лиц низкого разрешения, подходы к решению задачи, в том числе свежий PETALface с конференции WACV 2025 . Также поделимся ссылками на исследования, которые подробнее освещают каждый подход.</p><p><a href="https://habr.com/ru/companies/tevian/articles/921660/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/tevian/a</span><span class="invisible">rticles/921660/</span></a></p><p><a href="https://zhub.link/tags/%D0%BD%D0%B8%D0%B7%D0%BA%D0%BE%D0%B5_%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>низкое_качество</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B8%D0%B7%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>низкое_разрешение</span></a> <a href="https://zhub.link/tags/%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BB%D0%B8%D1%86" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>распознавание_лиц</span></a> <a href="https://zhub.link/tags/%D0%B3%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>глубокое_обучение</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>компьютерное_зрение</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>машинное_обучение</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обработка_изображений</span></a> <a href="https://zhub.link/tags/deep_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>deep_learning</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/face_recognition" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>face_recognition</span></a></p>
Habr<p>Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения</p><p>Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.</p><p><a href="https://habr.com/ru/articles/921648/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/921648/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/Object_detection" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Object_detection</span></a> <a href="https://zhub.link/tags/YOLO" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>YOLO</span></a> <a href="https://zhub.link/tags/yolov12" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>yolov12</span></a> <a href="https://zhub.link/tags/opencv" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>opencv</span></a> <a href="https://zhub.link/tags/YOLO_Custom_Dataset_Training" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>YOLO_Custom_Dataset_Training</span></a> <a href="https://zhub.link/tags/%D0%B1%D0%BF%D0%BB%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>бпла</span></a> <a href="https://zhub.link/tags/%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_YOLO" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Обучение_YOLO</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BE%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D0%BE%D0%B2" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обнаружение_объектов</span></a></p>
Habr<p>Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии</p><p>Иногда пользователи пытаются пройти биометрическую верификацию не совсем честно. Иногда — совсем нечестно. Кто-то показывает фото на экране другого телефона, кто-то — печатает лицо на бумаге и машет им в камеру. Всё это — спуфинг, и он давно вышел из лабораторий и научных статей в суровую продакшен-практику. А задача при этом, казалось бы, простая: по одному кадру понять, есть ли перед камерой живой человек. Ни видео, ни поведенческой биометрии, ни инфракрасных сенсоров. Просто JPEG. Просто ад. Все о спуфинге и методах борьбы с ним знает наш разработчик Александр. Он работает над проектом антиспуфинг-системы, способной по изображению с фронталки отличать живого человека от картинки. В этой статье мы расскажем, как он научил систему это делать. Без волшебства: только кастомный датасет, ансамбль CNN и несколько костылей — куда без них.</p><p><a href="https://habr.com/ru/articles/921390/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/921390/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D0%B8%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ии</span></a> <a href="https://zhub.link/tags/%D0%B8%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>икусственный_интеллект</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BF%D1%83%D1%84%D0%B8%D0%BD%D0%B3" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>спуфинг</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BF%D1%83%D1%84%D0%B8%D0%BD%D0%B3%D0%B0%D1%82%D0%B0%D0%BA%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>спуфингатаки</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D1%82%D0%B8%D1%81%D0%BF%D1%83%D1%84%D0%B8%D0%BD%D0%B3" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>антиспуфинг</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>компьютерное_зрение</span></a> <a href="https://zhub.link/tags/cv" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>cv</span></a> <a href="https://zhub.link/tags/computervision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computervision</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a></p>
:rss: .NET Blog<p>Multimodal Vision Intelligence with .NET MAUI<br><a href="https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">devblogs.microsoft.com/dotnet/</span><span class="invisible">multimodal-vision-intelligence-with-dotnet-maui/</span></a></p><p><a href="https://rss-mstdn.studiofreesia.com/tags/microsoft" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>microsoft</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/NET" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NET</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/NET_MAUI" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NET_MAUI</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/AI" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>AI</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/ai_foundry" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai_foundry</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/copilot" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>copilot</span></a></p>
Habr<p>Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото</p><p>Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео . Большинство существующих решений сводятся к двум крупным направлениям. В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит: преобразовывать изображения и видео между pinhole , fisheye и equirectangular проекциями; итеративно дорисовывать панорамы до полного сферического охвата; синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве. Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation</p><p><a href="https://habr.com/ru/articles/912652/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/912652/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a></p>
:rss: Hacker News<p>Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction<br><a href="https://zju3dv.github.io/freetimegs/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">zju3dv.github.io/freetimegs/</span><span class="invisible"></span></a><br><a href="https://rss-mstdn.studiofreesia.com/tags/ycombinator" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ycombinator</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Computer_Vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Computer_Vision</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Computer_Graphics" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Computer_Graphics</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/NeRF" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NeRF</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/3D_Gaussian_Splatting" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>3D_Gaussian_Splatting</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Novel_View_Synthesis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Novel_View_Synthesis</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Freeviewpoint_Video" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Freeviewpoint_Video</span></a></p>
Habr<p>Kandinsky 4.1 Image – новый генератор изображений от Сбера</p><p>В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!</p><p><a href="https://habr.com/ru/companies/sberbank/articles/915760/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sberbank</span><span class="invisible">/articles/915760/</span></a></p><p><a href="https://zhub.link/tags/%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>генерация_изображений</span></a> <a href="https://zhub.link/tags/kandinsky_4" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>kandinsky_4</span></a> <a href="https://zhub.link/tags/sberai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>sberai</span></a> <a href="https://zhub.link/tags/generative_models" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>generative_models</span></a> <a href="https://zhub.link/tags/texttoimage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>texttoimage</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/diffusion" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>diffusion</span></a> <a href="https://zhub.link/tags/sft" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>sft</span></a> <a href="https://zhub.link/tags/artificial_intelligence" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>artificial_intelligence</span></a> <a href="https://zhub.link/tags/machine_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>machine_learning</span></a></p>
:rss: Hacker News<p>Vision Language Models Are Biased<br><a href="https://vlmsarebiased.github.io/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">vlmsarebiased.github.io/</span><span class="invisible"></span></a><br><a href="https://rss-mstdn.studiofreesia.com/tags/ycombinator" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ycombinator</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/VLM" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>VLM</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Vision_Language_Models" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Vision_Language_Models</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Bias" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Bias</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Computer_Vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Computer_Vision</span></a> <a href="https://rss-mstdn.studiofreesia.com/tags/Counting" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Counting</span></a></p>
Habr<p>Генерация видео: Обзор интересных подходов | Text-2-video | Part 2</p><p>Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное. Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.</p><p><a href="https://habr.com/ru/articles/912522/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/912522/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нейросети</span></a> <a href="https://zhub.link/tags/ml" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ml</span></a> <a href="https://zhub.link/tags/video_generation" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>video_generation</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>собеседования</span></a> <a href="https://zhub.link/tags/stablediffusion" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>stablediffusion</span></a> <a href="https://zhub.link/tags/wan21" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>wan21</span></a> <a href="https://zhub.link/tags/comfyui" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>comfyui</span></a> <a href="https://zhub.link/tags/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%82%D0%BE%D1%80" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>видеогенератор</span></a></p>
Habr<p>Генерация видео: Обзор интересных подходов | Text-2-video | Part 1</p><p>План следующий: Методы адаптации T2I в T2V : AnimateDiff, Text2Video Zero Обзор классических подходов : Stable Video Diffusion, CogVideo Новые модельки 2025 : Wan2.1, HunyuanVideo, FramePack Это первая часть из списка статей, тут будет только про T2I в T2V</p><p><a href="https://habr.com/ru/articles/910326/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/910326/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нейросети</span></a> <a href="https://zhub.link/tags/ml" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ml</span></a> <a href="https://zhub.link/tags/video_generation" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>video_generation</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>собеседования</span></a> <a href="https://zhub.link/tags/%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>собеседования_задачи</span></a> <a href="https://zhub.link/tags/ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai</span></a> <a href="https://zhub.link/tags/stable_diffusion" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>stable_diffusion</span></a> <a href="https://zhub.link/tags/comfyui" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>comfyui</span></a> <a href="https://zhub.link/tags/animatediff" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>animatediff</span></a></p>
Habr<p>Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна</p><p>Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .</p><p><a href="https://habr.com/ru/companies/sberbank/articles/908820/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sberbank</span><span class="invisible">/articles/908820/</span></a></p><p><a href="https://zhub.link/tags/%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>генеративные_модели</span></a> <a href="https://zhub.link/tags/3d" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>3d</span></a> <a href="https://zhub.link/tags/3d%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>3dграфика</span></a> <a href="https://zhub.link/tags/ml" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ml</span></a> <a href="https://zhub.link/tags/kandinsky" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>kandinsky</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a></p>
Habr<p>Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса</p><p>Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.</p><p><a href="https://habr.com/ru/companies/yandex/articles/904584/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/yandex/a</span><span class="invisible">rticles/904584/</span></a></p><p><a href="https://zhub.link/tags/vlm" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>vlm</span></a> <a href="https://zhub.link/tags/natural_language_processing" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>natural_language_processing</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/multimodality" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>multimodality</span></a> <a href="https://zhub.link/tags/%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>яндекс</span></a></p>
Habr<p>[Перевод] Всё про инференс на Sophon NPU</p><p>В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).</p><p><a href="https://habr.com/ru/companies/recognitor/articles/898152/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/recognit</span><span class="invisible">or/articles/898152/</span></a></p><p><a href="https://zhub.link/tags/Sophon" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Sophon</span></a> <a href="https://zhub.link/tags/NPU" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NPU</span></a> <a href="https://zhub.link/tags/Jetson" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Jetson</span></a> <a href="https://zhub.link/tags/RockChip" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>RockChip</span></a> <a href="https://zhub.link/tags/ML" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ML</span></a> <a href="https://zhub.link/tags/Edge_Inference" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Edge_Inference</span></a> <a href="https://zhub.link/tags/Computer_Vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Computer_Vision</span></a> <a href="https://zhub.link/tags/LLM" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>LLM</span></a> <a href="https://zhub.link/tags/VLM" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>VLM</span></a> <a href="https://zhub.link/tags/Qwen" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Qwen</span></a></p>
José Gustavo Martins<p>Silicon dojo is a great youtube channel to learn about <a href="https://masto.pt/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> and <a href="https://masto.pt/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a>. Check out the MoonDream AI videos.<br><a href="https://youtu.be/2xQG19-PvOI?si=r9gTNJD_lsfeyTYO" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">youtu.be/2xQG19-PvOI?si=r9gTNJ</span><span class="invisible">D_lsfeyTYO</span></a></p>
Habr<p>AI (Computer Vision) для реальной жизни (или кто для кого готов)</p><p>Профессия "плотник" полезна в обычной жизни, а что можно сказать о "программисте"? Когда государственной политикой является цифровизация, то правительство должно понимать: цифра она везде цифра! И в обычной жизни придется учитывать и такие истории. Но сначала, чтоб не тратить время "продвинутых" хабберчан, краткое резюме: 1. уровень технической информации = junior 2. стек = python, ultralytics, YOLO (различных версий) 3. тема = распознование объектов, обучение модели 4. социальная польза = забота об экологии в городе Москва История эта началась в нулевых, когда в очередной раз проходя мимо круга разворота автобусов, что находится у дома, я заплутал между громадного их количества, стоящих с включенными двигателями и чадящим прямо под окнами жителей. детали под катом</p><p><a href="https://habr.com/ru/articles/895048/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/895048/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/ultralytics" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ultralytics</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/YOLOv12" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>YOLOv12</span></a></p>
Habr<p>Mask R-CNN 3D</p><p>Mask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство. Входом модели Mask R-CNN 3D обычно является объёмный данных – например, медицинский 3D снимок (CT/MRI) размером (D×H×W) или облако точек, представляющее 3D-сцену. Backbone-сеть (обычно сверточная нейросеть типа ResNet) извлекает из входных данных многомасштабные признаки. В 3D версии backbone заменяет все 2D-операции (свертки, пулинг) на 3D-аналоги, позволяя обрабатывать объёмные данные напрямую. (Если 3D-данные заданы как облако точек, возможно предварительное преобразование, например, вокселизация пространства или проекция на несколько 2D-плоскостей – об этом подробнее в разделе 6.) Backbone формирует карты признаков – объёмные тензоры с пониженным разрешением, но содержащие высокоуровневую информацию о структуре объектов в сцене. Далее вступает Region Proposal Network (RPN) – небольшая сеть, скользящая по картам признаков и генерирующая набор предположительных объектов (region proposals) в виде ограничивающих 3D-рамок (прямоугольных параллелепипедов в координатах исходного объёма). RPN использует заранее заданные «якоря» (anchor boxes) – шаблонные 3D-боксы разных размеров и соотношений сторон, размещенные по всей карте признаков . Для каждого такого anchor RPN предсказывает два значения: объектность (есть объект/фон) и смещение рамки (на сколько нужно подвинуть и масштабировать anchor, чтобы точнее охватить объект). После этого выбираются топ-N наиболее перспективных предложений с помощью non-maximum suppression (NMS) – подавления пересекающихся рамок с меньшей оценкой.</p><p><a href="https://habr.com/ru/articles/892892/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/892892/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/pytorch3d" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pytorch3d</span></a> <a href="https://zhub.link/tags/3d" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>3d</span></a> <a href="https://zhub.link/tags/computer_vision" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>computer_vision</span></a> <a href="https://zhub.link/tags/cnn" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>cnn</span></a> <a href="https://zhub.link/tags/mask_rcnn" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>mask_rcnn</span></a></p>