Habr.com

Ленты новостей Хабр
Все публикации подряд на Хабре
Обновлено: 1 час 12 мин. назад

Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк

пт, 05/29/2026 - 13:29

Ни для кого не секрет, что эра «спросить что-то у GPT» постепенно уходит в прошлое. На смену генеративному AI приходит Agentic AI, который не просто проконсультирует, а по вашему запросу придёт и сделает все сам. То же самое и с кодовыми агентами, они не просто отвечают на вопросы,  они читают документацию, работают в терминале, дёргают API, правят файлы и в идеале закрывают задачу целиком, от тикета до мёрж-реквеста.

Звучит здорово, пока не выясняется, что ваш агент починил баг, сломав при этом три соседних модуля, или молча проигнорировал половину требований из задачи. Короче говоря, агенты умеют халтурить, и делают это красиво. А значит, их нужно постоянно тестировать. Причем тестировать в условиях, максимально приближённых к рабочим: с реальным репозиторием, CI-пайплайном и набором тестов, которые не обманешь.

Именно для этого в AI-сообществе появился целый класс таких инструментов как бенчмарки и песочницы, заточенные под оценку агентов. В этой статье мы разберём, какие подходы к тестированию кодинг-агентов существуют сегодня, в чём их сильные и слабые стороны, и расскажем, как мы в Doubletapp создаём кастомные бенчмарки на приватных данных.

Содержание
Какие бенчмарки сейчас используют
Почему публичных бенчмарков недостаточно
Кастомные бенчмарки как следующий слой тестирования
Как выглядит пайплайн кастомного SWE-style бенчмарка
Заключение

Читать далее

Ответ на статью «Почему советские программисты не сделали GTA»

пт, 05/29/2026 - 13:27

В целом не смотря на "ВОМГЛУ" были крупные проекты способные конкурировать с западными играми, например ИЛ-2 Штурмовик, Дальнобойщики 2

Читать далее

1C Code Bench — спустя 5 месяцев

пт, 05/29/2026 - 13:21

В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и проверки результатов, использованные технологии и прочее. На момент написания той статьи бенчмарк насчитывал 20 задач.

Читать далее

[Перевод] «Квантовый» принцип, объясняющий, почему атомы устроены именно так

пт, 05/29/2026 - 13:19

Что делает материю стабильной? Почему атомы такие, какие они есть? Почему разные материалы различаются по своим свойствам, таким как электропроводность, плотность, температура плавления или спектры поглощения света?

Эти вопросы сильно занимали физиков в течение десятилетий после того, как Дмитрий Менделеев представил свою периодическую таблицу химических элементов в 1869 году. Они получили новый импульс на рубеже XX века благодаря открытию Дж. Дж. Томсона, что атомы не являются неделимыми, а содержат более мелкие, отрицательно заряженные частицы, называемые электронами, — первые найденные учёными субатомные частицы. Затем, в 1911 году, Эрнест Резерфорд обнаружил, что атомы содержат центральное «ядро» с плотно сконцентрированным положительным зарядом.

Так началось увлекательное путешествие в мир открытий, направленных на понимание законов, определяющих устройство субатомных структур. Оно достигло своего рода кульминации столетие назад, в начале 1925 года, с формулировкой принципа, который с тех пор лежит в основе наших представлений о стабильности материи.

Речь идёт о принципе запрета Паули, названном в честь блестящего молодого австрийского физика-теоретика Вольфганга Паули. Принцип стал результатом того, что сегодня называют «старой квантовой теорией» — периода ситуативных теоретических поисков между 1900 и 1925 годами, который привёл к появлению в 1925–1927 годах последовательной теории квантовой механики, разработанной Вернером Гейзенбергом, Паскуалем Йорданом, Максом Борном, Эрвином Шрёдингером, Полем Дираком и другими. Принцип Паули можно считать вершиной старой квантовой теории и, что не часто бывает, он сохранился и был включён в новую. Попробуем вспомнить о путешествии физиков, предпринятом в попытке понять, исправить и проверить свойства, предсказанные периодической таблицей, и о том, как этот принцип направлял наше понимание материи — обычной и не только.

Читать далее

Их было трое: системный аналитик, набор требований и нездоровая химия между ними

пт, 05/29/2026 - 13:14

Работа с требованиями для системного аналитика порой очень напоминает токсичные отношения. Сначала задача вас просто привлекает и воодушевляет — идеей, ценностью или в целом новой предметной областью. Затем поглощает все внимание и полностью овладевает умом. Но со временем процесс начинает напоминать эмоциональные качели: правки, надежда на прояснение требований, новые правки, неверная оценка, уточнения... И по итогу оказывается, что вы уже терпеть не можете эти требования, но при этом и не закончить задачу тоже не можете. Знакомо?

Привет, Хабр! Меня зовут Александр Малышев, я лид системных аналитиков в МТС Cashback. Этот материал на Хабре для меня дебютный. В нем я рассмотрел одну из вечных дилемм — изменчивость требований, под не совсем обычным углом и в нетипичном для Хабра литературном стиле — как красивую и головокружительную love story системного аналитика и требований бизнеса. Если вдруг вам интересно почитать мои изыскания в формате рассказа — добро пожаловать. Прошу не судить строго, но буду рад конструктивной критике.

Читать рассказ

Регистратор каротажной станции

пт, 05/29/2026 - 13:06

Всем привет, вот появился свободный денек для написания части про каротажный регистратор. Если в предыдущей статье я описал все подряд, весьма обобщенно и не конструктивно, то теперь, я решил все разбить на этапы. Начнем с каротажного регистратора.

Классические регистраторы от именитых брендов, типа "Велко", "Вулкана" и тд. имеют свой интерфейс, выглядят очень круто, и стоят очень дорого. Как правило большинство приборов используют Манчестер-2 для общения прибор-регистратор. Для этого им достаточно иметь на кабеле одну жилу и броню. Но тут сразу появляется очень много НО ( на мой профессиональный взгляд из всех не профессиональных )). Во-первых как по одной жиле передать видео сигнал ? AHD скажите вы, согласен но геофизический кабель не коаксиал и далеко видео сигнал не кинешь. Бывают коаксиальные геофизические кабели, согласен, но коаксиал для видео не AHD такое себе. Далее расскажу почему AHD идея не сработала у меня. ( спойлер OSD).

В целом, список требований к регистратору:


1) он должен принимать сигнал с каротажной видеокамеры.

2) принимать данные с каротажного прибора

3) должен быть экран для вывода глубины

4) нужно контролировать питание прибора и выводить на дисплей

5) контролировать глубину исследования и скорость спуска

Примерно такой лист требований был у меня в голове. Кабель был 3х жильный геофизический в броне. И так начинаем рисовать: Сердце регистратора будет stm32f401 - черная таблетка. К ней мы подключим дисплей DWIN. На дисплей нужно вывести кнопки управления режимами прибор либо видеокамера, подача питания, надо учесть возможность подключения аналоговых приборов, а также вывод глубины на видеопоток.

Читать далее

Интересные ИИ-агенты в проде: что они умеют и чему у них можно поучиться. Pixel Societies, Notable, Gamma, Air Traffic

пт, 05/29/2026 - 13:05

Привет, я работаю аналитиком Cloud.ru. По работе я много смотрю на ИИ-агентов и пытаюсь понять, что интересного могут предложить разработчики. Решила собрать кейсы с разным уровнем зрелости: какие-то из них уже работают в проде, а какие-то — еще на этапе теста или внутреннего использования.

Читать далее

MSDSL. Два мегабита по двум проводам

пт, 05/29/2026 - 13:05

Приветствую всех!

Не так давно я уже рассказывал про ADSL и всё, что с ним связано. Когда-то давно благодаря этой технологии многие впервые смогли выйти в интернеты на высокой скорости, а кто-то до сих пор пользуется таким подключением из-за дешевизны или за неимением альтернатив.

Но ADSL — технология асимметричная: скорости приёма и отдачи отличаются, а модем подключается только к провайдерскому оборудованию (DSLAM). Сегодня же мы поговорим кое о чём куда менее известном среди простых пользователей: о симметричных системах. Узнаем, как выглядит их оборудование, где оно применялось и как заставить его работать. Как водится, будет много интересного.

Press F1 to continue

Видео → текст → саммари. Ставим транскрибацию на Mac

пт, 05/29/2026 - 13:02

Транскрибируем любое видео локально, прямо на Mac. Бесплатно, приватно, с качеством на уровне платных сервисов. Полный гайд: настройка, скрипт и промпт для саммари

Читать далее

[Перевод] Cilium и защита CI/CD: как опенсорс-проект уровня ядра Kubernetes защищает свою цепочку поставок

пт, 05/29/2026 - 13:01

Cilium работает в сетевом пути уровня ядра в миллионах Kubernetes-pod'ов: от облачных провайдеров до собственных кластеров банков и телекомов. Если бы кто-то скомпрометировал сборочный пайплайн Cilium, зона поражения была бы сопоставима с инцидентом SolarWinds, но в облачно-нативной экосистеме. Поэтому подход проекта к безопасности CI/CD интересен не только мейнтейнерам других опенсорс-проектов: те же паттерны полезны любой команде, которая собирает прод-артефакты в GitHub Actions. Команда VK Cloud перевела статью с конкретными YAML-конфигами, дизайн-решениями и честным списком того, что у Cilium пока не сделано.

Читать далее

«Красный Атлас», или как создавались самые детальные карты в истории человечества

пт, 05/29/2026 - 13:00

В 1993 году британский разработчик Джон Дэвис случайно наткнулся на пыльную коллекцию карт в книжном магазине в Риге. На них были изображены небольшие города в Канзасе, сельские дороги в Танзании, валлийские деревни, которых нет ни на одной карте, неработающие трамвайные линии в Великобритании. Карты имели информацию о грузоподъемности мостов, глубине водоемов, составе дорожных покрытий и даже расстоянии между деревьями в лесу. Они были точнее, чем лучшие западные военные карты того времени.

На протяжении десятилетий, в условиях полной секретности, Советский Союз скрупулезно картографировал не только собственную обширную территорию, но и весь мир. Эти карты — одно из самых амбициозных картографических начинаний в истории человечества.

Читать далее

Как прошла INFOSTART FRIENDS REGATA 2026 в Турции

пт, 05/29/2026 - 12:50

Вот и завершилась INFOSTART FRIENDS REGATA 2026 в Турции. Семь дней – с 16 по 23 мая – пролетели между гонками, вечерними разговорами на яхтах, острыми моментами в море и бесконечно красивыми бухтами Эгейского моря.

Рассказываем, как это было...

Читать далее

Победитель ТОП-100 CIO Владимир Крыльцов: «70% ИИ проектов не взлетают. Внедряйте ИИ туда, где понятен ROI»

пт, 05/29/2026 - 12:34

Директор ИТ компании ГК ФСК и победитель рейтинга ТОП-100 CIO России Владимир Крыльцов рассказал, почему 70% пилотов остаются пилотами, как считать реальный эффект от нейросетей и почему гонка за хайпом дороже ошибки в прогнозе.

Читать далее

Obsidian Hybrid Search (OHS). MCP и CLI, которые выводят поиск по заметкам с AI-агентами на новый уровень

пт, 05/29/2026 - 12:30

AI-агенты умеют искать по Obsidian-хранилищу, но делают это слишком топорно через glob и grep. Да, для кода эти инструменты работают потрясающе, но хранилище в Obsidian не имеет такой же высокой структурированности. Искать по нему чисто лексически – значит терять инсайты, которые связаны по смыслу.

Чтобы решить эту проблему, я разработал Obsidian Hybrid Search – MCP-сервер и CLI, которые дают агенту мощный поисковый движок поверх заметок.

GitHub + Obsidian Plugin

Перестать заниматься glob-grep-ингом

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

пт, 05/29/2026 - 12:30

Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво. Одновременная работа с категориальными и количественными признаками нас не затруднит.

Читать далее

Карго-культ аудита

пт, 05/29/2026 - 12:30

Начинать, наверное, нужно с рассказа о том, что такое карго-культ вообще. Если кратко: люди в довольно примитивных обществах наблюдали, как огромные самолёты сбрасывали продовольствие и боеприпасы воюющей армии, и решили, что для того, чтобы тоже получать «подарки», нужно не изобрести самолёт, не выстроить логистику доставки, не развивать сеть заводов, а одеться, как военные, и построить из кокосовых пальм и соломы взлётную полосу и радиовышку. В ИБ тоже есть свой карго-культ и называется он «лучшими практиками».

Читать далее

Карго-культ аудита

пт, 05/29/2026 - 12:27

Начинать, наверное, нужно с рассказа о том, что такое карго-культ вообще. Если кратко: люди в довольно примитивных обществах наблюдали, как огромные самолёты сбрасывали продовольствие и боеприпасы воюющей армии, и решили, что для того, чтобы тоже получать «подарки», нужно не изобрести самолёт, не выстроить логистику доставки, не развивать сеть заводов, а одеться, как военные, и построить из кокосовых пальм и соломы взлётную полосу и радиовышку. В ИБ тоже есть свой карго-культ и называется он «лучшими практиками».

Читать далее

[Перевод] Понятие о конечных автоматах: руководство разработчика по предсказуемой логике приложений

пт, 05/29/2026 - 12:24

Привет, Хаброжители! Вы когда-нибудь отлаживали такой компонент пользовательского интерфейса, где достаточно нажать в неверном порядке несколько кнопок – и приложение валится? А не доводилось ли вам ломать голову, пытаясь отследить, почему в некоторых случаях форма отправляется нормально, а в других — отказывает? Такие неприятные сценарии зачастую возникают по одной базовой причине: непредсказуемое управление состоянием. Мы привыкли полагаться на булевы флаги, рассеянные по коду инструкции if-else, тем временем надеясь, что наше приложение будет правильно работать, чего бы пользователь ни делал в интерфейсе.

Читать далее

Встречаем маршруты «Прогулочный» и «Оживлённый» в Яндекс Картах, или Как мы учили модель понимать предпочтения людей

пт, 05/29/2026 - 12:18

Год назад я рассказывал, как Яндекс Карты научились учитывать рельеф и лестницы при построении пешеходных маршрутов. Но альтернативные варианты по-прежнему выглядели для пользователя как просто «ещё один путь, только дольше» — и люди не раздумывая выбирали самый быстрый. Теперь у каждого альтернативного маршрута появилось имя и характер: например, «Быстрый», «Прогулочный», «Оживлённый» или «Без лестниц».

Простые категории посчитать несложно. А вот «Прогулочный» и «Оживлённый» — это субъективные характеристики: в хорошую погоду хочется пройти через парк или вдоль набережной, а в тёмное время — по освещённым улицам, подальше от дворов и промзон. Для этого с помощью LLM мы обучили легковесную модель, которую и применили в сервисе. Как именно — читайте в статье. Сам путь разработки оказался совсем не «Быстрым» и далеко не «Прогулочным» — с тупиками и неожиданными поворотами там, где их не ждали.

Читать далее

Чтение на выходные: «Жесткий менеджмент: Заставьте людей работать на результат» Дэна Кеннеди

пт, 05/29/2026 - 12:05

Дэн Кеннеди — тот самый автор, чьи книги всегда имеют в названии приписку No B.S. (Без соплей). Его стиль узнаваем с первых страниц: никаких теорий про команду-семью, никакого «сотрудники — наше главное достояние». Только железные рецепты, проверенные на деле, и полное отсутствие желания кому-либо понравиться.

Читать далее

Сейчас на сайте

Сейчас на сайте 0 пользователей и 6 гостей.