Александр Малютин рассказал об устройстве своего проекта RYBO.RU, который автоматически ищет интересные дела по судебным базам. Моя оценка: Браво. Возможно, это самая лучшая оригинальная идея на российском рынке медиа после «Коммерсанта». Не по масштабу, конечно, (пока еще), но по самопричинности и добавленной стоимости.
При чтении вот этого эпизода возникла ассоциации из истории ИИ.
«»»»По ходу выяснилось, что в ГАС «Правосудие» свежий интересный иск можно найти руками часа за два-три — если вы, конечно, достаточно эрудированы, чтобы по фамилии человека (или наименованию компании) понять, что истец или ответчик интересны для СМИ. Например, если иск подан к Орбакайте или Газпрому — это потенциально интересно. Ну то есть участник разбирательства должен быть звездой — звездой-человеком или звездой-компанией. И тут — оба-на! Становится понятно: чтобы находить интересные иски, не нужно никакого ИИ — достаточно заложить в комп список звезд и пусть он себе лопатит судебные картотеки, проверяя, нет ли там исков к участникам списка.»»»»
Во время второй игры с Deep Blue, Каспаров как будто физически ощущал, как компьютер в «соседней комнате» перебирает варианты. И в какой-то момент, говорит Каспаров, ему почудилось, что чудовищная скорость перебора — это и есть интуиция.
Кто его знает.
По поводу Rybo, недостатки:
1) Ужасное название. Кто не слышал со слуха, с листа может прочитать криво. Для будущего коммерческого бренда это плохо.
2) Кто пробовал, говорят, что не все ищется, что местами есть кривизна. Ничего страшного. Это стартап. Этот этап нужен, чтобы показать методологическую осуществимость замысла. На докрутку купит инвестор. Мильнер, наверно, уже ногти грызет.
АМ
Полнотекст истории Малютина (взят с его странички в ФБ, там же обсуждение и критика)
Как обещал, рассказываю, откуда взялся проект RYBO.RU и кому с него что.
Причина первая: журналистские нужды. Существует много методов добычи эксклюзивной информации для СМИ, и один из них, сравнительно новый — открытые базы данных (БД). Ну или базы открытых данных, кому как больше нравится. На БД о госзакупках ваш покорный слуга в прошлой жизни построил целое мини-СМИ zakupki_news, ежедневно перелопачивая руками кучу сообщений о тендерах в поисках чего-нибудь интересного. Соответственно, еще тогда я много думал, а как бы это тупое перелопачивание автоматизировать.
Оказалось, это не так просто. Конечно, комп за минуту способен просмотреть больше тендерной документации, чем чел за месяц, но вот как ему, железному, объяснить, какие тендеры интересные? Самые дорогие? Как бы не так. Самые дорогие это всякие парогенераторы и экскаваторы, про что читать никого не заставишь. Надо объяснить компу, что искать для СМИ нужно такие закупки, как «золотая кровать МВД» или концерт группы «Бурундийские барабанщики». Но это задачка не из легких. Для ее решения требуются методы, не побоюсь этого словосочетания, искусственного интеллекта (ИИ), а где ж на это время найти.
Короче, полного решения этой задачи нет до сих пор, есть только несколько рекомендаций, как облегчить ручной поиск интересных закупок. Но, слава богу, БД госзакупок не единственная прикольная БД в Сети, где имеет смысл покопаться журналисту — есть еще ГАС «Правосудие» (судебные картотеки), ЕГРЮЛ, базы ФССП, ФМС, ТСЖ и всякие прочие кадастры. Валерий Вайсберг, Александр Кондратьев, Оксана Шевелькова и другие замечательные сотрудники интернет-газеты «Маркер» в 2010-2011 гг. открыли массу способов находить новости во всех этих базах. Яхты олигархов, квартиры Эрнста и жены Чемезова, катер-люкс для ФСБ в Сочи, лозоплетная фабрика Навального — все эти искрометные материалы были сделаны на основе информации из БД в Сети.
По ходу выяснилось, что в ГАС «Правосудие» свежий интересный иск можно найти руками часа за два-три — если вы, конечно, достаточно эрудированы, чтобы по фамилии человека (или наменованию компании) понять, что истец или ответчик интересны для СМИ. Например, если иск подан к Орбакайте или Газпрому — это потенциально интересно. Ну то есть участник разбирательства должен быть звездой — звездой-человеком или звездой-компанией. И тут — оба-на! Становится понятно: чтобы находить интересные иски, не нужно никакого ИИ — достаточно заложить в комп список звезд и пусть он себе лопатит судебные картотеки, проверяя, нет ли там исков к участникам списка.
Если развивать мысль дальше, можно придумать целое мини-СМИ, построенное исключительно на интересных исках, найденных автоматически. А если еще дальше, да с подключением ИИ — то можно представить себе такие мини-СМИ по каждой БД. Ну а если их объединить, то получится уже настоящая большая «датамайнинговая» (от data mining — поиск и обработка данных) интернет-газета, с настоящими рубриками, тематиками, аналитикой и первой полосой (то есть, простите, c первым экраном). Забитая под завязку собственной эксклюзивной информацией. Вот крутая госзакупка в первом экране, а вот крутой иск. Один олигарх зарегистрировал новую фирму. Другой обанкротился. А вот еще свеженький пехтинг… И что еще прикольно — такая газета даже технически, на уровне концепции, оказалась бы абсолютно независимой: от происков пиарщиков, от гнета чиновников, от набросов популярных блогеров и прочих трендов твиттера. Только БД, только хардкор, только реальная инфа.
Но спустимся обратно на грешную землю. Пока на подобный проект не родился инвестор, займемся вещами посильными, но тоже довольно прикольными.
Причина вторая, хотя по важности, может, и первая: неудовлетворительные собственные средства поиска в БД. Многие, думаю, читали заметки про то, как Аркадий Волож с группой товарищей ходят сейчас по правительственным структурам и пытаются убедить государство открыть побольше данных, и лучше в удобной форме. И тогда Яндекс и другие компании понаделают кучу полезных сервисов для народа. Волож совершенно прав. Все это базо-данное хозяйство действительно если и не закрыто, то как правило страшно неудобно устроено. В том числе оно очень неудобно для автоматического чтения и обработки данных.
Среди специалистов, недовольных стандартными средствами поиска, был и адвокат Дмитрий Дмитриев, с которым мы познакомились еще в zakupki_news. Многие коллеги, которые занимаются госзакупками и антимонопольными делами, хорошо знают Дмитрия, потому что ему по роду деятельности часто приходится иметь дело как раз с госзакупками и антимонопольными делами. Соответственно, он хорошо знает, что такое и БД госзакупок, и БД ФАС, и, конечно, любимая ГАС «Правосудие». Однажды летом 2012 г. мы встретились и решили, что хватит это терпеть. Нужно сделать альтернативный поисковик по судебным картотекам, а на его базе — всякие разные полезные сервисы. Для многих категорий пользователей: банкиров, страховщиков, руководителей крупных компаний, юристов, пиарщиков-джиарщиков, журналистов, ну и вообще всех, кто может оказаться в роли ответчика, истца или третьего лица.
Ну что. Назвали проект RYBO, составили техзадание первой очереди, нашли подрядчика для работ по программированию — компанию «Инновационные поисковые технологии» (Саратов). Эта компания специализируется на поиске (опять же альтернативном) по госзакупкам и базе ФАС, а ее директор Олег Абдрашитов тоже входил в сообщество zakupki_news. В результате появилась версия, которую мы вчера открыли для публичного тестирования и юзания.
Помимо обычного расширенного поиска по судебным картотекам реализован на данный момент еще один сервис — мониторинг судебных дел по участникам из заранее составленных списков. Вот захочет, допустим, крупный холдинг узнать, как обстоят судебные дела в дочерних компаниях — может составить список этих компаний и подключить к RYBO. Или, допустим, захочет руководство какой-то компании узнать, нет ли у ее сотрудников дошедших до суда проблем с банками кредиторами — составляем список сотрудников и подключаем к системе мониторинга RYBO. Ну а если какому-нибудь журналисту надоело каждый день звонить Адагамову с вопросов, подал ли он уже иск к Потупчик, как обещал, такой журналист может легко подключить Адагамова к RYBO и идти курить.
Для примера мы составили список из примерно 2000 «звезд», то есть персон, потенциально интересных СМИ. Как при этом работает машинка, можно посмотреть. Но список этот, конечно, очень короткий и неполный, он просто тестовый. Мы надеемся, что этот сервис заинтересует СМИ, ведь он позволяет увеличить количество собственной информации, если это еще кому-то нужно (а я верю, что нужно). Если вы маленькая районная газета — составьте свой маленький районных список локальных «звезд», подключите к RYBO и если кто-то будет судиться, вы своевременно об этом узнаете. Если вы мини-СМИ про нефтяников или инвестбанкиров — давайте нам списки ваших ньюсмейкеров. Спортивному СМИ мы всегда готовы предоставить суды Карпина и Аршавина, желтому — Ваенгу и Лепса. Кстати, интересный момент — робот RYBO, а отличие от человека, прекрасно помнит все псевдонимы звед шоу-бизнеса и никогда их не пропустит. Он точно знает, что Вера Викторовна Киперман это Вера Брежнева, а даже самый преданный агент-человек в суде может и забыть.
В принципе, если изданиям самим не хочется составлять списки, то мы по заказу можем составить и сами, только нужно договориться об условиях. В любом случае мы не хотим брать со СМИ живые деньги. Хватит и будущей рекламы наших коммерческих сервисов на любых местах. На тестовый период (минимум до конца апреля) все вообще совершенно бесплатно. Единственный вариант, при котором мы можем захотеть каких-то (да и то символических) денег со СМИ — если вдруг какое-нибудь издание захочет получить эксклюзив на свою тематику. Типа давайте иски спортсменов только нам и больше никому.
О коммерческих сервисах пока скажу кратко — мы их разрабатываем, но особо распространяться на эту тему не хотим, на то она и коммерческая. Пока мы не торгуем вообще ничем, а только консультируемся с потенциальными клиентами и пользователями RYBO. В самых общих чертах речь идет о результатах обработки судебной информации. Ну а вдруг Сберу интересно, что происходит у него на 80-120 делах в день только по Москве, и каковы там тенденции? Или еще пример из практики Маркера: звоним за комментарием одному крупному деятелю, против которого подан иск, а он не в курсе, и его адвокат не в курсе. Вы не представляете, как деятель разволновался и какой нагоняй устроил адвокату. Ну так неужели ему жалко заплатить за своевременную инфу? Etc.
Помимо исправления ошибок и отладки технологии, важнейшая задача периода тестирования — определить, на каких направлениях и продуктах следует сосредоточиться дальше. Если, допустим, никто не заинтересуется исками к депутатам — зачем нам тогда развивать этот список? Если проявится интерес не только к звездам спорта, но и их родственника — значит, надо бросить силы и средства на этот сектор. Необъятного никто не обнимет, а в нашей базе и так уже больше 210 Гб. Это 0,1-0,15% от Яндекса, что, как вы понимаете, немало.