Статистика ВК сообщества "mlcourse.ai"

0+
Learn ML the hard way!

Графики роста подписчиков

Лучшие посты

Типа как блох Yorko

Тут это... больше 10к человек сидит, а группу активной явно не назовешь. Пока я (и мы – ODS в целом) думаем, как бы возродить mlcourse.ai в исходном виде и кто это будет тащить, я тут временно буду о чем-то писать.

Вроде как блог, как если бы на дворе был 2016 и начинать новый блог по ML/DS/"AI" было круто. У меня нет иллюзии, что я тут сейчас стану суперблогером-инфлюенсером (иначе делал бы видеообзоры статей в тиктоке). Я сам подписан на блоги кучи крутых парней и никого почти регулярно не читаю (может, за исключеним vas3k) – только по необходимости, по конкретной теме. Так что чукча – писатель, я тут ~ раз в месяц буду писать что-то для самого себя интересное :) потенциально это может оказаться интересным и для вас.

А для меня интересны реальные истории ML-проектов, карьерные вопросы, математика в ML, разные кулстори и немного (по инерции) образование в области ML. Прям блог да на английском начинать не хочется (commitment), так что тут попишу, посмотрю, как это вам заходит, как это мне заходит.

Первый пост – про пару важных ML-курсов, которых сейчас не существует (вроде как).

49 7 ER 1.7616
Скоро DataFest 2021, прекрасное событие, всем рекомендую. В частности, в треке про найм и карьеру в Data Science я расскажу о своих набитых шишках и фэйлах в DS-проектах. Этот пост для затравки, рассказывает об одном таком фэйле.

37 0 ER 0.9004
Люблю нашу профессию – Data Science. Хоть изредка, но появляется в проектах математика. Поделюсь одной задачкой на графы, которая у меня возникла прямо в проекте, сначала будет мотивация, потом математическая формулировка. Там хоть не чисто ML, но понятия точности/полноты возникают, так что, может, и не ML, но DS – да.

Мотивация

Прилетают тексты, которые мы обрабатываем, это может быть что угодно – обращения в техподдержку, заявки на гранты и т.д. Суть в том, что на каждый текст тратятся усилия, а также могут быть дубликаты, и хочется избежать обработки дубликатов. Вопрос в том, как с течением времени (и накоплением размера выборки) меняется процент дубликатов. То есть, по сути, насколько хуже становится ситуация, насколько больше денег теряется на обработку дубликатов. На практике речь идет о почти-дубликатах и есть эффективный алгоритм их нахождения (вот тут, к слову, возникают точность и полнота, т.к. алгоритм вероятностный)– Locality Sensitive Hashing – но это уже не принципиально.

Математическая постановка задачи

Пусть граф G = (V, E) обозначает отношение “быть почти-дубликатом”, V – множество индексов текстов, E – множество ребер, соединяющих пары вершин - почти-дубликатов.
Предположение: пусть вероятность наличия ребра между любой парой вершин фиксирована и равна p.
Вопрос: как доля вершин, имеющих хотя бы одно ребро (т.е. текстов, имеющих хотя бы один почти-дубликат), меняется с ростом числа вершин |V| ?

Продвинутый уровень: есть два разных отдела, занимающиеся одним и тем же – обработкой таких заявок. Дубликаты попадаются как внутри каждого отдела, так и между отделами. Но обмен данными между отделами сложен или запрещен, так что замерить процент дубликатов между отелами мы не можем. Как и не можем предполагать, каков вероятность появления дубликата между отделами (просто никак не сможем это проверить на данных). На картинке показаны оранжевый граф и синий граф, а также черные ребра – между ними. Вот про них мы ничего не знаем. Можем ли мы смоделировать процент дубликатов между отелами на основе наблюдений внутри каждого отдела?

То есть есть два графа G1 = (V1, E1) и G2 = (V2, E2).
Вероятность наличия ребра между любой парой вершин из V1 фиксирована и равна p1. Вероятность наличия ребра между любой парой вершин из V2 фиксирована и равна p2.

Какова доля соединенных ребер в графе G = (V, E), где
V = V1 ∪ V2,
E = E1 ∪ E2 ∪ E12,
E12 – множество ребер (v1, v2) таких что v1 ∈ V1, v2 ∈ V2.

Кто хочет, может взять ручку-бумажку и поботать. Я позже поделюсь своим решением.

41 8 ER 0.9582