А есть ли мальчик? Или иллюзия релевантности

Я уже некоторое время назад провела эксперимент. В общем здесь это не так интересно обсуждать, как на Имхонете, потому, что здесь люди и так знают,  в чем проблема алгоритма. Но это все-таки предположения, я лично предпочитаю проверять.  
Вопрос о релевантности занимал меня давно. Тем более после того как недавно одна моя знакомая порекомендовала мне Имхонет, да еще пыталась меня уверить, что  там есть метки. Ну не заметила она редизайн не зная уж каким образом.  Так вот она меня в том числе уверяла, что он дает релевантность.
И даже история про парня с 50 единицами (она была перед самым редизайном), который получал при этом рекомендации ее не удивила.  Она на полном серьезе меня уверяла, что тот кто не есть гречневую кашу, с интересом  получит рекомендацию от другого нелюбителя гречневой каши. Мое мнение, что такой человек просто не знает свое отношение ко всему кроме каши, и может получить  из меню что угодно
 Нет,  я ее понимаю, я тоже уверяла того парня (с 50 единицами), что алгоритм работает. После  редизайна я задумалась – попадание было одно. «Гиперион». Остальное я искала другими методами.  И этих методов стало значительно меньше.
Есть такая иллюзия работы алгоритма. Откуда она берется? Когда мы приходим и ставим оценки, то получаем список с большим количеством книг, и некоторые из них те, которые мы любим. Казалось бы алгоритм работает. Но так ли это или это иллюзия?
Провела эксперимент - я создала виртула. Виртуал приходит с начала и оценивает книги.  
Его интересы такие же как у меня.  Иначе мне не оценить точность работы алгоритма. Но я выбрала из моих интересов книги до 19 века и фантастику. Задача получить любимых авторов в этих жанрах.
Виртуал  ничего не знает в Имхонете и оценивает то, что ему показывают. Раньше был список книг с неоднозначными  оценками, но теперь до него надо еще добраться. Так, что виртуал оценил книги, что были   - Булгаков , Пушкин, Стругацкие, после 17 оценки появились рекомендации.   Среди рекомендованных книг открываем старинную литературу и 17-18 век (то есть книги до 19 века). Шекспир, Данте, «Илиада». Казалась бы удача. Но берем в этом разделе список самых популярных книг и выбираем авторов, имеющих больше 8. Шекспир, Данте, Гомер.   Алгоритм выдает мне высоко оцененные популярные книги. Есть большая вероятность, что мне что-то из этого списка понравится. Так и происходило раньше. Хорошо, оценим больше. Но не будем трогать «Одиссеею» и «Сида» Корнеля. Оценивая дальше список практически не меняется. Самое интересное, что оценки по классики только чуть выше средних. 10 баллов «Илиаде»  все равно приводят к оценки 8.4 для «Одиссеи», такая же оценка при неотмеченной «Илиаде». Даже после того, как «Илиада» стала знаковой. Очевидно должна быть заметная корреляция. Но она не проявляется никак.  Но Гомер, как популярный автор по крайне мере появился в рекомендациях. Корнель с несколькими десятками не появлялся никак. Оценки двух его книг из трех и еще «Песни о Сиде»,   изменения параметров поиска , то что убраны были все популярные авторы.  Ничего не дает. Корнеля мне правда теперь рекомендуют  и оценка рекомендателей «Сида» чуть выше среднего (это при том, что его две книги я оценила на 10, это реально мой автор). Но эта куцая  рекомендация проявляется, только  если я нажму на «Сида».  Что получается –  что бы я не делала, я получаю рекомендации по принципу популярные  высокооцененные книги в выбранном мною жанры. Но точно такой список я могу составить открыв раздел. Увы, тут нет возможности выбрать книги  в каталоге по двум параметрам, а самые высокие оценки, имеют книги, которые оценили 1-2 человека.   Но в общем получить такой список в популярных книгах в жанре несложно.
  Перейдем к фантастики – оценим Азимова и Хайнлайна, и будем ждать других авторов золотого века НФ. Это не помогает – я все время получаю Желязны (скорее фэнтези) и российских авторов, которых я не люблю в принципе. В списке правда был рассказ «Цветы для Элджерона». Один из любимейших моих рассказов. Но он сверху в списке популярных высокоценных.
 Убираем Стругацких, оцениваем еще.  Наконец появляется Гаррисон, но с третей книгой в серии. Не Кларка, не Андерсона, не тем более любимых редких авторов я так и не дождалась. К этому времени у меня было оценено более 200 книг, и я перешла к третей части эксперимента. Попробуем плохих авторов, оценим сверхвысоко Донцову.   Две страницы книг Донцовой с 10 баллами не помогли. Мне рекомендуют читать детективы Эко, Кристи и Хмелевской, но  мне их и раньше рекомендовали. Может быть просто нельзя читать Гомера и Донцову одновременно. Уберем всех классиков, ну кроме Пушкина. Не помогает. Только после того как я еще и половину фантастов убрала и ограничила время написание книги, я получила Полякову.   Одновременно я получила рекомендации читать Хейли  - он до сих пор пишет книги по мнению Имхонета.
Можно конечно сказать, что я оценила мало книг. Но у меня то их тысячи и алгоритм тоже не работает.  Так что вывод можно сделать вполне обосновано.
АЛГОРИТМ РЕАЛЬНО НЕ РАБОТАЕТ. Он кажется работающим потому, что в основном пользователь получает список популярных высокоценных книжек, которых  легко получить зайдя в каталог . При чем получает эти книги обычно чуть выше средних баллов, даже при условии что остальные книги этого автора он оценивает на 1.5- 2 балла выше средних оценок.  Никакой индивидуальности а рекомендациях нет, есть лишь некоторое разделение по группам. Вы можете пойти в классику или в фантастику.
Ответ: А есть ли мальчик? Или иллюзия релевалентности

Пенелопа, а вы ещё надеетесь на работоспособность чего-либо вообще?! :))) Забываете, в какой стране живём?! )) у нас слесари приходят на дом, трубы канализационные менять, так возни на несколько дней и ещё не то поставят, а вдобавок и унитаз придётся менять :))

Ответ: А есть ли мальчик? Или иллюзия релевалентности

Ну, надежда, как всегда, удирает последней. Потом сидит в подворотне и подсчитывает синяки ;)
Мне тоже, как и Пенелопе, иногда хочется "выяснить отношения" до конца, особенно если оппонент продолжает пускать пыль в глаза.

Ответ: А есть ли мальчик? Или иллюзия релевалентности

Интерсно... Отсюда наверное можно сделать вывод что такого алгоритма как его позиционируют на сайте нет вообще.
А вы списки рекомендателй смотрели? Что они читают?

Ответ: А есть ли мальчик? Или иллюзия релевалентности

Слегка не в тему: не могу понять, "релевалентность" - это синоним релевантности?

Ответ: А есть ли мальчик? Или иллюзия релевалентности

Я как раз вчера ночью, пока писала пост в друго йтеме, пришла к тому, что результат раоты алгоритма можно получить обычным фасетным поиском. :)))
Шибзд, мои рекомендатели читали либо то, что читала и я, либо что-то, что я принципиально не читаю. В списке "Не предлагать" у меня было более 6000 книг и авторов.

1 Ну да, надо
1 Ну да, надо писать релевантность, это я на слух так запомнила,
  но пока Пергам так работает я вряд ли  исправлю.

2 Проблема в том, что есть люди, которые думают, что алгоритм работает.  "Ну как же он  не дает мне Донцову". Так он моему виртуалу ее не рекомендают, а он ее "фанат"  в результате. Донцове в среднем ставят низкие оценки.
3 Списки  чтения рекомендателей ничего не дают ибо там все в кучи.

4 Так не так уж сложно исправить алгоритм. Для этого он должен иметь больше параметров. Ведь, что говорила Инклинг в другой теме, что-то у не совпадает с Тринидад, что-то со мной и так далее. Но совпадает то это в целом  по разделам. И я знаю чье мнение и по какому поводу будет важным.     А при большем количестве людей весь смысл, что бы найти людей, которые тоже читают фантастику и любят Азимова и Хайнлайна. Или тех, кто читал Корнеля и Расина.  В этом случае от рекомендаций был бы довольно большой смысл. Хотя далеко и не абсолютный  Но полный идиотизм искать тех, кто обладает и тем и другим качеством.  И делать оценки Корнеля, зависищими от Азимова.    Плюс  сделать авторов, зависящим от оценок произведений. Что бы тебе искали либо нового автора, либо книгу среди других книг этого автора. Опять же от этого больше смысла.  

 

Ответ: А есть ли мальчик? Или иллюзия релевантности

Вполне возможно что Корнель все=таки зависит от Азимова. Но уж точно не для всех. Вот если наблюдается какая-то стойкая корреляция в негативную или позитивную сторону тогда пусть. Но это ж надо для каждой подгрупы отдельно расчитывать а не все скопом...

Иллюзия релевантности
На практике  этой связи нет. Хотя может все дело, что нет веса. И оценка за Гомера оказывается куда важнее оценки за Корнеля потому, что  эту книгу многие прочли. Что на самом то деле глупо.
Ответ: А есть ли мальчик? Или иллюзия релевантности

Ну это смотря для кого.Для 99 человек нет. Для 1-го вполне может быть. Вся задача их собрать...

 Шибзд, я Вас не понимаю
 Шибзд, я Вас не понимаю.

Если я прочла автора А и В, то оценки этих авторов в моих глазах не зависят от оценок других людей. Мне все равно прочло ли этих авторов 10 человек или 10000.  
  А алгоритму это принципиально важно.
Поэтому  если я прочла Корнеля и Гомера, то для меня эти авторы скорее всего равны.    Скорее уж наоборот Корнель как нетривальный автор мне будет интереснее.
Решить это проблему введя вес, где будет учитываться редкость книги, чем меньше оценок по Корнелю, чем важнее оценка.
Тогда действительно можно надеяться на поиск индивидуальных рекомендаций. 
Совсем просто сделать вес, включающейся функцией. С двумя вариантами посик.
А с фантастикой вообще все проще простого. Хочу ищу в одном разделе по одному разделу, хочу ищу в общем.    Ну читают книги полные идиоты, которые пару значков поставить не смогут.

Ответ: А есть ли мальчик? Или иллюзия релевантности

Ну для определенного типа людей, скажем возраст 20-30 лет, пол мужской и т. д. которые оценили определенные книги похожими оценками может быть закономерность между совершенно разными произведениями. Для остальнх нет, для них есть. задача в том чтоб выделить эту группу, проанализировать ее и вывести эту самую закономерность. Не для всех вообще. Для всех вообще не получится закономерность стрется, а для этой группы да.

Возраст и
Возраст и пол может быть важен.   Дети,  те кто не жил в СССР, те, кто жил это разные группы. 
Но закономерность между книгами  мне не интересна. Это может быть интересно издателемя.  Мне интересен поиск людей с индивидуально похожими вкусами.   А это не происходит потому,что популярные книги забивают все остальное .  И популярные это не Донцова.  Это любой популярный автор в любом жанре.  Это Гомер, это Азимов, это Пушкин, это Стругацкие.
Так к отщепенцам пришли "спецы",  мужик честно все сказал. Алгоритм ищет людей с похожими профилями,    чио модель она и есть модель,  да еще и то, что прогноз, это оценка с учетом средней.
Только Долгин говорит иное.  
Так что  понимание априори несовершенства и желание учета индивидуальных желаний у команды Имхонета нет.  Редизайн показал, что они принципиально не понимают зачем это надо. 
 Так, что моя позиция в данном случае - просвещение пользователей на Имхо.      
Ответ: А есть ли мальчик? Или иллюзия релевантности

То что на имхо алгоритм работает плохо и так понятно, но я говорю о зависимостях между авторами в принципе. Если бы сайт постарался он смог бы для определенных пользователей эти зависимости найти. Но чего нет того нет...

Ответ: А есть ли мальчик? Или иллюзия релевантности
Так а что будет зависимостью автора от автора?
Девушки, любящие Остин любят и Бронте? Ну они еще Пушкина и Толстого возможно любят. Или Кристи.
И все-таки они там идиоты

 У меня просто нет слов. Я провела эксперимент. Нашла ошибки,  в общем даже понятно как их исправить.
И тут приперлись имхонетовцы и стали объяснять, что они день и ночь работают, а мы их критикуем. Конструктива нет.
А что бы получить похожесть надо сотни кандидатских диссертация написать. 
В общем заходите почитать. По-моему просто клиника.  Увы, но моя злость на Имхонет, в том, что они похожи на очень многих идиотов,  которые нас окружают.   Показательно до ужаса.

Пенелопа,

прекращайте с ними дискуссию :)))
А что они могут ответить еще? Ошибка-то неустранима. Порочна сама идея подобной автоматической рекомендательности при разнородной аудитории. А вот ограничивать аудиторию (выделять целевиков) и сокращать количество разделов, дабы информация стала "объятной" и обрабатываемой по дифференцированному запросу, руководство не готово. Для привлечения рекламы и проведения ПР-компаний главное - охват, а качество на десятом месте. Так что они реально не могут, не поменяв политику в менее финансово выгодную сторону, адекватно изменить алгоритм!

В том то и дело,
В том то и дело, что  им не надо уменьшать аудиторию. Им просто надо ориентироваться на каждого клиента в отдельности,  а не всех сразу. Это задача решаема с помощью небольших изменений в алгоритме.
Конечно результат будет не  слишком хороший, но не настолько позорным, как сейчас.   
 Что же касается дискуссии. Убедить оппонента почти всегда невозможно, но я  хочу убедить пользователей.    С моей дискуссией они увидят глупость алгоритма чуть раньше.    
Для меня команда имхонета символ самовлюбленной глупости, мир станет лучше если этого будет хотя бы на каплю меньше. Я уж не говорю, что победить российский менталитет, и прекратить как некоторые знакомые  до сих пор лебезить перед администрацией.    Начинать проще с таких неважных вещей, как сайт.  А путь в тысячу миль начинается с одного шага. 
 
Ответ: А есть ли мальчик? Или иллюзия релевантности

Это правда! :))))
Но вот без стратификации аудитории все же не обойтись. Равно как и без отчетливого понимания задачи. А с чтением у них у всех очень плохо, как я могла убедиться. Они просто не понимают, что такое выбор книг и как он осуществляется, какая информация важна для читателя и т. д. Поэтому и считают подобные сбои "мелочами".

Ответ: А есть ли мальчик? Или иллюзия релевантности

Пенелопа, какое количество пользователей имхонета вы хотите убедить? десять, двадцать, пятьдесят? считайте, что вы убедили. никому от этого ни тепло, ни холодно.

Лок, хотя бы
Лок, хотя бы десять. Это много.  Во-первых  здесь некое явление, которое я считаю принципиальным отрицательным моментом в нынешней ситуации. Есть конечно более жуткие вещи,но там надо идти на риск что бы с ними бороться, а тут можно увидеть почему это плохо. Для укоренившийся идеологии   10 человек это очень много.
 Во-вторых  меня  вот   перед редизайном не убедили,   а потом получилось.  Так, что тут процесс более растянутый во времени.  Каждый недовольный постепенно захватывает еще кого-то.
В-третьих я еще не закончила, будет и альтернативы - их по крайне мере 5. Отщепенцев читают не только отщепенцы
В-четвертых моя задача - с приятельницей - убедить строго определенную аудиторию.  Надеюсь она меня прочтет, если нет, то пусть  именно люди с похожим мировоззрением и образованием прочтут. Мне просто в силу неких личных причин не удобно снова возобновлять с ней дискуссию, если она заговорит снова я ей про проверку рассказу.  Про тривиальность.
------------------------------------------------------------------
Инклинг вот именно, они вообще не читают книги. Но создавать рекомендательный сервис не понимая как работает  процесс верх непрофессионализма.   

Страфикация тут не так уж необходима.  По редизайна сайт был для людей читающих и смотрящих разножанровые вещи.
Улучшение алгоритма сделало бы  возможным уточнять свои предпочтения. В любом жанре.  Таким образом отсекаются только самые умные  и самые глупые (те кто читают подряд серии издательство Эксмо)
Сейчас он по смыслу для подростков.  Просто реально не успевших прочесть массу книг.  Так, что они сильно уменьшили, а не увеличили свою аудиторию.    Пусть подростки и остаются.