Конференция "Прочее" » Сервис поиска похожих книг
 
  • xayam © (17.11.17 22:14) [0]
    Есть какой специализированный сайт для поиска похожих книг?
    Хотелось бы чтобы был проиндексирован по крайне мере такой архив как либрусек.

    Например, читаю много фантастики, хотелось бы чтобы по определенным словам список книг, где эти слова встречаются в определенном жанре, а не только по описанию, как ищет myhomelib.

    PS Только не советуйте гугл, поскольку это общий поиск
  • xayam © (17.11.17 22:22) [1]
    В том числе сервис может быть организован в виде советов. Я например выбираю какие мне книги и насколько нравятся, а сервис выдает рекомендации...
  • Kerk © (17.11.17 22:38) [2]
    Был imhonet.ru но он закрылся.
    Есть bookmate.com, не знаю как работают его рекомендации, но они есть.
    Есть goodreads.com но он нерусский.

    В общем, не знаю что советовать.
  • Pavia © (18.11.17 18:41) [3]
    Сапожник без сапог. Ха-Ха!
    https://www.youtube.com/watch?v=Sc24-jY_P8s
  • картман © (20.11.17 21:00) [4]
    xayam
    Критерии похожести?
  • xayam © (20.11.17 21:11) [5]

    > картман ©   (20.11.17 21:00) [4]
    > Критерии похожести?

    да вот это пожалуй самое сложное, но хотелось бы чтобы система была интеллектуальной и искала похожие слова в пределах жанра, пусть даже они там редко встречаются
  • Eraser © (20.11.17 21:15) [6]
    задача как нельзя лучше подходит для нейросетей. думаю такого сервиса нет исключительно по причине копирайтов и различных запретов на оцифровку.
  • xayam © (20.11.17 21:24) [7]

    > Eraser ©   (20.11.17 21:15) [6]
    > задача как нельзя лучше подходит для нейросетей. думаю такого
    > сервиса нет исключительно по причине копирайтов и различных
    > запретов на оцифровку.

    да но сам поиск не нарушает закона, наоборот помогает найти нужную книгу. Не обязательно, чтобы сервис давал ссылку на скачивание, только название и автора
  • Pavia © (22.11.17 13:44) [8]
    Такой сервис должен хранить обратный индекс, а это значит что из его бд можно восстановить книгу. Так что он нарушает копирайт. Но если сделать защиту от выкачивания то есть лазейка в законе права-копирайта на автоматические поисковеки нераспространяется.

    Проблемы чисто техические вы размер либрусека видели? Сколько там ТБайт? Сколько дисков надо? В несжатом виде БД займёт в 5 раз больше. А в сжатом ещё и свою БД делать. А она должна быстро работать. Желающих искать много. А во вторых книг много и тексты у  них похожии - проблемы с классификацией и релевантностью выдачи. Вы как программист должны любить уникальные вещи, а не повторы.

    И семантический поиск плохо тзучен. И проблемы со свободными словорями.
  • картман © (22.11.17 13:58) [9]

    > xayam ©   (20.11.17 21:11) [5]


    > хотелось бы чтобы система была интеллектуальной и искала
    > похожие слова в пределах жанра

    кажется, код как нельзя лучше подходящей нейросети для этого будет начинаться с select * from ))

     Сейчас сказки выбираю на Мир Фентези - у меня неплохая нейросеть, но по комментариям(само-собой, выбран жанр и прочитано описание) бывает выбрать довольно затруднительно, чтобы мне понравилось: потому что я не знаю, как работают нейросети комментаторов. А ты говоришь по словам искать - этого крайне недостаточно.
     По авторам можно. Как правило, если одна книжка понравилась, то и другие могут быть норм. Еще в комментариях часто говорят, на какого автора похож данный. Вот это хорошо работает, хотя и не всегда.
  • Inovet © (22.11.17 14:01) [10]
    > [8] Pavia ©   (22.11.17 13:44)
    > вы размер либрусека видели? Сколько там ТБайт?

    Несколько лет назад говорили про 300 ГБ, типа можно на домашнем весь держать.
  • Kerk © (22.11.17 18:44) [11]
    Можно потренироваться на литературе, на которую копирайты закончились. Ее не так мало.
  • KilkennyCat © (23.11.17 03:25) [12]
    а у меня около 30 гиг необходимой мне технической литературы. нужное ищу тупейшим поиском "содержание текста в файле". более чем достаточно, для меня.
 
Конференция "Прочее" » Сервис поиска похожих книг
Есть новые Нет новых   [118448   +36][b:0][p:0.001]