Конференция "Прочее" » кластеризация
 
  • картман © (16.01.17 12:53) [0]
    Есть несколько миллионов коротеньких текстов - описания товаров. Относятся мм.... ну, все их можно отнести к одной большой теме, но это если быть в контексте проблематики, а так - разброс очень сильный, от паровоза до иголки, - подтем очень много - навскидку. Лексика широкая. Условно, можно выделить типы товаров и их характеристики - объем, длина и т.п.

     Кто-нибудь занимался подобным? Что здесь нужно первым делом сделать? Какие-нибудь приемы, эвристики, не описанные в букварях-лекциях.

    PS. просьба, в алгоритмы кластеризаций и прочие не тыкать.
  • Inovet © (16.01.17 13:22) [1]
    Может быть я не совсем понял и не совсем в тему отвечу, но есть Full Text Search (FTS) в базах данных. Не это ли нужно?
  • картман © (16.01.17 13:23) [2]

    > Inovet ©   (16.01.17 13:22) [1]

    нет, - нужно эти тексты разбросать по заранее неизвестным темам
  • xayam © (16.01.17 13:34) [3]

    > Что здесь нужно первым делом сделать?

    почитать типа этого

    http://wm-help.net/lib/b/book/3061515169/34

    и самому ручками создать подобную иерархическую структуру в зависимости
    от того, какой товар присутствует (продовольственный/непродовольственный)
  • xayam © (16.01.17 13:37) [4]
    потом, когда у тебя есть такая структура, можно привязать к каждому элементу дерева несколько тегов-слов, по которым потом можно автоматизировать процесс привязки миллионов-товаров к дереву. Как то так.
  • xayam © (16.01.17 13:43) [5]

    > нужно эти тексты разбросать по заранее неизвестным темам

    вот и классификатор пригодится

    http://classifikators.ru/okp
  • картман © (16.01.17 13:46) [6]

    > самому ручками создать

    не вариант
  • xayam © (16.01.17 13:57) [7]

    > картман ©   (16.01.17 13:46) [6]
    > > самому ручками создать
    > не вариант


    не, ну все руками не надо делать, только структуру (например, на основе классификатора ОКП/ОКПД) и теги-поисковые-слова (методом подбора и ассоциаций)
    и потом написать прогу, которая эту структуру соединит с конкретным описанием товара

    тут нет универсальных решений. Имхо, очень сильно зависит от конкретных данных...
  • xayam © (16.01.17 13:59) [8]
    нет, ну можно еще собрать статистику по используемым словам (их нормализованное представление) и количеству, и исходя из этого подобрать теги-поисковые-слова для маркировки структуры каталога
  • xayam © (16.01.17 14:03) [9]
    а ну и стоп-слова исключить из тегов конечно, смысла в них мало
  • xayam © (16.01.17 14:20) [10]

    > тут нет универсальных решений

    хотя что-то есть вот у аби обучающееся

    https://www.abbyy.com/ru-ru/ocr-sdk/windows/what-is-new/classification/
  • xayam © (16.01.17 14:45) [11]
    и у гугла что-то похоже есть

    https://cloud.google.com/natural-language/


    > Content Classification & Relationship Graphs
    > Filter inappropriate content, classify documents by topics,
    > and build relationship graphs of entities extracted from news
    > or wikipedia articles, by using signals from the state of the art syntax analysis.
  • Pavia © (16.01.17 14:50) [12]
    Почему в поисковые технологии не тыкать?
  • Inovet © (16.01.17 15:07) [13]
    > [2] картман ©   (16.01.17 13:23)
    > нет, - нужно эти тексты разбросать по заранее неизвестным темам

    Если нет формально однозначного ключа. Понятно, что по приблизительным можно что-то делать,но стандартными средствами вряд ли. Это своё что-то надо изобретать, велосипед. А куда в этом случае деваться.
 
Конференция "Прочее" » кластеризация
Есть новые Нет новых   [134431   +10][b:0][p:0]