-
Есть несколько миллионов коротеньких текстов - описания товаров. Относятся мм.... ну, все их можно отнести к одной большой теме, но это если быть в контексте проблематики, а так - разброс очень сильный, от паровоза до иголки, - подтем очень много - навскидку. Лексика широкая. Условно, можно выделить типы товаров и их характеристики - объем, длина и т.п.
Кто-нибудь занимался подобным? Что здесь нужно первым делом сделать? Какие-нибудь приемы, эвристики, не описанные в букварях-лекциях.
PS. просьба, в алгоритмы кластеризаций и прочие не тыкать.
-
Может быть я не совсем понял и не совсем в тему отвечу, но есть Full Text Search (FTS) в базах данных. Не это ли нужно?
-
> Inovet © (16.01.17 13:22) [1]
нет, - нужно эти тексты разбросать по заранее неизвестным темам
-
> Что здесь нужно первым делом сделать?
почитать типа этого http://wm-help.net/lib/b/book/3061515169/34и самому ручками создать подобную иерархическую структуру в зависимости от того, какой товар присутствует (продовольственный/непродовольственный)
-
потом, когда у тебя есть такая структура, можно привязать к каждому элементу дерева несколько тегов-слов, по которым потом можно автоматизировать процесс привязки миллионов-товаров к дереву. Как то так.
-
-
> самому ручками создать
не вариант
-
> картман © (16.01.17 13:46) [6] > > самому ручками создать > не вариант
не, ну все руками не надо делать, только структуру (например, на основе классификатора ОКП/ОКПД) и теги-поисковые-слова (методом подбора и ассоциаций) и потом написать прогу, которая эту структуру соединит с конкретным описанием товара
тут нет универсальных решений. Имхо, очень сильно зависит от конкретных данных...
-
нет, ну можно еще собрать статистику по используемым словам (их нормализованное представление) и количеству, и исходя из этого подобрать теги-поисковые-слова для маркировки структуры каталога
-
а ну и стоп-слова исключить из тегов конечно, смысла в них мало
-
-
и у гугла что-то похоже есть https://cloud.google.com/natural-language/ > Content Classification & Relationship Graphs > Filter inappropriate content, classify documents by topics, > and build relationship graphs of entities extracted from news > or wikipedia articles, by using signals from the state of the art syntax analysis.
-
Почему в поисковые технологии не тыкать?
-
> [2] картман © (16.01.17 13:23) > нет, - нужно эти тексты разбросать по заранее неизвестным темам
Если нет формально однозначного ключа. Понятно, что по приблизительным можно что-то делать,но стандартными средствами вряд ли. Это своё что-то надо изобретать, велосипед. А куда в этом случае деваться.
|