PHP DM Gate v0.9 » кластеризация

картман © (16.01.17 12:53) [0]

Есть несколько миллионов коротеньких текстов - описания товаров. Относятся мм.... ну, все их можно отнести к одной большой теме, но это если быть в контексте проблематики, а так - разброс очень сильный, от паровоза до иголки, - подтем очень много - навскидку. Лексика широкая. Условно, можно выделить типы товаров и их характеристики - объем, длина и т.п.

Кто-нибудь занимался подобным? Что здесь нужно первым делом сделать? Какие-нибудь приемы, эвристики, не описанные в букварях-лекциях.

PS. просьба, в алгоритмы кластеризаций и прочие не тыкать.

<Цитата>
Inovet © (16.01.17 13:22) [1]

Может быть я не совсем понял и не совсем в тему отвечу, но есть Full Text Search (FTS) в базах данных. Не это ли нужно?

<Цитата>
картман © (16.01.17 13:23) [2]

> Inovet © (16.01.17 13:22) [1]

нет, - нужно эти тексты разбросать по заранее неизвестным темам

<Цитата>
xayam © (16.01.17 13:34) [3]

> Что здесь нужно первым делом сделать?

почитать типа этого

http://wm-help.net/lib/b/book/3061515169/34

и самому ручками создать подобную иерархическую структуру в зависимости
от того, какой товар присутствует (продовольственный/непродовольственный)

<Цитата>
xayam © (16.01.17 13:37) [4]

потом, когда у тебя есть такая структура, можно привязать к каждому элементу дерева несколько тегов-слов, по которым потом можно автоматизировать процесс привязки миллионов-товаров к дереву. Как то так.

<Цитата>
xayam © (16.01.17 13:43) [5]

> нужно эти тексты разбросать по заранее неизвестным темам

вот и классификатор пригодится

http://classifikators.ru/okp

<Цитата>
картман © (16.01.17 13:46) [6]

> самому ручками создать

не вариант

<Цитата>
xayam © (16.01.17 13:57) [7]

> картман © (16.01.17 13:46) [6]
> > самому ручками создать
> не вариант

не, ну все руками не надо делать, только структуру (например, на основе классификатора ОКП/ОКПД) и теги-поисковые-слова (методом подбора и ассоциаций)
и потом написать прогу, которая эту структуру соединит с конкретным описанием товара

тут нет универсальных решений. Имхо, очень сильно зависит от конкретных данных...

<Цитата>
xayam © (16.01.17 13:59) [8]

нет, ну можно еще собрать статистику по используемым словам (их нормализованное представление) и количеству, и исходя из этого подобрать теги-поисковые-слова для маркировки структуры каталога

<Цитата>
xayam © (16.01.17 14:03) [9]

а ну и стоп-слова исключить из тегов конечно, смысла в них мало

<Цитата>
xayam © (16.01.17 14:20) [10]

> тут нет универсальных решений

хотя что-то есть вот у аби обучающееся

https://www.abbyy.com/ru-ru/ocr-sdk/windows/what-is-new/classification/

<Цитата>
xayam © (16.01.17 14:45) [11]

и у гугла что-то похоже есть

https://cloud.google.com/natural-language/

> Content Classification & Relationship Graphs
> Filter inappropriate content, classify documents by topics,
> and build relationship graphs of entities extracted from news
> or wikipedia articles, by using signals from the state of the art syntax analysis.

<Цитата>
Pavia © (16.01.17 14:50) [12]

Почему в поисковые технологии не тыкать?

<Цитата>
Inovet © (16.01.17 15:07) [13]

> [2] картман © (16.01.17 13:23)
> нет, - нужно эти тексты разбросать по заранее неизвестным темам

Если нет формально однозначного ключа. Понятно, что по приблизительным можно что-то делать,но стандартными средствами вряд ли. Это своё что-то надо изобретать, велосипед. А куда в этом случае деваться.

<Цитата>