Кластеризация научных статей

Название за себя говорит. Пишите ваши предложения и конструктивную критику.
Ответить
Дмитрий Козлов
Сотрудник
Сообщения: 96
Зарегистрирован: 02 сен 2004 10:54 am

Кластеризация научных статей

Сообщение Дмитрий Козлов »

Общая тема для работ: создание средств тематического поиска в CiteSeer:
• предоставление возможности сформулировать запрос на одном языке и получить тематически близкие статьи на обоих языках (без перевода запроса);
• кластеризация результатов поиска по различным критериям: тематике, авторам, году издания и т.п.;
• автоматическая классификация научных статей для построения тематического каталога.

В рамках этой темы в сентябре будет уточняться постановка задачи. Я бы рассматривал в качестве кандидатов первые 2 пункта.

Что надо делать уже сейчас (все указанные статьи найдутся Гуглом или Яндексом):
0. Подойти к Никите Ющенко к 760, чтобы завели аккаунт в сети ЛВК. Сослаться на меня. Прочитать раздел учеба на сайле ЛВК, требования к курсовым и дипломам. Постарастья осознать
1. Прочитать Некрестьянов И., Пантелеева Н. Системы текстового поиска для Web. - хороший и короткий вводный материал.
2. прочитать статьи по организации CiteSeer: Digital Library and Autonomous Citation Indexing, Citeseer: an automatic citation indexing system. Постаратся осознать специфику научных статей.
3. Разобраться и понимать, что такое кластеризация и классификация как математические задачи, какие есть методы и алгоритмы (см. по этой теме курсовые (2005,2006)и диплом (2007) наградова - zigzag/~nikita/LVK-ARCHIVE/). По этой же теме много литературы, можно пользоваться ей.
4. Читать по главе на ночь: Chakrabarti S. Mining the Web. (есть в осле, если надо, я пришлю). шутка, конечно, но книга чрезвычайно интересная.
5. Изучать джаву, по ней будет практикум на 3 курсе.
6. Постараться сделать обзор (как делать обзоры см в требованиях и примеры в прошлых дипломах) существующих интерфейсов к ситемам поиска, использующих кластеризацию (visimo, teoma, nigma, gopubmed, carrot2 и тд) Обзор в письменном виде
Дмитрий Козлов
Сотрудник
Сообщения: 96
Зарегистрирован: 02 сен 2004 10:54 am

Сообщение Дмитрий Козлов »

7. Шахиджанян соло на клавиатуре
8. Bates, http://www.gseis.ucla.edu/faculty/bates ... cking.html
Дмитрий Козлов
Сотрудник
Сообщения: 96
Зарегистрирован: 02 сен 2004 10:54 am

Сообщение Дмитрий Козлов »

В список рекомендованной литературы добавить
http://citeseer.ist.psu.edu/lawrence99autonomous.html
http://citeseer.ist.psu.edu/lawrence99distributed.html
Giles, ... Name disambiguation in author citations using k-way spectral clustering method

Поисковая система *Kartoo* <http://www.kartoo.com/>, предлагает интересное улучшение поискового интерфейса - графическое представление кластеризации результатов поиска.
Ответить