Кластеризация научных статей
Добавлено: 13 июн 2007 06:15 pm
Общая тема для работ: создание средств тематического поиска в CiteSeer:
• предоставление возможности сформулировать запрос на одном языке и получить тематически близкие статьи на обоих языках (без перевода запроса);
• кластеризация результатов поиска по различным критериям: тематике, авторам, году издания и т.п.;
• автоматическая классификация научных статей для построения тематического каталога.
В рамках этой темы в сентябре будет уточняться постановка задачи. Я бы рассматривал в качестве кандидатов первые 2 пункта.
Что надо делать уже сейчас (все указанные статьи найдутся Гуглом или Яндексом):
0. Подойти к Никите Ющенко к 760, чтобы завели аккаунт в сети ЛВК. Сослаться на меня. Прочитать раздел учеба на сайле ЛВК, требования к курсовым и дипломам. Постарастья осознать
1. Прочитать Некрестьянов И., Пантелеева Н. Системы текстового поиска для Web. - хороший и короткий вводный материал.
2. прочитать статьи по организации CiteSeer: Digital Library and Autonomous Citation Indexing, Citeseer: an automatic citation indexing system. Постаратся осознать специфику научных статей.
3. Разобраться и понимать, что такое кластеризация и классификация как математические задачи, какие есть методы и алгоритмы (см. по этой теме курсовые (2005,2006)и диплом (2007) наградова - zigzag/~nikita/LVK-ARCHIVE/). По этой же теме много литературы, можно пользоваться ей.
4. Читать по главе на ночь: Chakrabarti S. Mining the Web. (есть в осле, если надо, я пришлю). шутка, конечно, но книга чрезвычайно интересная.
5. Изучать джаву, по ней будет практикум на 3 курсе.
6. Постараться сделать обзор (как делать обзоры см в требованиях и примеры в прошлых дипломах) существующих интерфейсов к ситемам поиска, использующих кластеризацию (visimo, teoma, nigma, gopubmed, carrot2 и тд) Обзор в письменном виде
• предоставление возможности сформулировать запрос на одном языке и получить тематически близкие статьи на обоих языках (без перевода запроса);
• кластеризация результатов поиска по различным критериям: тематике, авторам, году издания и т.п.;
• автоматическая классификация научных статей для построения тематического каталога.
В рамках этой темы в сентябре будет уточняться постановка задачи. Я бы рассматривал в качестве кандидатов первые 2 пункта.
Что надо делать уже сейчас (все указанные статьи найдутся Гуглом или Яндексом):
0. Подойти к Никите Ющенко к 760, чтобы завели аккаунт в сети ЛВК. Сослаться на меня. Прочитать раздел учеба на сайле ЛВК, требования к курсовым и дипломам. Постарастья осознать
1. Прочитать Некрестьянов И., Пантелеева Н. Системы текстового поиска для Web. - хороший и короткий вводный материал.
2. прочитать статьи по организации CiteSeer: Digital Library and Autonomous Citation Indexing, Citeseer: an automatic citation indexing system. Постаратся осознать специфику научных статей.
3. Разобраться и понимать, что такое кластеризация и классификация как математические задачи, какие есть методы и алгоритмы (см. по этой теме курсовые (2005,2006)и диплом (2007) наградова - zigzag/~nikita/LVK-ARCHIVE/). По этой же теме много литературы, можно пользоваться ей.
4. Читать по главе на ночь: Chakrabarti S. Mining the Web. (есть в осле, если надо, я пришлю). шутка, конечно, но книга чрезвычайно интересная.
5. Изучать джаву, по ней будет практикум на 3 курсе.
6. Постараться сделать обзор (как делать обзоры см в требованиях и примеры в прошлых дипломах) существующих интерфейсов к ситемам поиска, использующих кластеризацию (visimo, teoma, nigma, gopubmed, carrot2 и тд) Обзор в письменном виде