Дмитрий Козлов / Ольга Шамина, 5 курс, dbms-sem

На этом форуме публикуются и уточняются постановки задач студентам, а также отслеживается ход их выполнения

Модератор: staff

Закрыто
Бычков Иван
Аспирант
Сообщения: 179
Зарегистрирован: 23 сен 2008 01:19 pm

Дмитрий Козлов / Ольга Шамина, 5 курс, dbms-sem

Сообщение Бычков Иван »

Примечание: работа является продолжением темы с 4 курса.

Тема работы

Автоматический поиск научных статей в русскоязычном сегменте сети Интернет.

Актуальность

Работы над русскоязычной версией CiteSeer, проводившиеся в Лаборатории в последние годы показали, что созданная библиотека активно индексируется Google и Яндекс и появляется в первых строчках поисковых результатов. При этом существующее наполнение библиотеки не пополнялось уже более года. Задачей этого года является широкомасштабное пополнение библиотеки путем поиска научных статей в сети Интернет.

Цель работы

Целями работы является:

1. Развитие созданных в прошлом году методов автоматического пополнения электронной библиотеки новыми статьями путем поиска статей в Интернет.
2. Расширение возможностей автоматического пополнения библиотеки: поиск не только новых статей, но и домашних страниц, адресов электронной почты и фотографий авторов, чтобы библиотеку можно было также рассматривать как каталог информации об ученых.
3. Проведение широкомасштабного поиска в сети Интернет для сбора десятков тысяч научных статей.

План работы

1. Реализовать варианты поиска, которые были недоделаны в прошлом году.
2. Расширить возможности реализации для поиска ученых.
3. Провести экспериментальные исследования доработанных методов.
4. Провести практическую апробацию (цель 3) построить библиотеку ресурсов.
5. Провести обзор функциональности библиотек Rexa и т.п., где строится не только база данных статей, но и каталог ученых.
6. Написать совместно с н.р. статью.
7. Выступить на студенческой конференции Ломоносов 2009 (или еще где-то).

Ожидаемые результаты

1. Пополненная библиотека статей.
2. Обзор методов поиска домашних страниц ученых, адресов электронной почты, фотографий.
3. Отчуждаемая реализация методов.
4. Экспериментальное исследование методов.
5. Статья.
Ольга Шамина
Выпускник
Сообщения: 1
Зарегистрирован: 16 дек 2008 08:52 pm

Сообщение Ольга Шамина »

Отчет о проделанной работе

Тема
Автоматический поиск научных статей в русскоязычном сегменте сети Интернет.

Актуальность
Одним из важных вопросов эксплуатации электронной библиотеки научных статей является пополнение библиотеки новыми статьями. Без автоматического поиска новых статей развитие электронной библиотеки либо полностью зависит от пользователей, помещающих туда свои статьи, либо требует специально выделенного персонала, осуществляющего поиск и помещение новых статей в библиотеку. Содержание такого персонала, как правило, является слишком дорогостоящим, а практика развития библиотеки авторами статей зарекомендовала себя как малоэффективная. Альтернативным способом пополнения библиотек научных статей является поиск научных статей в сети Интернет, где их размещают сами авторы, организаторы конференций, учебные и научные заведения, а также другие электронные архивы и библиотеки.

Цели работы
1.Создание системы автоматического поиска научных статей в сети Интернет, которая будет предоставлять следующие возможности:
  • • поиск статей по заданной метаинформации (названию и авторам);
    • поиск домашних страниц ученых и страниц конференций, а также извлечение библиографических ссылок и самих публикаций с них;
    • поиск адресов электронной почты и фотографий авторов, чтобы библиотеку можно было рассматривать как каталог информации об ученых.
2.Экспериментальное исследование работы системы и сравнение с Google Scholar.
3.Практическая апробация системы, в рамках которой будет проведен широкомасштабный поиск в сети Интернет для сбора десятков тысяч научных статей и наполнения электронной библиотеки.

Проделанная работа:
  • - Создана система автоматического поиска научных статей, которая предоставляет следующие возможности поиска:
    • • поиск статей по заданной метаинформации (названию и авторам);
      • поиск домашних страниц ученых и страниц конференций, а также извлечение библиографических ссылок и самих публикаций с них.
    - Осуществляется проведение широкомасштабного поиска научных статей в сети Интернет.
Дальнейшие действия:
  • - Добавление в систему возможности поиска адресов электронной почты и фотографий ученых.
    - Проведение экспериментального исследования работы системы.
Список литературы
[1] Zhuang Z., Wagle R., Giles C.L.. What's There and What's Not? Focused Crawling for Missing Documents in Digital Libraries. JCDL 2005.
[2] On B., Lee D. PaSE: Locating Online Copy of Scientific Documents Effectively. In Proceedings of the 7th International Conference of Asian Digital Libraries (ICADL), pp. 408-418, 2004.
[3] Hoff G., Mundhenk, M. Finding scientific papers with homepage search and MOPS. In Proceedings of the Nineteenth Annual International Conference of Computer Documentation, Communicating in the New Millennium, pp. 201-207, 2001.
[4] Steve Lawrence , Kurt Bollacker , C. Lee Giles, Indexing and retrieval of scientific literature, Proceedings of the eighth international conference on Information and knowledge management, p.139-146, 1999.
[5] Lawrence S., Giles L. Inquirus, the NECI meta search engine // Proceedings of the seventh international conference on World Wide Web 7. 1998.
[6] Xi, W. and Fox, E. A. Machine Learning Approach for Homepage Finding Task. In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), pp. 686-698, 2001.
[7] Anh, V. N. and Moffat, A. Homepage Finding and Topic Distillation using a Common Retrieval Strategy. In Proceedings of the Eleventh Text REtrieval Conference (TREC 2002), 2002.
[8] Козлов Д., Самусев С., Шамина О. Создание электронной библиотеки русскоязычных научных статей. // Сборник работ стипендиатов гранта "Интернет-информатика 2007", Екатеринбург, Изд-во Уральского университета, 2007, C. 37-45.
[9] Шамина О., Козлов Д. Автоматический поиск научных статей в сети Интернет. // Труды Второй Российской конференции молодых ученых по информационному поиску. Таганрог, 1-5 сентября 2008. Изд-во ТТИ ЮФУ, 2008 c. 43-62.
[10] Lawrence S., Giles L., Bollaker K., Digital Libraries and Autonomous Citation Indexing. IEEE Computer, Vol 32, N 6, 1999.
[11] Giles C.L., Councill I. G. Who gets acknowledged: Measuring scientific contributions through automatic acknowledgement indexing. // Proceedings of the National Academy of Sciences, 2004.
Андрей Петухов
Сотрудник
Сообщения: 84
Зарегистрирован: 13 сен 2004 02:13 pm

Ответ рецензента Петухова А.А.

Сообщение Андрей Петухов »

Существенные замечания к работе студента после прочтения отчета отсутствуют
Закрыто