Построение графа взаимного цитирования научных публикаций

Название за себя говорит. Пишите ваши предложения и конструктивную критику.
Ответить
Дмитрий Волканов
Сотрудник
Сообщения: 265
Зарегистрирован: 25 авг 2004 02:22 pm
Откуда: Москва
Контактная информация:

Построение графа взаимного цитирования научных публикаций

Сообщение Дмитрий Волканов »

Аннотация:
В функциональности электронных библиотек научных публикаций огромную роль играет возможность поиска путем перехода от отдной статьи к другой по библиографическим ссылкам. Для обеспечения такой возможности приходится строить граф взаимного цитирования научных публикаций, вершинами которого являются публикации, а ориентированные ребра соответствуют библиографическим ссылкам между публикациями. При построении такого графа существует ряд проблем, которые на практике избежать невозможно и которые должны учитываться в создаваемых алгоритмах:
  1. 1. Авторы не снабжают свои статьи описанием метаданных, удобным для прочтения компьютером. Извлечение метаданных статьи (названия, автора, года издания и т.п.) и библиографических ссылок производится компьютером в автоматическом режиме. В процессе извлечения могут возникать ошибки.
    2. Граф взаимного цитирования строится полностью автоматически, без участия человека.
    3. Авторы статей оформляют библиографические ссылки каждый по-своему и часто допускают ошибки и неточности.
    4. У различных публикаций могут быть авторы с одинаковыми именами, фамилиями, инициалами. Разные статьи могут иметь одинаковые названия и т.п.
    5. Статьи не всегда и не все есть в базе данных электронной библиотеки.
Цель курсовой:
Целью курсовой работы является анализ существующих подходов (кластерный анализ, методы нечёткого поиска) к построению графа взаимного цитирования и создание алгоритма построения графа для электронной библиотеки научных статей, создаваемой на факультете ВМиК МГУ.

Литература:
  1. 1. S. Lawrence, C. Lee Giles, K. Bollacker "Digital Libraries and Autonomous Citation Indexing" IEEE Computer 1999.
    2. I. Councill, H. Li, Z. Zhuang, S. Debnath, C.Lee Giles, et al. Learning metadata from the evidence in an on-line citation matching scheme.  Proc. of JCDL 2006
    3. J.Huang, S. Eretkin, C. Lee Giles. Efficient name disambiguation for large-scale databases.  Proc of PKDD 2006
Научные руководители:
к.ф.-м.н. Козлов Д.Д., Волканов Д.Ю.
Magna est veritas et praevalebit
Дмитрий Козлов
Сотрудник
Сообщения: 96
Зарегистрирован: 02 сен 2004 10:54 am

Сообщение Дмитрий Козлов »

План работ, данный Ковалеву на лето:
* 24 апреля посетить семинар
* прочитать обзор Некрестьянов Пантелеева Системы текстового поиска для web
* прочитать статьи по организации CiteSeer Digital Library and Autonomous Citation Indexing, Citeseer: an automatic citation indexing system
* явиться к 10 мая 2007 с результатами и за ПЗ
* прочитать литературу по нечеткому поиску строк: Черей курсовик 3 курса 2007.
* прочитать статьи из библиографии к докладу от 24 апреля.
* прочитать описание учебного процесса
* читать на досуге chakrabarti Mining the Web
* посмотреть Rexa, странички Маккалума и Гилеса, обзор из диплома Васильева за 2007 г. - для составления обзора
* сформулировать в письменном виде постановку задачи, анализ задачи (по поводу специфики русского языка см. курсовую Шаминой 3 курс 2007 г.)
* описать существующие подходы к решению задачи (пока цели обзора таковы: узнать, какие есть подходы, какие методы используются, как сравнивается эффективность методов. Цели будут уточняться и расширяться по ходу подготовки обзора).
* практически попробовать визуализировать графы большого размера с применением джавы (java.sun.com - туториал по джаве). http://www.manageability.org/blog/stuff ... -java/view - обзор графорисовалок. Кроме того надо сравнить существующие средства и выбрать одно для практического использования.
* подойти ближе к концу июня рассказать что делал, что получилось.

Примечание: с обзором надо приходить предварительно его прислав, включая постановку задачи, анализ задачи, цели обзора критерии обзора, описания обозреваемых систем (примеры построения обзоров см. в библиотеке дипломных и курсовых работ зигзаг:~nikita/LVK-ARCHIVE
Дмитрий Козлов
Сотрудник
Сообщения: 96
Зарегистрирован: 02 сен 2004 10:54 am

Сообщение Дмитрий Козлов »

В список рекомендованной литературы добавить
http://citeseer.ist.psu.edu/lawrence99autonomous.html
http://citeseer.ist.psu.edu/lawrence99distributed.html
Giles, ... Name disambiguation in author citations using k-way spectral clustering method
Ответить