EScience

Материал из Социодинамики
Перейти к: навигация, поиск
(Новая страница: «eScience (электронная наука) - новая парадигма организации научных исследований, тесно связа…»)
 
м
Строка 1: Строка 1:
 
eScience (электронная наука) - новая парадигма организации научных исследований, тесно связанная с созданием предметно-ориентированных исследовательских центров в Интернете. По сути, еScience является отдельной предметной областью в рамках информационно-телекоммуникационных технологий, ориентированной на консолидацию вычислительных мощностей, прикладных сервисов и хранилищ данных и знаний для распределенных научных исследований,  накопленный в данной области опыт позволяет заимствовать некоторые решения и технологии в области сбора, хранения и консолидации.
 
eScience (электронная наука) - новая парадигма организации научных исследований, тесно связанная с созданием предметно-ориентированных исследовательских центров в Интернете. По сути, еScience является отдельной предметной областью в рамках информационно-телекоммуникационных технологий, ориентированной на консолидацию вычислительных мощностей, прикладных сервисов и хранилищ данных и знаний для распределенных научных исследований,  накопленный в данной области опыт позволяет заимствовать некоторые решения и технологии в области сбора, хранения и консолидации.
 +
 
Одной из важнейших задач, решаемых eScience, является организация открытых аннотированных хранилищ данных. Существует множество проектов, предоставляющих свои данные, полученные в результате измерений, компьютерного моделирования. Так, примером может послужить проект по предоставлению астрономических данных с использованием технологий облачного хранения данных (data cloud) и современных технологий представления данных (за счет предоставления данных посредством ПО WorldWide Telescope). Проект CrystalEye посвящен агрегации данных в области кристаллографии из различных источников в сети Интернет. Например, проект ENCODE посвящен разработке базы данных элементов ДНК.
 
Одной из важнейших задач, решаемых eScience, является организация открытых аннотированных хранилищ данных. Существует множество проектов, предоставляющих свои данные, полученные в результате измерений, компьютерного моделирования. Так, примером может послужить проект по предоставлению астрономических данных с использованием технологий облачного хранения данных (data cloud) и современных технологий представления данных (за счет предоставления данных посредством ПО WorldWide Telescope). Проект CrystalEye посвящен агрегации данных в области кристаллографии из различных источников в сети Интернет. Например, проект ENCODE посвящен разработке базы данных элементов ДНК.
 +
 
Рассматривая существующее множество проектов, связанных с организацией распределенных хранилищ данных, важно отметить, что существует два способа интерпретации данных: первый ориентирован на визуальный анализ данных человеком, в то время как второй – на машинную обработку данных. Очевидно, что особую важность ввиду перспективности автоматической обработки сверхбольших объемов данных в рамках парадигмы eScience приобретает именно второй способ. Однако такой подход может быть использован и в ходе единичных случаев автоматической обработки. Автоматические средства представления данных обеспечивают инструмент эффективной интеграции хранилищ данных в состав более сложных, зачастую междисциплинарных, информационных систем. При этом автоматическая интеграция должна строиться на основании информации о составе, структуре и способах использования данных, предоставляемых хранилищем. Использование современных технологий представления знаний (онтологии, семантические сети) позволяет существенно расширить функциональные возможности хранилищ научной информации, предоставляя дополнительные возможности их интеграции. Примером может служить проект BioMoby , предоставляющий доступ к биологическим данным, расширенный за счет использования онтологического описания и сервисов вспомогательного анализа данных.
 
Рассматривая существующее множество проектов, связанных с организацией распределенных хранилищ данных, важно отметить, что существует два способа интерпретации данных: первый ориентирован на визуальный анализ данных человеком, в то время как второй – на машинную обработку данных. Очевидно, что особую важность ввиду перспективности автоматической обработки сверхбольших объемов данных в рамках парадигмы eScience приобретает именно второй способ. Однако такой подход может быть использован и в ходе единичных случаев автоматической обработки. Автоматические средства представления данных обеспечивают инструмент эффективной интеграции хранилищ данных в состав более сложных, зачастую междисциплинарных, информационных систем. При этом автоматическая интеграция должна строиться на основании информации о составе, структуре и способах использования данных, предоставляемых хранилищем. Использование современных технологий представления знаний (онтологии, семантические сети) позволяет существенно расширить функциональные возможности хранилищ научной информации, предоставляя дополнительные возможности их интеграции. Примером может служить проект BioMoby , предоставляющий доступ к биологическим данным, расширенный за счет использования онтологического описания и сервисов вспомогательного анализа данных.
 
Отдельно следует упомянуть проекты, посвященные разработке и наполнению хранилищ знаний, в том числе используемых для интегрированной автоматической обработки данных. Примерами таких проектов могут служить системы OpenCyc, True Knowledge, Wolfram Alpha, ориентированные на хранение знаний в форме, пригодной для анализа с помощью унифицированных запросов.
 
Отдельно следует упомянуть проекты, посвященные разработке и наполнению хранилищ знаний, в том числе используемых для интегрированной автоматической обработки данных. Примерами таких проектов могут служить системы OpenCyc, True Knowledge, Wolfram Alpha, ориентированные на хранение знаний в форме, пригодной для анализа с помощью унифицированных запросов.
 +
 
Другой актуальной задачей в области распределенной обработки данных является распространение знаний об их обработке в форме открытых цепочек заданий (workflow), ориентированных на решение той или иной проблемы предметной области. Существует ряд проектов, целью которых является создание открытых баз цепочек заданий, предоставляющих возможность интегрированного использования различных источников данных, знаний и вычислительных ресурсов. Примером таких проектов могут служить myExperiment , myGrid. Кроме того, существует ряд проектов, ориентированных на открытую публикацию результатов экспериментов (как численных, так и натуральных) в различных областях, аннотированных специализированным образом, допускающим автоматизированное использование таких данных. Например, в рамках проекта oreChem предоставляется возможность распространения аннотированной (с использованием технологий SemanticWeb и языка Chemical Markup Language, CML) информации в области химии.
 
Другой актуальной задачей в области распределенной обработки данных является распространение знаний об их обработке в форме открытых цепочек заданий (workflow), ориентированных на решение той или иной проблемы предметной области. Существует ряд проектов, целью которых является создание открытых баз цепочек заданий, предоставляющих возможность интегрированного использования различных источников данных, знаний и вычислительных ресурсов. Примером таких проектов могут служить myExperiment , myGrid. Кроме того, существует ряд проектов, ориентированных на открытую публикацию результатов экспериментов (как численных, так и натуральных) в различных областях, аннотированных специализированным образом, допускающим автоматизированное использование таких данных. Например, в рамках проекта oreChem предоставляется возможность распространения аннотированной (с использованием технологий SemanticWeb и языка Chemical Markup Language, CML) информации в области химии.
 
Важным направлением современных технологий работы с данными является развитие методологии построения вычислительных приложений, учитывающей приоритетную специфику данных. Примером может служить концепция Dynamic Data Driven Application Systems, DDDAS , ориентированная на работу с динамическими источниками данных (в т.ч. источниками измерений). Эта концепция находит применение в различных областях научной деятельности: моделировании лесных пожаров , исследовании водных ресурсов , моделировании прибрежной среды и.т.п.  
 
Важным направлением современных технологий работы с данными является развитие методологии построения вычислительных приложений, учитывающей приоритетную специфику данных. Примером может служить концепция Dynamic Data Driven Application Systems, DDDAS , ориентированная на работу с динамическими источниками данных (в т.ч. источниками измерений). Эта концепция находит применение в различных областях научной деятельности: моделировании лесных пожаров , исследовании водных ресурсов , моделировании прибрежной среды и.т.п.  
 +
 
Несмотря на тенденции к организации открытых аннотированных, доступных для автоматической обработки хранилищ данных, до сих пор существует множество баз, предоставляющих данные по низкоуровневым протоколам (как элементы файловых систем, FTP-серверы, базы данных и пр.). Кроме того, на сегодняшний день существует множество форматов научных данных, использующих файловую структуру (например, NetCDF). Одним из подходов для универсализации доступа к таким данным является использование сервиса доступа к данным, работающим на основе концепции REST . Данная концепция, оперируя в терминах REST-сервисов, позволяет добиться унифицированного доступа к различным источникам данных, расположенным  как в локальной сети или Интернете, так и на локальном компьютере. Концепция ориентирована на унифицированный доступ к данным с осуществлением неявной фоновой обработки в соответствии с запросами пользователя. Кроме того, концепция изначально опирается на сервисную структуру (REST-сервисы), что позволяет эффективно использовать ее в рамках систем, основанных на сервисо-ориентированной архитектуре (SOA).
 
Несмотря на тенденции к организации открытых аннотированных, доступных для автоматической обработки хранилищ данных, до сих пор существует множество баз, предоставляющих данные по низкоуровневым протоколам (как элементы файловых систем, FTP-серверы, базы данных и пр.). Кроме того, на сегодняшний день существует множество форматов научных данных, использующих файловую структуру (например, NetCDF). Одним из подходов для универсализации доступа к таким данным является использование сервиса доступа к данным, работающим на основе концепции REST . Данная концепция, оперируя в терминах REST-сервисов, позволяет добиться унифицированного доступа к различным источникам данных, расположенным  как в локальной сети или Интернете, так и на локальном компьютере. Концепция ориентирована на унифицированный доступ к данным с осуществлением неявной фоновой обработки в соответствии с запросами пользователя. Кроме того, концепция изначально опирается на сервисную структуру (REST-сервисы), что позволяет эффективно использовать ее в рамках систем, основанных на сервисо-ориентированной архитектуре (SOA).
 +
 
С другой стороны, в настоящее время появляется множество технологических решений, предоставляющих прозрачный интерфейс для хранения и организации доступа к распределенным данным. Одними из наиболее известных решений в этой области являются Google File System, GFS , Hadoop File System, HDFS. На более высоком уровне существуют системы управления данными и обработки запросов к ним. Известна  внутренняя разработка компании Google – система BigTable . На базе этой системы производится объединение крупных распределенных хранилищ данных с целью выполнения массовых запросов к хранимым данным. Открытым аналогом этой системы является платформа HBase, реализованная на базе HDFS.
 
С другой стороны, в настоящее время появляется множество технологических решений, предоставляющих прозрачный интерфейс для хранения и организации доступа к распределенным данным. Одними из наиболее известных решений в этой области являются Google File System, GFS , Hadoop File System, HDFS. На более высоком уровне существуют системы управления данными и обработки запросов к ним. Известна  внутренняя разработка компании Google – система BigTable . На базе этой системы производится объединение крупных распределенных хранилищ данных с целью выполнения массовых запросов к хранимым данным. Открытым аналогом этой системы является платформа HBase, реализованная на базе HDFS.
 
Отдельный интерес в данной области представляют интегрированные проблемно-ориентированные оболочки для выполнения комплексных исследований на основе распределенных данных, функционирующие в Интернете. Их назначение состоит в том, чтобы централизованно предоставлять пользователю – члену виртуального профессионального сообщества – множество разнотипных сервисов, объединенных  тематикой (определяющихся тематикой портала), принципом доступа и интерфейсом. Примером такого портала может служить сайт Nucleonica , ориентированный на исследователей в области ядерной физики, или сайт «The Introduction of The Center for the Studies of Information Resources of Wuhan University». Эти решения предоставляют ряд традиционных для web-ресурсов такого уровня сервисов: электронные журналы (блоги), справочную информацию (на базе технологии wiki), возможность общения с экспертом в данной предметной области. Однако  наряду с этим предоставляется и ряд специфических сервисов, в частности, для предметно-ориентированного компьютерного моделирования. В РФ примером такого специализированного портала является разработка, функционирующая в Национальной нанотехнологической сети – учебно-научный комплекс «Компьютерное моделирование в нанотехнологиях».  
 
Отдельный интерес в данной области представляют интегрированные проблемно-ориентированные оболочки для выполнения комплексных исследований на основе распределенных данных, функционирующие в Интернете. Их назначение состоит в том, чтобы централизованно предоставлять пользователю – члену виртуального профессионального сообщества – множество разнотипных сервисов, объединенных  тематикой (определяющихся тематикой портала), принципом доступа и интерфейсом. Примером такого портала может служить сайт Nucleonica , ориентированный на исследователей в области ядерной физики, или сайт «The Introduction of The Center for the Studies of Information Resources of Wuhan University». Эти решения предоставляют ряд традиционных для web-ресурсов такого уровня сервисов: электронные журналы (блоги), справочную информацию (на базе технологии wiki), возможность общения с экспертом в данной предметной области. Однако  наряду с этим предоставляется и ряд специфических сервисов, в частности, для предметно-ориентированного компьютерного моделирования. В РФ примером такого специализированного портала является разработка, функционирующая в Национальной нанотехнологической сети – учебно-научный комплекс «Компьютерное моделирование в нанотехнологиях».  
 +
 
Литература:
 
Литература:
 +
 
1. Data-Driven Science: A New Paradigm? / M.L. Nelson // EDUCAUSE Review. 2009. Vol. 44. N 4 (July/August 2009).  P. 6–7.
 
1. Data-Driven Science: A New Paradigm? / M.L. Nelson // EDUCAUSE Review. 2009. Vol. 44. N 4 (July/August 2009).  P. 6–7.
 
2. Peter  Mur ray­Rust. Data­driven science  a scientist's view [Электронный ресурс]. – Режим доступа: http://www.sis.pitt.edu/~repwkshop/papers/murray.pdf, свободный. – Загл. с экрана. – Яз. англ.
 
2. Peter  Mur ray­Rust. Data­driven science  a scientist's view [Электронный ресурс]. – Режим доступа: http://www.sis.pitt.edu/~repwkshop/papers/murray.pdf, свободный. – Загл. с экрана. – Яз. англ.

Версия 10:39, 8 ноября 2012

Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты