Просмотр исходного текста страницы ESCIENCE

'''eScience''' (электронная наука) - новая парадигма организации научных исследований, тесно связанная с созданием предметно-ориентированных исследовательских центров в Интернете. По сути, еScience является отдельной предметной областью в рамках информационно-телекоммуникационных технологий, ориентированной на консолидацию вычислительных мощностей, прикладных сервисов и хранилищ данных и знаний для распределенных научных исследований,  накопленный в данной области опыт позволяет заимствовать некоторые решения и технологии в области сбора, хранения и консолидации.

Одной из важнейших задач, решаемых eScience, является организация открытых аннотированных хранилищ данных. Существует множество проектов, предоставляющих свои данные, полученные в результате измерений, компьютерного моделирования. Так, примером может послужить проект по предоставлению астрономических данных с использованием технологий облачного хранения данных (data cloud) и современных технологий представления данных (за счет предоставления данных посредством ПО WorldWide Telescope). Проект CrystalEye посвящен агрегации данных в области кристаллографии из различных источников в сети Интернет. Например, проект ENCODE посвящен разработке базы данных элементов ДНК.

Рассматривая существующее множество проектов, связанных с организацией распределенных хранилищ данных, важно отметить, что существует два способа интерпретации данных: первый ориентирован на визуальный анализ данных человеком, в то время как второй – на машинную обработку данных. Очевидно, что особую важность ввиду перспективности автоматической обработки сверхбольших объемов данных в рамках парадигмы eScience приобретает именно второй способ. Однако такой подход может быть использован и в ходе единичных случаев автоматической обработки. Автоматические средства представления данных обеспечивают инструмент эффективной интеграции хранилищ данных в состав более сложных, зачастую междисциплинарных, информационных систем. При этом автоматическая интеграция должна строиться на основании информации о составе, структуре и способах использования данных, предоставляемых хранилищем. 

Использование современных технологий представления знаний (онтологии, семантические сети) позволяет существенно расширить функциональные возможности хранилищ научной информации, предоставляя дополнительные возможности их интеграции. Примером может служить проект BioMoby , предоставляющий доступ к биологическим данным, расширенный за счет использования онтологического описания и сервисов вспомогательного анализа данных.

Отдельно следует упомянуть проекты, посвященные разработке и наполнению хранилищ знаний, в том числе используемых для интегрированной автоматической обработки данных. Примерами таких проектов могут служить системы OpenCyc, True Knowledge, Wolfram Alpha, ориентированные на хранение знаний в форме, пригодной для анализа с помощью унифицированных запросов.

Другой актуальной задачей в области распределенной обработки данных является распространение знаний об их обработке в форме открытых цепочек заданий (workflow), ориентированных на решение той или иной проблемы предметной области. Существует ряд проектов, целью которых является создание открытых баз цепочек заданий, предоставляющих возможность интегрированного использования различных источников данных, знаний и вычислительных ресурсов. 

Примером таких проектов могут служить myExperiment , myGrid. Кроме того, существует ряд проектов, ориентированных на открытую публикацию результатов экспериментов (как численных, так и натуральных) в различных областях, аннотированных специализированным образом, допускающим автоматизированное использование таких данных. Например, в рамках проекта oreChem предоставляется возможность распространения аннотированной (с использованием технологий SemanticWeb и языка Chemical Markup Language, CML) информации в области химии.

Важным направлением современных технологий работы с данными является развитие методологии построения вычислительных приложений, учитывающей приоритетную специфику данных. Примером может служить концепция Dynamic Data Driven Application Systems, DDDAS , ориентированная на работу с динамическими источниками данных (в т.ч. источниками измерений). Эта концепция находит применение в различных областях научной деятельности: моделировании лесных пожаров , исследовании водных ресурсов , моделировании прибрежной среды и.т.п. 

Несмотря на тенденции к организации открытых аннотированных, доступных для автоматической обработки хранилищ данных, до сих пор существует множество баз, предоставляющих данные по низкоуровневым протоколам (как элементы файловых систем, FTP-серверы, базы данных и пр.). Кроме того, на сегодняшний день существует множество форматов научных данных, использующих файловую структуру (например, NetCDF). Одним из подходов для универсализации доступа к таким данным является использование сервиса доступа к данным, работающим на основе концепции REST . Данная концепция, оперируя в терминах REST-сервисов, позволяет добиться унифицированного доступа к различным источникам данных, расположенным  как в локальной сети или Интернете, так и на локальном компьютере. Концепция ориентирована на унифицированный доступ к данным с осуществлением неявной фоновой обработки в соответствии с запросами пользователя. Кроме того, концепция изначально опирается на сервисную структуру (REST-сервисы), что позволяет эффективно использовать ее в рамках систем, основанных на сервисо-ориентированной архитектуре (SOA).

С другой стороны, в настоящее время появляется множество технологических решений, предоставляющих прозрачный интерфейс для хранения и организации доступа к распределенным данным. Одними из наиболее известных решений в этой области являются Google File System, GFS , Hadoop File System, HDFS. На более высоком уровне существуют системы управления данными и обработки запросов к ним. Известна   внутренняя разработка компании Google – система BigTable . На базе этой системы производится объединение крупных распределенных хранилищ данных с целью выполнения массовых запросов к хранимым данным. Открытым аналогом этой системы является платформа HBase, реализованная на базе HDFS.

Отдельный интерес в данной области представляют интегрированные проблемно-ориентированные оболочки для выполнения комплексных исследований на основе распределенных данных, функционирующие в Интернете. Их назначение состоит в том, чтобы централизованно предоставлять пользователю – члену виртуального профессионального сообщества – множество разнотипных сервисов, объединенных   тематикой (определяющихся тематикой портала), принципом доступа и интерфейсом. Примером такого портала может служить сайт Nucleonica , ориентированный на исследователей в области ядерной физики, или сайт «The Introduction of The Center for the Studies of Information Resources of Wuhan University». Эти решения предоставляют ряд традиционных для web-ресурсов такого уровня сервисов: электронные журналы (блоги), справочную информацию (на базе технологии wiki), возможность общения с экспертом в данной предметной области. Однако  наряду с этим предоставляется и ряд специфических сервисов, в частности, для предметно-ориентированного компьютерного моделирования. В РФ примером такого специализированного портала является разработка, функционирующая в Национальной нанотехнологической сети – учебно-научный комплекс «Компьютерное моделирование в нанотехнологиях». 

Литература:

1.	Data-Driven Science: A New Paradigm? / M.L. Nelson // EDUCAUSE Review. 2009. Vol. 44. N 4 (July/August 2009).  P. 6–7.

2.	Peter  Mur rayRust. Datadriven science   a scientist's view [Электронный ресурс]. – Режим доступа: http://www.sis.pitt.edu/~repwkshop/papers/murray.pdf, свободный. – Загл. с экрана. – Яз. англ.

3.	The Fourth Paradigm. Data-Intensive Scientific Discovery. – Microsoft, 2009. – 254 p.

4.	A 2020 Vision for Ocean Science / J.R. Delaney, R.S. Barga // The Fourth Paradigm. Data-Intensive Scientific Discovery. – Microsoft, 2009. – P. 27-38.

5.	Bringing the Night Sky Closer: Discoveries in the Data Deluge / A.A. Goodman, C.G. Wong // The Fourth Paradigm. Data-Intensive Scientific Discovery. – Microsoft, 2009. – Pp. 39-44.

6.	WorldWide Telescope [Электронный ресурс]. – Режим доступа: http://www.worldwidetelescope.org/, свободный. – Загл. с экрана. – Яз. англ.

7.	A Unified Modeling Approach to Data-Intensive Healthcare / I. Buchan, J. Winn, C. Bishop // The Fourth Paradigm. Data-Intensive Scientific Discovery. – Microsoft, 2009. – Pp. 91-97.

8.	CrystalEye [Электронный ресурс]. – Режим доступа: http://www-pmr.ch.cam.ac.uk/wiki/CMLCrystBase, свободный. – Загл. с экрана. – Яз. англ.

9.	The ENCODE Project: ENCyclopedia Of DNA Elements [Электронный ресурс]. – Режим доступа: http://genome.ucsc.edu/ENCODE/, свободный. – Загл. с экрана. – Яз. англ.

10.	Semantic eScience: Encoding Meaning in Next-Generation Digitally Enhanced Science / P. Fox, J. Hendler // The Fourth Paradigm. Data-Intensive Scientific Discovery. – Misrosoft, 2009. – P. 147-152.

11.	A Platform for All That We Know: Creating a Knowledge-Driven Research Infrastructure / S. Parastadis // The Fourth Paradigm. Data-Intensive Scientific Discovery. – Misrosoft, 2009. – P. 165-172.

12.	BioMoby [Электронный ресурс]. – Режим доступа: http://biomoby.org//, свободный. – Загл. с экрана. – Яз. англ.

13.	OpenCyc [Электронный ресурс]. – Режим доступа: http://opencyc.org//, свободный. – Загл. с экрана. – Яз. англ.

14.	True Knowledge Question Answering Service [Электронный ресурс]. – Режим доступа: http://www.trueknowledge.com/, свободный. – Загл. с экрана. – Яз. англ.

15.	Wolfram|Alpha - Computational Knowledge Engine [Электронный ресурс]. – Режим доступа: http://www.wolframalpha.com/, свободный. – Загл. с экрана. – Яз. англ.

16.	Darema F. Introduction to the ICCS 2006 Workshop on Dynamic data driven applications systems // Lecture Notes in Computer Science. - 2006. 3993. P. 375-383.

17.	Ouyang Y. Dynamic Data Driven Application System for Watershed Ecosystem. 2008 [Электронный ресурс] .  – Режим доступа: http://www.scitopics.com/Dynamic_Data_Driven_Application_System_for_Watershed_Ecosystem.html, свободный. – Загл. с экрана. – Яз. англ.

18.	Designing a Dynamic Data Driven Application System for Coastal and Environmental Modeling / G. Allen, P. Bogden, R.A. Luettich, E. Seidel, R. Twilley // IFIP International Federation for Information Processing. 2007 Vol. 239/2007.  P. 275-293.

19.	NetCDF (network Common Data Form) [Электронный ресурс]. – Режим доступа: http://www.unidata.ucar.edu/software/netcdf/, свободный. – Загл. с экрана. – Яз. англ.

20.	Architectural Styles and the Design of Network-based Software Architectures. R.T. Fielding. 2000. Doctoral thesis, University of California, Irvine. 162 p.

21.	Ghemawat, S., Gobioff, H., and Leung, S.-T. The Google file system. In 19th Symposium on Operating Systems Principles, Lake George, NY. - 2003.  P. 29-43.

22.	The Hadoop Distributed File System: Architecture and Design [Электронный ресурс]. – Режим доступа: http://hadoop.apache.org/core/docs/current/hdfs_design.html, свободный. – Загл. с экрана. – Яз. англ.

23.	Chang, J. Dean, S. Ghemawat, W. C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, and R. E. Gruber. Bigtable: A distributed storage system for structured data. In OSDI'06: Seventh Symposium on Operating System Design and Implementation, Seattle, WA, USA, November 2006. P. 205-218.

24.	HBase [Электронный ресурс]. – Режим доступа: http://hadoop.apache.org/hbase/, свободный. – Загл. с экрана. – Яз. англ.

25.	Nucleonica [Электронный ресурс]. – Режим доступа: http://www.nucleonica.net/, свободный. – Загл. с экрана. – Яз. англ.

26.	Спельников Д. М., Гуськов А. А., Маслов В. Г., Бухановский А. В. Учебно-научный комплекс „Компьютерное моделирование в нанотехнологиях“ на основе Грид-среды // Известия высших учебных заведений. Приборостроение. 2011. Вып. 10. С. 44 50.