+7 (342) 299 99 69

пн-пт с 900 до 1800

logotype
ГлавнаяО ТБОЛитератураПроблемы рекультивации отходов быта, промышленного и сельскохозяйственного производстваСтатистический анализ экспериментальных данных по использованию сложных компостов в качестве мелиорантов сельскохозяйственных земель

Статистический анализ экспериментальных данных по использованию сложных компостов в качестве мелиорантов сельскохозяйственных земель

Цель работы - статистическая обработка данных экспериментальных опытов, проводимых на кафедре общей биологии и экологии Кубанского ГАУ по изучению эффективности использования компостов, полученных на основе фосфогипса и различных органических отходов производства (навоз крупного рогатого скота, птичий помет, опилки, осадки сточных вод, рисовая шелуха, перегной, дефекат), а также нефтепродуктов, серы и кальция. В качестве оцениваемых параметров были выбраны как состояние почвы (физико-химические ее свойства), так физиологические и биометрические характеристики растений. Кроме того, ставилась задача анализа последействия внесения в почву таких смесей.

Подготовка входной таблицы. Чтобы подготовить удобную для анализа таблицу, например, пригодную для сравнения показателей по типу распределения, средней величине, вариабельности и т.д., целесообразно в названии каждой переменной отобразить вариант опыта и время его проведения. Например, К - контроль, 1 - первый вариант, 2 - второй вариант, 3 - третий вариант и т.д. Точно так же можно закодировать и временные различия данных. Например, цифрой 9 помечать показатели опытов, полученные в 2009 году, а цифрой 10 - в 2010 году (рис. 1).

Пример заполнения данных для статистической обработки
Рис. 1. Пример заполнения данных для статистической обработки

Проверка качества данных и анализ выбросов. После создания компьютерной таблицы первым делом необходимо проверить качество данных: просмотреть опечатки, разделительные знаки, которые должны отделять в десятичном числе целую часть от дробной (точка или запятая).

Если обнаружены "подозрительные" артефактные значения, то необходимо принять обоснованное решение об их выбраковке. Для локализации и устранения выбросов удобно пользоваться графическим способом. Для этого необходимо в пакете STATISTICA выделить входные данные и построить график Boxplot. (Графики/Графики входных данных/Точечный блок/Среднее/СЕ/СD) (рис. 2).

Графический анализ выбросов
Рис. 2. Графический анализ выбросов

На графике, построенном для переменной «9К_ длина побега» видно, что экстремальными значениями являются 45,5 и 53 (рис. 2). Их следует исключить из совокупности, а пустые значения заменить средними.

Аналогичным образом проверяется вся совокупность данных. Создание новой входной таблицы, в которой выпавшие значения будут заменены средними, лучше всего проводить в программе STATISTICA. Для этого необходимо экспортировать данные из формата EXCEL в систему STATISTICA, выбрать в меню пункт Vars/ReplaceMissingData, указать необходимый диапазон данных и нажать кнопку ОК. Программа автоматически заменит пропуски средними значениями соответствующих переменных. После исключения выпадающих значений первичные статистические параметры вычисляются заново.

Для визуализации описательных статистик можно построить статистические графики типа "ящиков с усами" (Техника Box&WhiskerPlot) (рис. 3). "Ящичковые" диаграммы дают исследователю общее представление о распределении переменной: на них можно отобразить среднее значение, интервал среднее значение плюс-минус стандартное отклонение, доверительный интервал.

Пример построения графика в технике Box&WhiskerPlot
Рис. 3. Пример построения графика в технике Box&WhiskerPlot

Большую роль в предварительном статистическом анализе данных играет построение гистограмм распределения, по которым можно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону распределения, в частности нормальному (рис. 4).

Гистограмма распределения Длины колоса (см) в контрольном опыте
Рис. 4. Гистограмма распределения Длины колоса (см) в контрольном опыте

На графике, как правило, указываются критерии Колмогорова-Смирнова и Лиллифорса с соответствующими им уровнями значимости, по которым можно судить о степени приближения к нормальному закону распределения.Отклонение от нормального распределения считается существенным при значении р<0,05; в этом случае для соответствующих переменных следует применять непараметрические тесты. В рассматриваемом примере по распределению «Длины колоса (см)» в контрольном опыте значение р>0,8, то есть вероятность ошибки является не значимой, поэтому можно считать, что значения переменной достаточно хорошо подчиняются нормальному закону.

Для проверки гипотезы нормальности с помощью пакета прикладных программ 8ТЛТ18Т1КЛ используется также визуальный тест «график нормальных вероятностей» [КогтагргоЪаЪШтурЫ (ГЧРР)]. Согласно данному тесту, идеально нормальным будет распределение, для которого точки, соответствующие наблюдаемым значениям, лежат точно на линии теоретической зависимости (как в случае с «Длиной колоса») (рис. 5). Для тестирования выборки на нормальный закон с помощью этого метода необходимо последовательно указать: Графики/Графики входных данньгх/График вероятности/Нормальная вероятность.

Тест на нормальный закон распределения данных
Рис. 5. Тест на нормальный закон распределения данных «9К_длина колоса» (а) и «9К_количество зерен/на растение» (б)

Предположение о нормальном законе распределения используется во многих статистических методах обработки информации: в регрессионном анализе при установлении зависимостей между случайными величинами, в дисперсионном анализе при проверке статистических гипотез, поэтому при обработке данных рекомендуется обязательно его проверять.

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя и более рядами значений. При этом используются ранее выгчисленные статистики. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей - о достоверности (недостоверности) отклонений сигм (дисперсий) и коэффициентов вариации.

Для проведения статистического теста, необходимо выдвинуть две статистические гипотезы. Нулевая гипотеза: различий между (двумя) выборками нет. Альтернативная гипотеза: различия между (двумя) выборками есть. Данные должны быть организованы в виде таблицы со строками-наблюдениями и столбцами-признаками.

Если данные параметрические, проводят параметрический тест Стьюден-та(модуль Basicstatisticsandtables:AnalysisStartupPanel...). Причем здесь есть одна тонкость. Если сравниваемые переменные были получены на разных объектах (например, пробы для оценки биомассы растений отбирались в разных вариантах опыта), мы будем использовать тест Стьюдента для независимых переменных (...t-testforindependentsamples, в окошке lnputfileнужно выбрать Eachvariablecontainsdata-foronegroup). Если пары сравниваемых характеристик были получены на одном объекте (например, содержание фосфора в почве оценивалась до постановки опыта и после него на одном и том же участке по одинаковому количеству проб почвы), мы будем использовать тест Стьюдента для зависимых переменных (... t-testfordependentsamples, Display:Detailedtableofresults).

Если же мы имеем дело с непараметрическими данными, то необходимо провести непараметрический тест Вилкоксона(модуль Nonparametrics/Distrib.: AnalysisStartupPanel(вкладка Nonparametricstats) Wilcoxonmatchedpairstest).

В любом случае указывают пару сравниваемых переменных и нажимают OK. На экране появится таблица, содержащая значения статистических характеристик выборок (рис. 6, 7).

Сравнение средних величин длины побега в контрольном и 1-м вариантах опыта
Рис. 6. Сравнение средних величин длины побега в контрольном и 1-м вариантах опыта
Сравнение средних величин длины побега в контрольном и 1-м вариантах опыта
Рис. 7. Сравнение средних величин длины побега в контрольном и 1 -м вариантах опыта

Нас будет интересовать значение параметра p-vaIue(или просто p) - это вероятность статистической ошибки первого рода (вероятность найти несуществующую закономерность). Если p-vaIueменьше 0,05, мы должны принять альтернативную гипотезу о существовании различий между выборками. Обязательным этапом в анализе опытных данных является дисперсионный анализ, который позволяет оценить, влияет или не влияет один или несколько регулируемых в опыте факторов на результативную переменную.

В случае экспериментов с компостами регулируемыми факторами могут быть дозы внесения органических или неорганических отходов в приготовленную смесь. Для проведения дисперсионного анализа специальным образом готовится входная таблица, где по столбцам (строкам) указываются значения анализируемого показателя в соответстствии с вариантом опыта, а по строкам (столбцам) повторно-сти. Например, входная таблица для проведения дисперсионного анализа влияния ор-ганоминерального удобрения, приготовленного на основе различных доз куриного помета и фосфогипса (доза фосфогипса при этом оставалась без изменения).на показатели роста овса (длина ростка, см) имеет следующий вид (табл. 1).

Таблица 1 - Влияние органоминерального удобрения на показатели роста овса

Варианты опыта

1

2

3

Среднее

Контроль(почва)

2,3

2,5

2,1

2,3

2т/га кур.пом.+5 т/га ФГ

3,8

4,1

3,9

3,9

4 т/га кур.пом. +5 т/га ФГ

3,7

4,3

4,2

4,1

Влияние исследуемого фактора определяется по величине значимости критерия Фишера, которая находится в таблице Дисперсионныйанализ на пересечении стро-киМеждугруппамии столбца р-значение. В случаях, когда р-значение <0,05, критерий Фишера значим, и влияние исследуемого фактора можно считать доказанным. Реализовать дисперсионный анализ удобно и в формате EXCEL^w. 8), и в формате STATISTICA.

В последнем случае на закладке Статистика панели инструментов необходимо открыть модуль Анализ вариантов. В выпавшем окне загрузить метод Группировка и однофакторный дисперсионный анализ (One-way ANOVA), в поле Spe-cilicationmethod выберите QuctspicsdiaIogи нажмите ОК. После двух щелчков (^появится таблица результатов (Descriptivestatisticsandcorrelationsbygroups- Results), в которой необходимо выбрать кнопку AII_effects. В появившемся окне будут рассчитаны основные статистики, включая F-статистику Фишера и р-значение.

В нашем случае он значительно меньше значения 0,05. Таким образом, принимается гипотеза о влиянии регулируемого фактора (доза куриного помета в органо-минеральном удобрении) на результативный признак (длину ростка). Другими словами, изменчивость результативного признака, обнаруженная в опытах, есть действие влияния регулируемого фактора.

Следующим этапом анализа данных является корреляционный анализ. Его задача состоит в том, чтобы определить характер связи между сопряженными признаками, убедиться в статистической достоверности найденного количественного значения связи и подвергнуть эти данные регрессионному анализу, который позволит установить аналитические формулы, отображающие взаимосвязи признаков.

При решении задачи по выявлению влияния отходов на качество почвы и характеристики сельскохозяйственных культур в качестве результативных переменных регрессионного анализа можно брать продукционные параметры (масса зерен в колоске, масса 1000 зерен, масса растения и т.д.). В качестве зависимых – остальные биометрические характеристики растений или параметры качества почвы (содержание питательных веществ, химико-физические свойства). Особый интерес представляет второй случай. Так как наша основная цель создать такие условия, в которых растения усваивали бы максимальное количество питательных веществ в соответствующей фазе развития в зависимости от их биологической продуктивности и других вегетационных факторов и давали бы высокие урожаи.

Выходная таблица дисперсионного анализа
Рис. 8. Выходная таблица дисперсионного анализа

Разумеется, для проведения регрессионного анализа, необходимо правильно спланировать опыт. Например, в каждом варианте опыта должны параллельно фиксироваться параметры растений и соответствующие им параметры почвы. В случае построения адекватной регрессионной модели зависимости продукционных параметров растений от физико-химических показателей почвы, можно регулировать дозы вносимого в почву фосфогипса и органических отходов для получения оптимально качественного и высокого урожая.

1 1 1 1 1 1 1 1 1 1 Рейтинг 0.00 (0 Голосов)
  • Комментарии к статье
  • Вконтакте
  • Facebook

Содержимое второго блока