Главная | О ТБО | Литература | Проблемы рекультивации отходов быта, промышленного и сельскохозяйственного производства |
Статистический анализ экспериментальных данных по использованию сложных компостов в качестве мелиорантов сельскохозяйственных земель
Цель работы - статистическая обработка данных экспериментальных опытов, проводимых на кафедре общей биологии и экологии Кубанского ГАУ по изучению эффективности использования компостов, полученных на основе фосфогипса и различных органических отходов производства (навоз крупного рогатого скота, птичий помет, опилки, осадки сточных вод, рисовая шелуха, перегной, дефекат), а также нефтепродуктов, серы и кальция. В качестве оцениваемых параметров были выбраны как состояние почвы (физико-химические ее свойства), так физиологические и биометрические характеристики растений. Кроме того, ставилась задача анализа последействия внесения в почву таких смесей.
Подготовка входной таблицы. Чтобы подготовить удобную для анализа таблицу, например, пригодную для сравнения показателей по типу распределения, средней величине, вариабельности и т.д., целесообразно в названии каждой переменной отобразить вариант опыта и время его проведения. Например, К - контроль, 1 - первый вариант, 2 - второй вариант, 3 - третий вариант и т.д. Точно так же можно закодировать и временные различия данных. Например, цифрой 9 помечать показатели опытов, полученные в 2009 году, а цифрой 10 - в 2010 году (рис. 1).
Проверка качества данных и анализ выбросов. После создания компьютерной таблицы первым делом необходимо проверить качество данных: просмотреть опечатки, разделительные знаки, которые должны отделять в десятичном числе целую часть от дробной (точка или запятая).
Если обнаружены "подозрительные" артефактные значения, то необходимо принять обоснованное решение об их выбраковке. Для локализации и устранения выбросов удобно пользоваться графическим способом. Для этого необходимо в пакете STATISTICA выделить входные данные и построить график Boxplot. (Графики/Графики входных данных/Точечный блок/Среднее/СЕ/СD) (рис. 2).
На графике, построенном для переменной «9К_ длина побега» видно, что экстремальными значениями являются 45,5 и 53 (рис. 2). Их следует исключить из совокупности, а пустые значения заменить средними.
Аналогичным образом проверяется вся совокупность данных. Создание новой входной таблицы, в которой выпавшие значения будут заменены средними, лучше всего проводить в программе STATISTICA. Для этого необходимо экспортировать данные из формата EXCEL в систему STATISTICA, выбрать в меню пункт Vars/ReplaceMissingData, указать необходимый диапазон данных и нажать кнопку ОК. Программа автоматически заменит пропуски средними значениями соответствующих переменных. После исключения выпадающих значений первичные статистические параметры вычисляются заново.
Для визуализации описательных статистик можно построить статистические графики типа "ящиков с усами" (Техника Box&WhiskerPlot) (рис. 3). "Ящичковые" диаграммы дают исследователю общее представление о распределении переменной: на них можно отобразить среднее значение, интервал среднее значение плюс-минус стандартное отклонение, доверительный интервал.
Большую роль в предварительном статистическом анализе данных играет построение гистограмм распределения, по которым можно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону распределения, в частности нормальному (рис. 4).
На графике, как правило, указываются критерии Колмогорова-Смирнова и Лиллифорса с соответствующими им уровнями значимости, по которым можно судить о степени приближения к нормальному закону распределения.Отклонение от нормального распределения считается существенным при значении р<0,05; в этом случае для соответствующих переменных следует применять непараметрические тесты. В рассматриваемом примере по распределению «Длины колоса (см)» в контрольном опыте значение р>0,8, то есть вероятность ошибки является не значимой, поэтому можно считать, что значения переменной достаточно хорошо подчиняются нормальному закону.
Для проверки гипотезы нормальности с помощью пакета прикладных программ 8ТЛТ18Т1КЛ используется также визуальный тест «график нормальных вероятностей» [КогтагргоЪаЪШтурЫ (ГЧРР)]. Согласно данному тесту, идеально нормальным будет распределение, для которого точки, соответствующие наблюдаемым значениям, лежат точно на линии теоретической зависимости (как в случае с «Длиной колоса») (рис. 5). Для тестирования выборки на нормальный закон с помощью этого метода необходимо последовательно указать: Графики/Графики входных данньгх/График вероятности/Нормальная вероятность.
Предположение о нормальном законе распределения используется во многих статистических методах обработки информации: в регрессионном анализе при установлении зависимостей между случайными величинами, в дисперсионном анализе при проверке статистических гипотез, поэтому при обработке данных рекомендуется обязательно его проверять.
Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя и более рядами значений. При этом используются ранее выгчисленные статистики. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей - о достоверности (недостоверности) отклонений сигм (дисперсий) и коэффициентов вариации.
Для проведения статистического теста, необходимо выдвинуть две статистические гипотезы. Нулевая гипотеза: различий между (двумя) выборками нет. Альтернативная гипотеза: различия между (двумя) выборками есть. Данные должны быть организованы в виде таблицы со строками-наблюдениями и столбцами-признаками.
Если данные параметрические, проводят параметрический тест Стьюден-та(модуль Basicstatisticsandtables:AnalysisStartupPanel...). Причем здесь есть одна тонкость. Если сравниваемые переменные были получены на разных объектах (например, пробы для оценки биомассы растений отбирались в разных вариантах опыта), мы будем использовать тест Стьюдента для независимых переменных (...t-testforindependentsamples, в окошке lnputfileнужно выбрать Eachvariablecontainsdata-foronegroup). Если пары сравниваемых характеристик были получены на одном объекте (например, содержание фосфора в почве оценивалась до постановки опыта и после него на одном и том же участке по одинаковому количеству проб почвы), мы будем использовать тест Стьюдента для зависимых переменных (... t-testfordependentsamples, Display:Detailedtableofresults).
Если же мы имеем дело с непараметрическими данными, то необходимо провести непараметрический тест Вилкоксона(модуль Nonparametrics/Distrib.: AnalysisStartupPanel(вкладка Nonparametricstats) Wilcoxonmatchedpairstest).
В любом случае указывают пару сравниваемых переменных и нажимают OK. На экране появится таблица, содержащая значения статистических характеристик выборок (рис. 6, 7).
Нас будет интересовать значение параметра p-vaIue(или просто p) - это вероятность статистической ошибки первого рода (вероятность найти несуществующую закономерность). Если p-vaIueменьше 0,05, мы должны принять альтернативную гипотезу о существовании различий между выборками. Обязательным этапом в анализе опытных данных является дисперсионный анализ, который позволяет оценить, влияет или не влияет один или несколько регулируемых в опыте факторов на результативную переменную.
В случае экспериментов с компостами регулируемыми факторами могут быть дозы внесения органических или неорганических отходов в приготовленную смесь. Для проведения дисперсионного анализа специальным образом готовится входная таблица, где по столбцам (строкам) указываются значения анализируемого показателя в соответстствии с вариантом опыта, а по строкам (столбцам) повторно-сти. Например, входная таблица для проведения дисперсионного анализа влияния ор-ганоминерального удобрения, приготовленного на основе различных доз куриного помета и фосфогипса (доза фосфогипса при этом оставалась без изменения).на показатели роста овса (длина ростка, см) имеет следующий вид (табл. 1).
Варианты опыта |
1 |
2 |
3 |
Среднее |
Контроль(почва) |
2,3 |
2,5 |
2,1 |
2,3 |
2т/га кур.пом.+5 т/га ФГ |
3,8 |
4,1 |
3,9 |
3,9 |
4 т/га кур.пом. +5 т/га ФГ |
3,7 |
4,3 |
4,2 |
4,1 |
Влияние исследуемого фактора определяется по величине значимости критерия Фишера, которая находится в таблице Дисперсионныйанализ на пересечении стро-киМеждугруппамии столбца р-значение. В случаях, когда р-значение <0,05, критерий Фишера значим, и влияние исследуемого фактора можно считать доказанным. Реализовать дисперсионный анализ удобно и в формате EXCEL^w. 8), и в формате STATISTICA.
В последнем случае на закладке Статистика панели инструментов необходимо открыть модуль Анализ вариантов. В выпавшем окне загрузить метод Группировка и однофакторный дисперсионный анализ (One-way ANOVA), в поле Spe-cilicationmethod выберите QuctspicsdiaIogи нажмите ОК. После двух щелчков (^появится таблица результатов (Descriptivestatisticsandcorrelationsbygroups- Results), в которой необходимо выбрать кнопку AII_effects. В появившемся окне будут рассчитаны основные статистики, включая F-статистику Фишера и р-значение.
В нашем случае он значительно меньше значения 0,05. Таким образом, принимается гипотеза о влиянии регулируемого фактора (доза куриного помета в органо-минеральном удобрении) на результативный признак (длину ростка). Другими словами, изменчивость результативного признака, обнаруженная в опытах, есть действие влияния регулируемого фактора.
Следующим этапом анализа данных является корреляционный анализ. Его задача состоит в том, чтобы определить характер связи между сопряженными признаками, убедиться в статистической достоверности найденного количественного значения связи и подвергнуть эти данные регрессионному анализу, который позволит установить аналитические формулы, отображающие взаимосвязи признаков.
При решении задачи по выявлению влияния отходов на качество почвы и характеристики сельскохозяйственных культур в качестве результативных переменных регрессионного анализа можно брать продукционные параметры (масса зерен в колоске, масса 1000 зерен, масса растения и т.д.). В качестве зависимых – остальные биометрические характеристики растений или параметры качества почвы (содержание питательных веществ, химико-физические свойства). Особый интерес представляет второй случай. Так как наша основная цель создать такие условия, в которых растения усваивали бы максимальное количество питательных веществ в соответствующей фазе развития в зависимости от их биологической продуктивности и других вегетационных факторов и давали бы высокие урожаи.
Разумеется, для проведения регрессионного анализа, необходимо правильно спланировать опыт. Например, в каждом варианте опыта должны параллельно фиксироваться параметры растений и соответствующие им параметры почвы. В случае построения адекватной регрессионной модели зависимости продукционных параметров растений от физико-химических показателей почвы, можно регулировать дозы вносимого в почву фосфогипса и органических отходов для получения оптимально качественного и высокого урожая.
Социальные сети