Введение
Значение количественных методов в биологии
Выдающийся
естествоиспытатель Р. Чэпман еще в 1928 году
отметил, что “в ходе истории различных
ветвей науки можно видеть переход от
относительно неточного чистого описания к
относительной точности, связанной с
количественными методами и
математическими вычислениями”. Как
показывает опыт, такое утверждение по праву
можно отнести практически ко всем
биологическим дисциплинам. Безвозвратно
уходят в Лету те времена, когда
исследователь-биолог лишь на основании
личных впечатлений мог говорить: “данные
явления отличаются”. Сейчас, для того чтобы
иметь шанс быть услышанным, необходимо
иметь в запасе более или менее объективные
критерии, опираясь на которые можно
пытаться познать причинно-следственные
отношения. Как правило, это возможно лишь с
применением количественных методов
анализа, в первую очередь основанных на
аппарате математической статистики.
Немаловажно и то, что использование таких
методов делает описание какого-либо
биологического явления действительно
международным, выраженным
языком цифр, а потому и более
универсальным.
Обработка
количественных данных о биологических
объектах и их оценка являются задачей
одного из прикладных разделов
математической статистики - биологической или вариационной статистики.
Слово “статистика” в прямом смысле
означает учение о народонаселении,
объединенном в некоторую политическую
единицу. Из-за зависимости социальных наук
от статистических методов широко
распространено в корне неправильное
представление, что будто бы математическая
статистика является методом экономики.
Фактически же она не менее тесно связана с
биологическими, медицинскими, техническими
исследованиями. В последнее время методы
математической статистики стали активно
применяться в работах по лингвистике,
истории и т.п. К слову, именно биологам (особенно
на первых порах) принадлежит наиболее
весомый вклад в развитие этой науки. Кроме
терминов “биологическая” и “вариационная”
статистика в биологии зачастую
используется термин “биометрия”
(от греч. bios - жизнь и metrei - измерять).
Идея
использовать математику для описания и
анализа биологических явлений витала в
умах людей на протяжении всей истории
цивилизации. Известно, что ещё древние
пифагорейцы считали материальный мир
неполноценным воплощением идеальных чисел
и полагали возможным при помощи вычислений
познать универсальные законы. Значительно
позднее Галилео Галилей в знаменитых “Диалогах”
[1637], говоря о размерах животных, рассуждал
чисто математически и писал, что “скелет
животного возрастает как третья степень
увеличивающихся линейных размеров” (цит.
по: [Шмидт-Ниельсен, 1987]). В начале XIIX века
Реомюр пытался найти математические законы
строения пчелиных сот, а за 30 лет до него
Борелли делал математические расчёты
движения животных [Рокицкий, 1973]. В 1835 году
вышла книга бельгийского антрополога Кетле,
в которой он показал, что самые различные
физические особенности человека и даже его
поведение согласуется с теорией
вероятностей [Лакин, 1990]. Однако лишь в конце
XIX – начале XX века, когда торжествуют идеи
сэра Чарльза Дарвина и “вопиют”
гениальные прозрения монаха Грегора
Менделя, когда разработаны основные
положения теории вероятностей
складываются подходящие условия для
зарождения новой науки – биометрии.
Наибольшая
заслуга в теоретическом обосновании и
практической реализации биометрии
бесспорно, принадлежит английской школе
статистиков. Во главе школы стояли Френсис
Гальтон и его преемник Карл Пирсон.
Гальтону принадлежит первая попытка
применить статистические методы к решению
проблемы наследственности и изменчивости
организмов. Он заложил основы регрессионного
анализа. Пирсон развил учение о разных
типах кривых распределения, разработал
критерий c2,
ввёл в биометрию такие показатели, как стандартное
отклонение, коэффициент
вариации и др.
Надо
отметить, что исследования Гальтона и
Пирсона поначалу не получили признания у
научной общественности и их статьи даже
отказывались печатать в ведущих научных
изданиях, в частности, в докладах
Королевского общества (раздел биология).
Поэтому в 1901 году Пирсон был вынужден
организовать выпуск собственного журнала
“Biometrica”, который существует до сих пор и
считается наиболее авторитетным изданием в
своей области.
Недоверие
к первым биометрическим работам было
обусловлено несколькими причинами. С одной
стороны, взгляды Гальтона и Пирсона не
укладывались в систему устоявшихся на тот
период мнений концептуального характера –
парадигму, основанную на музейно-натуралистических
подходах к познанию природы. Другая
проблема заключалась в том, что первые
биометрики акцентировали своё внимание на
относительно многочисленных рядах данных и
фактически не интересовались анализом так
называемых “малых выборок”. Поэтому даже
приняв методологию Гальтона и Пирсона
большинство биологов не смогли бы
использовать её на практике.
Положение
стало меняться только после того, как
английский ученый В. С. Госсет в 1908
году под псевдонимом Student опубликовал свою
работу “Вероятная ошибка средней”, где он
описал разработанный им t-критерий.
Парадоксально, но эту статью фактически
игнорировал К. Пирсон и его ближайшие
ученики. Однако она получила своё
дальнейшее развитие в трудах другого
блистательного английского статистика
Рональда Фишера. Вклад этого учёного в
методологию и мировоззрение современной
биологии, и биологической статистики в
частности, трудно переоценить. Его научные
работы по праву можно считать вершиной “классической”
вариационной и фундаментом “современной”
многомерной статистики. Он основатель
дисперсионного и дискриминантного анализа.
Совместно с американским экономистом
Хотеллингом он предложил известную
разновидность факторного анализа – метод
главных компонент. Кроме того, занимаясь
преподавательской деятельностью в
Лондонском и Кембриджском университетах он
имел возможность пропагандировать
биометрию среди будущей научной элиты, что,
безусловно, способствовало её скорейшему
развитию.
Последующее
развитие биометрии связано,
преимущественно, с разработкой методов
анализа многомерных систем. Особенно
интенсивный рост в этом направлении стал
наблюдаться после появления мощных
вычислительных средств: стационарных ЭВМ и
персональных компьютеров. Отметим, что и в
настоящее время биологическая статистика
ещё не закончила своё развитие, а наоборот
переживает бурный рост и подъём во всём
мире.
Фундаментальные понятия биометрии
Одно
из важнейших понятий биометрии – “генеральная
совокупность”, т.е. бесконечное
множество однородных, но индивидуально
различимых объектов. Предположим, мы
поставили цель изучить изменчивость массы
тела конкретного вида животных, тогда
генеральной совокупностью будут данные о
массе всех без исключения особях этого вида.
Понятно, что при изучении природных
популяций в подавляющем большинстве
случаев мы не сможем иметь дело с
генеральной совокупностью в её полном
объёме, а будем располагать лишь какой-то,
как правило, очень небольшой, её частью.
Такая отобранная тем или иным способом
часть генеральной совокупности получила
название выборки. На
основании этой выборки исследователь и
формирует представление о свойствах
генеральной совокупности. Основное
требование, предъявляемое к любой выборке,
это её представительность или репрезентативность
(от лат. represento - представляю). Выборка
считается репрезентативной в том случае,
если она получена путём случайного отбора,
поскольку, если в приведённом примере для
анализа мы будем отбирать только самые
крупные особи, то они будут характеризовать
лишь собранный материал, но никак не
генеральную совокупность.
Традиционно
в биометрии сумму членов генеральной
совокупности обозначают буквой N,
а число наблюдений, образующих выборку -
буквой n.
При
изучении тех или иных объектов
исследователь имеет дело с признаками,
проявлением которых один предмет
отличается от другого. Примерами признаков
могут служить - масса и длина тела, окраска и
число яиц в гнезде и т.п. Важным свойством
признаков является варьирование величины
признака при переходе от одной единицы
наблюдения к другой. Отдельные числовые
значения варьирующего признака называются вариантами (лат. variatio - изменение) или датами (англ. data - данные).
Переменные
величины принято обозначать прописными
латинскими буквами X, Y, Z,
а их варианты – строчными буквами (x1,
x2, x3 ... xn). В общем виде
значения варианты отмечают символом xi,
yi, zi.
Все
признаки можно разделить на две группы –
качественные и количественные. Типичные
качественные признаки - окраска, пол,
возраст, наличие заболевания и т.п. К
примеру, в городской популяции сизых
голубей можно выделить особей с типичной “сизой”
окраской, черночеканных, альбиносов,
меланистов, пегих, красных. В таком случае
можно без специальных измерений достаточно
определенно судить о наличии или
отсутствии того или иного признака у
конкретной особи.
Количественные
признаки, в отличие от качественных, можно
анализировать лишь на основании
специальных измерений или подсчетов. Их
подразделяют на континуальные и дискретные.
Континуальные признаки теоретически могут
принимать любые возможные значения в
пределах между минимальным и максимальным
показателем признака. К ним относятся масса,
линейные размеры и температура организма,
содержание биохимических и неорганических
веществ в его тканях и т.п. В качестве
примера дискретных признаков можно
привести число глазков на клубне картофеля,
пятен на надкрыльях жука, яиц в гнезде.
Отсюда следует, что непосредственно
наблюдаемые значения дискретного признака
могут характеризоваться лишь целыми
числами, тогда как при континуальном
варьировании значения признака могут быть
как целыми, так и дробными. Иногда вместо
непосредственно измеренных значений
количественного признака используют
присвоенные им ранги или баллы. В таких
случаях количественный признак называется ранжированным.