Введение

 

Значение количественных методов в биологии

Выдающийся естествоиспытатель Р. Чэпман еще в 1928 году отметил, что “в ходе истории различных ветвей науки можно видеть переход от относительно неточного чистого описания к относительной точности, связанной с количественными методами и математическими вычислениями”. Как показывает опыт, такое утверждение по праву можно отнести практически ко всем биологическим дисциплинам. Безвозвратно уходят в Лету те времена, когда исследователь-биолог лишь на основании личных впечатлений мог говорить: “данные явления отличаются”. Сейчас, для того чтобы иметь шанс быть услышанным, необходимо иметь в запасе более или менее объективные критерии, опираясь на которые можно пытаться познать причинно-следственные отношения. Как правило, это возможно лишь с применением количественных методов анализа, в первую очередь основанных на аппарате математической статистики. Немаловажно и то, что использование таких методов делает описание какого-либо биологического явления действительно международным, выраженным  языком цифр, а потому и более универсальным.

Обработка количественных данных о биологических объектах и их оценка являются задачей одного из прикладных разделов математической статистики - биологической или вариационной статистики.  Слово “статистика” в прямом смысле означает учение о народонаселении, объединенном в некоторую политическую единицу. Из-за зависимости социальных наук от статистических методов широко распространено в корне неправильное представление, что будто бы математическая статистика является методом экономики. Фактически же она не менее тесно связана с биологическими, медицинскими, техническими исследованиями. В последнее время методы математической статистики стали активно применяться в работах по лингвистике, истории и т.п. К слову, именно биологам (особенно на первых порах) принадлежит наиболее весомый вклад в развитие этой науки. Кроме терминов “биологическая” и “вариационная” статистика в биологии зачастую используется термин “биометрия” (от греч. bios - жизнь и metrei - измерять).

Статистический анализ эффективен, если в первую очередь представляют интерес общие свойства какого-либо явления. В таких случаях (а они нередки в биологии) приходится жертвовать уникальностями и оперировать наиболее массовыми его проявлениями. Именно в связи с этим исследователю-биологу нередко приходится отвлекаться от конкретного содержания и пользоваться абстрактными значениями. К счастью в статистике, как и в других математических науках, одна и та же формула может быть использована для анализа разнообразных материальных объектов, что позволяет в большинстве практических случаев использовать ранее уже разработанные и обоснованные методы [Фишер, 1958].

В начало страницы

Историческая справка

Идея использовать математику для описания и анализа биологических явлений витала в умах людей на протяжении всей истории цивилизации. Известно, что ещё древние пифагорейцы считали материальный мир неполноценным воплощением идеальных чисел и полагали возможным при помощи вычислений познать универсальные законы. Значительно позднее Галилео Галилей в знаменитых “Диалогах” [1637], говоря о размерах животных, рассуждал чисто математически и писал, что “скелет животного возрастает как третья степень увеличивающихся линейных размеров” (цит. по: [Шмидт-Ниельсен, 1987]). В начале XIIX века Реомюр пытался найти математические законы строения пчелиных сот, а за 30 лет до него Борелли делал математические расчёты движения животных [Рокицкий, 1973]. В 1835 году вышла книга бельгийского антрополога Кетле, в которой он показал, что самые различные физические особенности человека и даже его поведение согласуется с теорией вероятностей [Лакин, 1990]. Однако лишь в конце XIX – начале XX века, когда торжествуют идеи сэра Чарльза Дарвина и “вопиют” гениальные прозрения монаха Грегора Менделя, когда разработаны основные положения теории вероятностей складываются подходящие условия для зарождения новой науки – биометрии.

Наибольшая заслуга в теоретическом обосновании и практической реализации биометрии бесспорно, принадлежит английской школе статистиков. Во главе школы стояли Френсис Гальтон и его преемник Карл Пирсон. Гальтону принадлежит первая попытка применить статистические методы к решению проблемы наследственности и изменчивости организмов. Он заложил основы регрессионного анализа. Пирсон развил учение о разных типах кривых распределения, разработал критерий c2, ввёл в биометрию такие показатели, как стандартное отклонение, коэффициент вариации и др.

Надо отметить, что исследования Гальтона и Пирсона поначалу не получили признания у научной общественности и их статьи даже отказывались печатать в ведущих научных изданиях, в частности, в докладах Королевского общества (раздел биология). Поэтому в 1901 году Пирсон был вынужден организовать выпуск собственного журнала “Biometrica”, который существует до сих пор и считается наиболее авторитетным изданием в своей области.

Недоверие к первым биометрическим работам было обусловлено несколькими причинами. С одной стороны, взгляды Гальтона и Пирсона не укладывались в систему устоявшихся на тот период мнений концептуального характера – парадигму, основанную на музейно-натуралистических подходах к познанию природы. Другая проблема заключалась в том, что первые биометрики акцентировали своё внимание на относительно многочисленных рядах данных и фактически не интересовались анализом так называемых “малых выборок”. Поэтому даже приняв методологию Гальтона и Пирсона большинство биологов не смогли бы использовать её на практике.

Положение стало меняться только после того, как английский ученый В. С. Госсет в 1908 году под псевдонимом Student опубликовал свою работу “Вероятная ошибка средней”, где он описал разработанный им t-критерий. Парадоксально, но эту статью фактически игнорировал К. Пирсон и его ближайшие ученики. Однако она получила своё дальнейшее развитие в трудах другого блистательного английского статистика Рональда Фишера. Вклад этого учёного в методологию и мировоззрение современной биологии, и биологической статистики в частности, трудно переоценить. Его научные работы по праву можно считать вершиной “классической” вариационной и фундаментом “современной” многомерной статистики. Он основатель дисперсионного и дискриминантного анализа. Совместно с американским экономистом Хотеллингом он предложил известную разновидность факторного анализа – метод главных компонент. Кроме того, занимаясь преподавательской деятельностью в Лондонском и Кембриджском университетах он имел возможность пропагандировать биометрию среди будущей научной элиты, что, безусловно, способствовало её скорейшему развитию.

Последующее развитие биометрии связано, преимущественно, с разработкой методов анализа многомерных систем. Особенно интенсивный рост в этом направлении стал наблюдаться после появления мощных вычислительных средств: стационарных ЭВМ и персональных компьютеров. Отметим, что и в настоящее время биологическая статистика ещё не закончила своё развитие, а наоборот переживает бурный рост и подъём во всём мире.

Курс биометрии в России стали читать впервые в МГУ в 1919 году. Лекции читал ученый с мировым именем, один из основоположников популяционной генетики С. С. Четвериков. Ценный вклад в развитие и пропаганду методов вариационной статистики в нашей стране в разное время внесли В. И. Василевич, Л. А. Животовский, А. А. Любищев, Б. М. Миркин, Н. А. Плохинский, Ю. А. Песенко, Н. С. Ростова, П. Ф. Рокицкий, Е. С. Смирнов, П. В. Терентьев, Ю. А. Филипченко, А. В. Яблоков и целый ряд других отечественных учёных.

В начало страницы

Фундаментальные понятия биометрии

Одно из важнейших понятий биометрии – “генеральная совокупность”, т.е. бесконечное множество однородных, но индивидуально различимых объектов. Предположим, мы поставили цель изучить изменчивость массы тела конкретного вида животных, тогда генеральной совокупностью будут данные о массе всех без исключения особях этого вида. Понятно, что при изучении природных популяций в подавляющем большинстве случаев мы не сможем иметь дело с генеральной совокупностью в её полном объёме, а будем располагать лишь какой-то, как правило, очень небольшой, её частью. Такая отобранная тем или иным способом часть генеральной совокупности получила название выборки. На основании этой выборки исследователь и формирует представление о свойствах генеральной совокупности. Основное требование, предъявляемое к любой выборке, это её представительность или репрезентативность (от лат. represento - представляю). Выборка считается репрезентативной в том случае, если она получена путём случайного отбора, поскольку, если в приведённом примере для анализа мы будем отбирать только самые крупные особи, то они будут характеризовать лишь собранный материал, но никак не генеральную совокупность.

Традиционно в биометрии сумму членов генеральной совокупности обозначают буквой N, а число наблюдений, образующих выборку - буквой n.

При изучении тех или иных объектов исследователь имеет дело с признаками, проявлением которых один предмет отличается от другого. Примерами признаков могут служить - масса и длина тела, окраска и число яиц в гнезде и т.п. Важным свойством признаков является варьирование величины признака при переходе от одной единицы наблюдения к другой. Отдельные числовые значения варьирующего признака называются вариантами (лат. variatio - изменение) или датами (англ. data - данные).

Переменные величины принято обозначать прописными латинскими буквами X, Y, Z, а их варианты – строчными буквами (x1, x2, x3 ... xn). В общем виде значения варианты отмечают символом xi, yi, zi.

Все признаки можно разделить на две группы – качественные и количественные. Типичные качественные признаки - окраска, пол, возраст, наличие заболевания и т.п. К примеру, в городской популяции сизых голубей можно выделить особей с типичной “сизой” окраской, черночеканных, альбиносов, меланистов, пегих, красных. В таком случае можно без специальных измерений достаточно определенно судить о наличии или отсутствии того или иного признака у конкретной особи.

Количественные признаки, в отличие от качественных, можно анализировать лишь на основании специальных измерений или подсчетов. Их подразделяют на континуальные и дискретные. Континуальные признаки теоретически могут принимать любые возможные значения в пределах между минимальным и максимальным показателем признака. К ним относятся масса, линейные размеры и температура организма, содержание биохимических и неорганических веществ в его тканях и т.п. В качестве примера дискретных признаков можно привести число глазков на клубне картофеля, пятен на надкрыльях жука, яиц в гнезде. Отсюда следует, что непосредственно наблюдаемые значения дискретного признака могут характеризоваться лишь целыми числами, тогда как при континуальном варьировании значения признака могут быть как целыми, так и дробными. Иногда вместо непосредственно измеренных значений количественного признака используют присвоенные им ранги или баллы. В таких случаях количественный признак называется ранжированным.

В начало страницы