Обзор подготовлен

версия для печати
Точность данных: в поисках золотой середины

Точность данных: в поисках золотой середины

От BI-системы заказчики ждут ясности с первого взгляда и быстрого разумного ответа на свои вопросы. Качество данных является тем важнейшим фактором, который обеспечивает преобразование "сырой" информации в полезную, вызывающую доверие для принятия решений. И на первый план выходит степень точности используемых BI-системой данных.

Полнота, достоверность, точность и своевременность получения данных – четыре "столпа", на которых сегодня стоит корпоративная аналитика. Только при неукоснительном соблюдении этих четырех условий BI-система будет незаменимым рабочим инструментом как для высшего руководства компании, так и для обычных пользователей. Но если  с полнотой и достоверностью все более-менее понятно – данные должны быть "очищенными", то какова требуемая степень точности, ясно не совсем.

"Не всегда точность данных переходит в качество анализа", – предупреждает Сергей Крысанов, директор департамента прикладных бизнес-систем компании "Инлайн Груп Центр" (Воронеж).

Время и деньги

Точность определяется длиной промежутка между временем получения данных и временем тех событий, которые они описывают, описывает проблему Сергей Крысанов. Несмотря на общую закономерность – чем точнее данные, тем лучше результаты анализа – единых критериев и способов измерения этого показателя нет. Сергей Мень, эксперт в области решений бизнес-аналитики и управления информацией, SAP СНГ, приводит в пример проект, выполненный в крупной российской энергетической компании, когда уже после ввода системы в эксплуатацию возникла необходимость пересмотра требований к точности данных, поскольку их качество не удовлетворяло заказчика. Также был сделан ряд доработок в транзакционных системах с целью усиления контроля за процедурой ввода данных.

Как правило, решение о необходимом уровне точности применяется для каждого типа задач в отдельности, рассказывает Михаил Федоров, руководитель направления корпоративных решений компании "Прогноз". "При формировании фактических показателей требуется максимальная точность, а при расчете плановых достаточно применить более укрупненные алгоритмы расчета в пределах допустимой погрешности. При решении задач планирования и прогнозирования более важно оценить тенденцию изменения показателей, а не обеспечить максимально детальный расчет", – говорит он.

Мысль продолжает Юлия Амириди, заместитель генерального директора компании Intersoft Lab: "В отношении точности данных действует принцип достаточности. К примеру, при решении задач функционально-стоимостного анализа степень детализации функций и точность измерения времени на их исполнение напрямую влияют на качество результатов расчета себестоимости бизнес-процессов или продуктов. Должен соблюдаться разумный баланс между точностью и стоимостью получения исходных данных". То есть если существенное увеличение состава измеряемых функций влечет за собой лишь незначительное уточнение финансового результата, стоит задуматься о целесообразности дальнейшего повышения точности исходных данных.

Помимо того, что обеспечение высокой точности данных довольно дорого и не всегда необходимо, возможно снижение скорости обработки информации. Пользователю придется расставить приоритеты. "Возможность получить информацию с точностью до секунды, до номенклатурной позиции, до атомарной единицы, но один раз в сутки, либо каждые полчаса, но в более грубой форме. Все зависит от того, как часто нам нужна аналитика, и какую точность при этих требованиях позволяют обеспечить вычислительные мощности", – поясняет Сергей Мень.

Михаил Федоров напоминает, что на скорость обработки информации в BI-системе влияет  совокупность факторов, в том числе сложность алгоритмов расчета, характеристики программно-аппаратного комплекса и объемы исходных массивов информации. Чем больше исходных данных нужно обрабатывать, чем больше атрибутов и сложнее связи в исходных данных, тем дольше будет выполняться обработка этой информации в BI-системе. При этом для работы экспертов зачастую не требуется обрабатывать весь массив, достаточно проводить расчеты с агрегированными данными, которые могут рассчитываться ежедневно в рамках ночного сеанса загрузки.

Как измерить точность

Отсутствие однозначных суждений и субъективность оценок – вот как можно охарактеризовать преобладающий подход к тому, каким образом можно измерить точность данных и каков максимально допустимый уровень погрешности при подготовке аналитических отчетов. Михаил Федоров полагает, что одним из способов оценки точности и достоверности данных в BI-системе является сравнительный анализ этих данных с информацией из других источников.

Например, достаточно часто сравниваются данные, сформированные на основе информации из систем управленческого и бухгалтерского учета.  Также существует возможность настройки механизма детализации (drill down) значения показателя до набора первичных данных или исходных показателей, на основе которых был сформирован результирующий агрегированный показатель. При прогнозировании показателей точность обеспечивается за счет процедуры верификации модели прогнозирования на ретроспективном периоде.

По оценке Сергея Крысанова, степень точности можно оценивать только для однородных данных, поступающих в систему одинаковым способом, например для показаний счетчиков. В этом случае соответствующая задача становится формализуемой и можно подобрать математические методы для оценки погрешностей, устранения подозрительных значений (резко выделяющихся от остальных). Подобные алгоритмы используются банками, телекоммуникационными компаниями для распознавания мошеннических схем. Правда, и стоимость таких решений составляет сотни тысяч долларов.

Также существуют косвенные методы оценки точности данных, например через известную зависимость одного показателя от другого. В том случае, если расчетные значения зависимых показателей с заданной погрешностью соответствуют тем, которые поступают в BI-систему, можно говорить о приемлемом уровне их точности.

Для проверки правильности вводимой экспертами информации могут применяться алгоритмы логико-арифметического контроля нескольких типов, продолжает Михаил Федоров. "К первому типу относятся нормативные алгоритмы, основанные на законодательно закрепленных формулах расчета показателей. При применении таких алгоритмов не должно быть никаких потерь точности. К другому типу относятся алгоритмы, связанные с внутренними процессами предприятий, когда один и тот же показатель может рассчитываться по различным методикам. В этом случае точность расчета зависит от выбора экспертом той или иной методики".

Сергей Мень подчеркивает относительность понятия допустимого уровня погрешности и говорит, что он определяется исходя из многих факторов: назначения аналитической информации, задач, решаемых потребителями этой информации, их пожеланий, требований по скорости подготовки аналитики. Сергей Крысанов высказывается более определенно:

"Максимально допустимая погрешность определяется как такой уровень неточности данных, при которой их использование теряет смысл в контексте поставленной цели анализа. Расчет максимально допустимой погрешности возможен, когда есть возможность для численной оценки точности данных. Но даже в этом случае максимально допустимая погрешность скорее не рассчитывается, а устанавливается исходя из качественных оценок". То есть и здесь мы имеем дело скорее с чем-то интуитивно постигаемым, нежели формализуемым в формулах и цифрах.

Большие перемены

Как и любая другая информационная система, корпоративная бизнес-аналитика непрерывно развивается. Михаил Федоров уверен, что в современных условиях функционирование BI-системы не может быть эффективным, если не будет обеспечена возможность ее динамической адаптации.

"Процесс эксплуатации BI-системы предполагает постоянное совершенствование информационного контента системы – справочников, алгоритмов расчета, форм отчетности, аналитических панелей и других объектов, – говорит он. – Поэтому в своих решениях мы закладываем технологические возможности по обеспечению гибкой адаптации контента системы к новым требованиям".

Требование относится и к точности данных – они могут меняться по мере развития системы. Сергей Крысанов отмечает, что по мере изменения потребностей в аналитических данных возрастают требования к скорости принятия решений и качеству анализа, а значит – и к точности данных. Рано или поздно развитие бизнеса заставит владельцев сделать выбор в пользу инфраструктурных инвестиций или снижения точности.

Вера Семушина

Техноблог | Форумы | ТВ | Архив
Toolbar | КПК-версия | Подписка на новости  | RSS