Голубятня № 248


Возвращение поросячьего восторга. Часть первая

Одноименная «Голубятня» засветилась в эфире пять лет назад. Тогдашние пограничные переживания навеял текстовый редактор Ильи Ульянова CryptEdit (ныне – PolyEdit). От читателей наверняка не ускользнуло, что колонка наша страдает повышенной эмоциональной неуравновешенностью, однако подлинные срывы (как в положительную, так и в отрицательную стороны) случаются редко. Сегодня аккурат тот самый случай. Программа, о которой пойдет речь – ContentSaver, сразила меня не столько своей функциональностью, сколько мистической провиденцией. Сейчас поясню.

Когда незнакомые люди спрашивают: «Чем вы занимаетесь в жизни?», сразу теряюсь, бормочу нечленораздельное, заикаясь отшучиваюсь. В самом деле, что сказать-то? Ращу сына? Пишу статьи о компьютерных программах и книги об аферистах? Преподаю биржевой трейдинг? Страдаю астрологией и бриджем? Это, однако, частности. По гамбургскому счету своим главным занятием в жизни полагаю изыскание, накопление, обработку и анализ информации – всё вместе  DataMining–словцо хоть и гаденькое, английское, но уж больно ёмкое. Между прочим, занятие это самым недвусмысленным образом прописано в моем гороскопе: Асцендент в Близнецах и там же Меркурий, увешанный гроздьями аспектов. Короче, если долго объяснять, то что-то путное и получится, а так, на лету, незнакомым людям разве ж можно ответить: «Видите ли, я датамайнингист»? Либо сразу прибьют, либо заподозрят в нетрадиционных сексуальных домогательствах.

Возвращаюсь к провиденции. Конечно,  лопатя тонны софтверного навоза, с годами удалось отыскать ослепительные диаманты и в Data Mining. Особенно повезло с обработкой и анализом информации, поскольку судьба подарила нам такое бесценное сокровище как Cros, о котором писал, пишу и не перестану писать как о лучшей программе для создания структурированных информационных архивов и поиска в нем. К превеликому сожалению разработчики Cros практически прекратили совершенствовать свое детище, что не печалит несказанно: какой бы замечательной не была программа, работы в ней еще непочатый край – и радикальное преобразование наижутчайшего интерфейса, и непременное расширение функциональности, и глобальное переосмысление концепции в сторону user-friendly. Остаётся лишь удивляться гигантскому заряду мощности, заложенному в Cros уже сегодня, коли даже все перечисленные недостатки не в состоянии сместить колосса со своего пьедестала The Best.

Несоизмеримо хуже обстояли дела с программным обеспечением стартового этапа Data Mining – накоплением  информации . За долгие годы поиска не удалось найти ничего лучше китайской MyBase  - программы во всех отношениях убогой, хотя и выделяющейся из когорты еще более убогих аналогов. От херема MyBase спасал удачный модуль WebCollect, позволяющий собирать информацию из MSIE. Этим летом разработчики (Wjjsoft) добавили модуль WebCollect для браузера FireFox, однако у меня он так никогда и не заработал. С Opera MyBase взаимодействовать так и не научился.

Провиденция ContentSaver заключается в том, что программа блеснула на моем горизонте аккурат в момент, когда недостатки MyBase стали доводить меня даже не до отчаяния, а до нешуточного белого каления. Из-за врожденной концептуальной ущербности китайская программа медленно но верно привела все мои информационные архивы в состояние безнадежной энтропии и бардака. Какой, к чёрту, MyBase архивный систематизатор! Самый банальный накопитель заметок, к тому же подленький по натуре.

Поначалу жизнь кажется в шоколаде: находим какую-нибудь интересную заметку в интернете, выделяем часть текста либо всю страницу целиком, вызываем контекстное меню (опция Save to MyBase) и сохраняем заметку в уже существующем либо новом документе MyBase, который теоретически должен объединить в будущем данные общей тематики. Внутри своего документа MyBase организует информацию в банальной древовидной форме. Возможности динамической обработки материалов мизерны: можно экспортировать заметки из документа в файлы html, txt или другой файл MyBase, либо перетащить заметку из одной ветки дерева в другую. Всё, больше ничего. Поиск в Mybase реализован чудовищно – достаточно сказать, что отсутствует функция выделения (хайлайтинга), поэтому отыскать что-либо в какой-нибудь заметке килобайт под 50 нереально: программа открывает ее целиком, а дальше рой сам!

Не удивительно, что я всегда использовал MyBase в качестве незамысловатого контейнера a-la CHM: скидываешь всю информацию в один документ MyBase только ради того, чтобы ничего не потерялось по ходу. Затем экспортируешь все заметки из документа в какое-нибудь место на жестком диске и загоняешь их в Cros для индексирования и последующего быстрого поиска по ключевым словам и фразам. Никакой самостоятельной ценности в качестве архивного систематизатора MyBase не имеет.

Подобная схема работы туда-сюда приемлема для выполнения единичных задач, например, сбора материалов для статьи. Скажем, все свои аналитические «предпринимательские поэмы» в «Бизнес Журнале» я подготавливаю именно таким образом: собираю в документ MyBase материалы из множества разноплановых источников (газетные заметки, журнальные обзоры, протоколы судебных заседаний, рекламные проспекты, квартальная и годовая отчетность и т.п.), всё это перечитываю, перевариваю, формулирую собственную концепцию и видение предмета, затем сажусь писать. Если забываю дату или фамилию, тут же извлекаю ее их индексированного архива Cros, который создаю из заблаговременно экспортированных из MyBase файлов. Сдав статью в редакцию, благополучно забываю обо всем и через две недели готовлю новые материалы.

Прошли месяцы, прошли годы… Что же я получил на сегодняшний день? Сотни файлов с расширением NYF (документы MyBase), никак между собой не связанные, никак не обработанные, никак не осмысленные и абсолютно бесполезные для какого бы то ни было применения в будущем. Вопреки возлагаемым поначалу надеждам документы MyBase оказались такой же бесполезной макулатурой, что и несчетные документы html, doc и txt, сваленный в кучу и годами пылящиеся на антресолях директории «Documents» на одном из жестких дисков компьютера. Тоскливые памятники впустую растраченных интернет-часов, подхваченных, поматрошенных и брошенных благих намерений, начинаний и инициатив. Кладбище несбывшихся амбиций, одним словом.  

А всё почему? Всё потому, что подлинный архивный систематизатор должен обладать несоизмеримо большей функциональностью, чем примитивная древовидная система хранения материалов. Навскидку: праздно шатаясь по интернету, бывает наталкиваешься на информацию, которой в настоящий момент не находишь никакого применения, однако чувствуешь, что в перспективе она очень пригодится для самых различных тематических исследований. Вопрос: в каком документе MyBase следует эту информацию сохранить? Разумеется, ни о каком документе не должно быть и речи. Требуется полноценный объединенный архив, наделенный функцией категориальной индексации, что позволяет  соотносить одни и те же данные с различными тематиками.

Пример из личной практики: как-то раз, собирая материалы о «Маттел» (деловой мамке куклы Барби), натолкнулся на статью об использовании рабского детского труда на китайской фабрике компании. Тема эта показалась мне чрезвычайно фактурной, однако никаким боком не вписывалась в задуманную канву сюжета, посему был вынужден отложить ее до лучших времен, сохранив в документе MyBase под названием Mattel.hyf. И что же? Прошло три года и буквально на прошлой неделе, работая над статьей для «Бизнес Журнала» о так называемом «китайском экономическом чуде», я вдруг вспомнил о рабовладельческой тематике, которая как нельзя кстати вписывалась в новую историю. Открываю Mattel.nyf и нахожу добрые полтораста заметок и файлов, собранных в кучу без всякого разбора. Битый час ищу барбийных детишек-рабов и… не нахожу! Почему? Потому что их нет в этом документе MyBase. Пятнадцать минут недоуменно ионического (типа – баранного) созерцания потолка таки навели на истину: дело в том, что тема использования детского и рабского труда всплывала в моих исследованиях раз так пятнадцать! Да чего уж там: практически все пиндосские фирмы закрывают глаза на трудовые безобразия, творимые китайскими менеджерами на своих заводах: 40-часовая рабочая неделя, смехотворная зарплата, отобранные паспорта, колючая проволока вокруг предприятия, проживания здесь же на территории завода в бараках по 50 человек – всё это вполне житейские и банальные составляющие великого китайского экономического прорыва.

Ну да чёрт с ним, с прорывом: куда я запихал все эти материалы? С трудом вспоминаю, что года полтора назад, когда количество информации перешло в качество, решил его перескладировать и, собрав воедино все китайские ужастики, экспортировал в какой-то другой документ MyBase… А вот в какой – убейте меня, не помню!

Что можно сказать об этом безобразии? Позор! А ведь путаницу можно было элементарно избежать, если бы вместо MyBase у меня был полноценный архивный систематизатор, способный производить категориальную индексацию всех собранных материалов. Тогда бы изначально я сохранил статью про китайские фабрики «Маттел» в нескольких категориях: «Маттел», «Китай», «детский труд» и т.п. Добавьте сюда полноценный поисковый аппарат с, как минимум, возможностью перекрёстного поиска по разноплановым архивам, и вы получите настоящую составляющую взрослого Data Mining для накопления информации!

Короче говоря, такая недетская софтина нашлась – это немецкое чудо по имени ContentSaver, программа столь разнообразная и могучая, что для ее описания  я запланировал по меньшей мере две колонки. Овчинка, поверьте, выделки стоит. Если бы я ограничился поверхностной презентацией, типа: «Вот вам тут одна замечательная прога, качайте ее и кайфуте!», велика вероятность, что читатель просто прошел мимо, не оценив всей масштабности и универсальности ContentSaver. Между тем, это не очередная поделка на тему «авоськи для веб-серферов», а (как надеюсь, мне удалось ее позиционировать сегодня), революционная компьютерная программа, заполняющая собой уникальным образом вопиющую брешь в единой цепи Data Mining. Именно так и никак иначе.

Помимо этого, ContentSaver – программа довольно сложная и требует обстоятельного представления. Только не нужно пугаться: сложность эта совершенно иного порядка, чем недружелюбный в плане пользовательского интерфейса Cros. Работать с ContentSaver бесконечно просто и приятно: установил и уже через пять минут поехал. Вот только без должной подготовки и представления ехать придется со скоростью детского трехколесного велосипеда. Дело в том, что в ContentSaver есть огромное количество функций, которые в первом приближении полностью скрыты от глаз неподготовленного пользователя. Поскольку легкость и удобство работы с программой феноменальны, велик шанс, что самостоятельно до всех этих тонкостей ContentSaver  вы никогда и не доберетесь – не по наивности, разумеется, а от изнеженности: «Чего, мол, огород городить, коли и так все замечательно?» Вот только неправильно это: использовать болид Формулы I в качестве самоката! Так что – продолжим через неделю.

Линки, помянутые в Голубятне, вы найдете на домашней странице http://internettrading.net/guru

 

Как вы догадываетесь, стадию изыскания я сознательно опустил, поскольку процесс этот субъективный и зависит не от софтверного обеспечения, а от таланта и опыта датамайнингиста (прости господи!).

TopList