朝一で、この季節のお約束で、新府の共選場に行って、ハネダシの桃を購入。28個で1500円の魅力からか、相変わらずの人気ぶり。整理券がもらえない順番だったけど、ギリギリセーフだった。
さて、今週は連日昼間にやっていたDSA のOpen BBL が今日で終了。今回は、8つの分野でキーノートとパネルを進めてもらった。各回、なかなかに本音ベースの話もあり、今年も秋に発行する機関紙に、サマリーが掲載される予定だ。
ところで、今日も別なWeb会議でもデータの話題。しかし、データについて、根本的な部分で現状理解と共有への取り組みが,痛い方向に進んでるようで気になる。
データとは、「自然や人(法人を含む)の状態や活動を観測、または計測して、伝達、解釈または処理に適するように形式化され、複数のデータの組み合わせにより、情報を構成しうるもの」とすると、形式化することがデータ化とかデータ生成という行為になるんだろう。
でっ、自然や人(法人を含む)の状態や活動というのは、その対象は実に広範で気象のような自然を対象としたものから、最近よく目にしする人流などのよに人そのものもあれば、製造業の稼働率などにのような事業もある。
そのうえで、こういう観測、または計測される対象物に対して、データ化する時には、一定のIDなどの識別子が付される(コード化)わけだ。
さて、ここで現状はどうなってるかというと、データ化する方法や人によって、様々な形式化があり、それぞれが独自に形式化している。
たとえば、JR東京駅には、おそらくものすごい数のIDが様々なシステムで付番されているだろう。これは、個々人も同様で、僕という個人を指し示すIDは、様々なシステムの上で、様々に付番されている。この形態も、中には数字だけのものもあれば、英数字の組み合わせ、漢数字を含むものなどなど実に多様なものが、すでに社会には存在しているのが現状である。
となると、異なる人,組織,手法がデータ化したデータを連携をしようとした時に、どうしても多くの手間がかかる。そして、データ連携により生成される新しいデータには、再び新しいIDが付与されるのだから、無限ルーブなのだ。
そこで、少なくとも社会の中で共有されこるとの多い基本的な対象物については、一定の基準により形式化を定めようというのがベースレジストリーだと理解している。さて、となるとベースレジストリーなるものが、あらたにデータ化ということをやり出したら、なにも問題解決にはならない。
大事なことは、汎用性の高いデータについて、すでに数多存在しているデータのメタ情報とそこへの参照を集積して、登録することだと思っている。登録行為により当該のデータを公的組織がちゃんと認定することで、参照を増やすことで、おのずと重複な部分などは、淘汰されていくだろう。(なーんだ、このデータあっちにあるし、これ使えばいいいじゃんとなるケースは多くでてくるだろうということ)
標準化なんて仕事をしている人は、ANA(Assinged Number Authority)という仕組みや機能機関を知っているだろうけど、デジタル庁に期待してるのはそういうとこなんだよなぁ。
頼むから、またしても俺俺データモデルといいながら、新しいデータセットが増えるのだけは、止めて欲しいものだ。
夜は、東京からのお土産でもらった鰻。吉祥寺の老舗の鰻屋さんの蒲焼で、暑い夏対策。