2019-09-27

大量データを検索するサービスでElasticsearchはRDBの代替候補になりうるか？(Elasticsearch vs pg_bigm)

かみせん

みなさんこんにちは。フジサワです。前回の記事でお伝えしていたElasticsearchの検証がひと段落しましたので、検証結果をレポートいたします。

連載目次

はじめに

検証を行うにあたり、私たちは前回、以下の通りゴール設定をしました。

『検索機能を有する新規サービスのアーキテクチャ検討段階で、RDBだけでなくElasticseachが比較検討材料として挙がる状態を作る』

この検証を行うにあたり、以下のようなサービスをモデルとして設定しました。

扱うデータのレコード数は、多くても100万件オーダー
※当社はBtoB向けのサービス、かつ中小企業のお客様を主たる顧客層としているので、1顧客でウン千万件、ウン億件というようなレコードが発生するケースよりは上記程度のデータ量が検証対象としては妥当だろうと判断しました。
テキストデータに対する、中間一致検索（いわゆるLIKE検索）機能を持つ
※従来の技術領域を代替するもの、という位置付けでRDBでパフォーマンス劣化が発生しがちな中間一致検索を採用

また、当社ではRDBにPostgreSQLを採用する場合が多いのですが、デフォルトのPostgreSQLでは比較の余地がないので、PostgreSQLの全文検索プラグインであるpg_bigmを比較対象として採用することにしました。

結論から言うと…

2019-09-26

データ匿名化の指標：データ匿名化第5回

かみせん

こんにちは、株式会社ラクスで横断的にITエンジニアの育成や、技術推進、採用促進などを行っている開発管理課に所属している鈴木( @moomooya )です。

前回はデータを匿名化する際の一般化の例についてお話ししました。

tech-blog.rakus.co.jp

今回は匿名化したデータがどの程度匿名化されているか数値化する方法についてお話ししていこうと思います。

連載目次

2019-09-25

Excelで正規表現を使って置換する方法

Excel

こんにちは、新卒2年目のmrym_618です。
今回は、VBAやマクロを使わずに、Excelで正規表現を使って置換する方法についてまとめていきたいと思います。

はじめに
エディタを使って置換する方法
最後に

はじめに

最近、業務でExcelを正規表現を使って置換したいことがありました。
しかし、Excelの置換機能では、正規表現を使うことができませんでした。
VBAやマクロを使えばできそうですが、VBAやマクロの知識があまりないので少し難しそうだと思っていました。
そこで、もっと簡単に正規表現を使える方法について調べてみると、エディタを使うことでできることがわかりましたので、その方法を紹介していきたいと思います。

2019-09-19

匿名化のために行うデータ項目の一般化とは：データ匿名化第4回

かみせん

こんにちは、株式会社ラクスで横断的にITエンジニアの育成や、技術推進、採用促進などを行っている開発管理課に所属している鈴木( @moomooya )です。

前回はデータを匿名化していく手順と、匿名化したデータを比較するための情報量の算出についてお話ししました。

tech-blog.rakus.co.jp

今回は匿名化する中で一般化をする際の具体的な値の置き換え方法についてお話ししていこうと思います。

連載目次

2019-09-18

PostgreSQLのテーブルサイズの調べ方

PostgreSQL

こんにちは。最近、体型維持の目的で筋トレを始めたbadaikiです。

先日、業務でPostgreSQLのテーブルサイズを調査することがあり、PostgreSQLの仕様の理解が不足していると実感しました。今回はそのことについて備忘録的に書いていこうと思います。

はじめに
PostgreSQLのデータサイズの持ち方
- 概要
- TOASTテーブル
実際に取得してみる
- システムカタログ
- 取得手順
おわりに
参考

はじめに

冒頭にも記載しましたが、業務でPostgreSQLのテーブルサイズを調査する機会がありました。テーブルサイズを調査する上でPostgreSQLの仕様について理解したことや、テーブルサイズの調べ方をまとめていきます。

実は過去に資格受験でこの辺りを学習していたのですが、すっかり内容を忘れておりました。~~資格学習での知識って実用可能なレベルで理解するのは難しいですね...~~

PostgreSQLのデータサイズの持ち方

概要

PostgreSQLは固定長のページサイズ（通常8kB）を使用し、複数ページにまたがる行（tuple）を許しません。それによって大規模なフィールド値を直接格納することができません。そこでフィールド値を圧縮したり、複数の物理的な行に分割するTOASTと呼ばれる技法を用いたりして大規模なフィールド値を格納しています。

※なお、TOASTは可変長（varlena）表現を持つデータ型のみサポートしています。

2019-09-12

個人情報を匿名化するプロセス：データ匿名化第3回

かみせん

こんにちは、株式会社ラクスで横断的にITエンジニアの育成や、技術推進、採用促進などを行っている開発管理課に所属している鈴木( @moomooya )です。

前回は匿名化された個人情報において個人が特定されないとはどういうことなのかについてお話ししました。

tech-blog.rakus.co.jp

今回は匿名化のプロセスについてどういった手順で行うのかをお話ししていこうと思います。

第1回、第2回がこってりした文量になってしまったので今回は軽めに行きたいと思います。

連載目次

2019-09-11

若手エンジニアにおすすめ！ソフトウェアテストを学べるおすすめ書籍

テスト

こんにちは。新卒2年目のchoreiiです。
最近は会社所有の書籍を読むのが趣味になってきています。
今回のブログはそんな書籍のうちからソフトウェアテストに関する1冊を紹介します。

はじめに

今回紹介するのは「はじめて学ぶソフトウェアテストのソフト技法」という書籍になります。

RAKUS Developers Blog | ラクスエンジニアブログ

株式会社ラクスのITエンジニアによる技術ブログです。

大量データを検索するサービスでElasticsearchはRDBの代替候補になりうるか？(Elasticsearch vs pg_bigm)

連載目次

はじめに

結論から言うと…

データ匿名化の指標：データ匿名化第5回

連載目次

Excelで正規表現を使って置換する方法

はじめに

匿名化のために行うデータ項目の一般化とは：データ匿名化第4回

連載目次

PostgreSQLのテーブルサイズの調べ方

はじめに

PostgreSQLのデータサイズの持ち方

概要

個人情報を匿名化するプロセス：データ匿名化第3回

連載目次

若手エンジニアにおすすめ！ソフトウェアテストを学べるおすすめ書籍

目次

はじめに